DData Funk

Data Funk

@datafunk💻 Технологии🇬🇧 English📅 март 2026 г.
📊 Полная статистика📝 Все посты
##39
255
Подписчики
495,273
Ср. охват
194.2%
Вовлечённость
11
Постов
В день

Графики

📊 Средний охват постов

📉 ERR % по дням

📋 Публикации по дням

📎 Типы контента

Лучшие публикации

11 из 11
Ddatafunk
datafunk
1 окт., 15:32

Вот крутите вы свой датасет, тщательно выбираете топ-k самых-самых фичей, а возможно тратите время зря. Вышла статейка, где авторы подошли к вопросу отбора фичей с точки зрения проверки нулевой гипотезы: значимо ли "умный" выбор отличается от случайного подмножества k признаков? Шок-контент: в 28 из 30 высокоразмерных наборов (геномика, изображения, масс-спектрометрия) священный рандом оказался сопоставим с обучением на всех фичах или на тех, что отобрали лучшими FS-методами. Конечно, возможно, ...

👁 2.5K📷 photo
Ddatafunk
datafunk
9 февр., 13:29

Если Вам кажется что традиционная статистика выглядит "мертвой" на фоне LLM/ViT/GNN, то так кажется не только Вам. В 2024-м топы статистики из Стэнфорда, Гарварда и CMU собрались на конфу "Statistics in the Age of AI". К чему пришли: - Колоссальные объемы данных снимают большинство ограничений, накладываемых на выучиваемые распределения. - Современные модели живут в тысячемерных пространствах и отлично себя чувствуют, что не укладывается в традиционное "проклятие размерности". - Просто предсказы...

👁 559
Ddatafunk
datafunk
25 мая, 11:13

Тут много картинок, но коротко отличия между этими группами такие: начинающие только учат код, либо для них это хобби, опытные работают/работали разработчиками. Образование начинающих - школа, опытных - некоторая степень. Начинающие предпочитают учиться кодингу на онлайн курсах/буткемпах, опытные - у коллег, на работе или по книгам. Также среди разработчиков с опытом в ответах на вопросы об их роли чаще фигурируют Embedded/devices, R&D, Desktop/enterprise, Manager и Senior Executive, а среди нач...

👁 418📷 photo
Ddatafunk
datafunk
5 нояб., 13:05

Традиционно эмбеддинги получаем нейросетями. Если хотите "экологически чистые" эмбединги🌳, то ребята из Королёвского колледжа Лондона сделали "деревянный" автоэнкодер. В отличие от классического варианта, тут кодер и декодер учатся независимо. Кодер работает как GAN: лес учится отличать реальные данные от синтетических, а из его листьев-ошибок семплируются всё более правдоподобные точки. После нескольких итераций лес перестает их различать. Так модель учит внутреннюю структуру данных. Затем для...

👁 381
Ddatafunk
datafunk
25 мая, 11:13

P.S. Еще попробовал ROCAUC заменить на PRAUC, результат показался хуже, но может его стоило как-то иначе интерпретировать.

👁 365
Ddatafunk
datafunk
15 февр., 11:32

В продолжение предыдущего поста, про статистику в современном мире. Недавно в универе Квебека показали, что обычный метод наименьших квадратов (OLS) математически полностью эквивалентен упрощенному механизму внимания из трансформеров если softmax заменить на линейную функцию. То, что в Attention называется Query, оказывается просто линейной проекцией ваших тестовых данных (для которых ищем ответ) в новое пространство, Key - проекция обучающей выборки в это же пространство. Считаем их скалярную б...

👁 309📷 photo
Ddatafunk
datafunk
28 окт., 08:55

В качестве примера взял 1.3 млн точек из множества Жюлиа (-0.123+0.745j), каждую точку соединил с ближайшими 8 соседями - получился граф с симметричной матрицей смежности X, которую слева и справа умножил на случайную ортонормированную матрицу R размером 1.3M на 130 (R сначала заполняется гауссовским шумом, а затем пропускается через быструю QR декомпозицию для ортонормировки): Y = (R^T)X*R, Так перешел от матрицы 1.3M х 1.3M к матрице 130 х 130. По теореме Пуанкаре собственные значения маленько...

👁 255📷 photo
Ddatafunk
datafunk
28 окт., 08:55

Не перестаю восхищаться JL леммой - случайная проекция из многомерного пространства в меньшее число измерений примерно сохраняет попарные расстояния между точками, это значит, ты можешь сжать данные, ускорить k-nn или получить примерный собственный спектр, если применить случайную проекцию сразу к колонкам и строчкам симметричной матрицы, что я и сделал.

👁 213
Ddatafunk
datafunk
25 дек., 11:05

И вот лайфхак: ребята из Гарварда предлагают безопасно прикрутить сюда LLM, т.е. смешать реальные данные и синтетические. Самое главное - дают гарантию "это точно не навредит оценке теста" и доказывают, что дисперсия не станет хуже, чем при обычном AIPW. Суть подкупает простой: просим LLM предсказать поведение пользователей в эксперименте, и строим новую оценку эффекта по ее прогнозу. Для каждого пользователя в табличку с наблюдениями теста добавляется две колонки: S - оценка эффекта, посчитанна...

👁 193📷 photo
Ddatafunk
datafunk
25 дек., 11:04

Если гоняете A/B-тесты, то AIPW (Augmented Inverse Probability Weighting) это популярный вариант их оценки с помощью ML. Моделируем целевую метрику (Y) пользователя X в группе A (флаг группы = 0/1) - f(X), вероятность попадания в группу - prob(X). И сырой Y меняем на скорректированный: Ynew = A*(Y - f(X))/prob(X) + f(X). Итоговый эффект теста это средняя разница между Ynew в тестовой и контрольной группах по всем пользователям. Такой подход делает оценку эффекта надежнее за счет дополнительных з...

👁 154

Типы хуков

Нейтральный9 | 568 просм.
Вопрос1 | 81 просм.
Статистика1 | 255 просм.

Длина постов

Длинные (500-1000)6 | 642 просм.
Очень длинные (1000+)3 | 340 просм.
Короткие (<200)1 | 365 просм.
Средние (200-500)1 | 213 просм.

Типы контента

📷
5
photo
739 просм.
📝
6
text
292 просм.