1.3Kпросмотров
10 марта 2026 г.
question📷 ФотоScore: 1.4K
🗿Кризис реплицируемости: глубже, чем мы подозревали? Кризис реплицируемости в экономике уже хорошо измерен. Среди статей, где вообще удаётся достать данные и код, полностью воспроизвести результаты в разных исследованиях получается от 30 до 60% результатов (Christensen, Miguel, 2018). Подробное исследование по American Economic Journal: Applied Economics даёт схожие цифры: для неконфиденциальных данных полная репликация получается примерно в 38-43% случаев, а если учитывать весь массив статей - порядка 25-38% (Herbert et al., 2021) При этом у экономистов есть честная серая зона: часть исследований опирается на административные, коммерческие или защищённые микроданные, которые нельзя просто выложить. Здесь журналы и авторы прямо пишут о конфиденциальности, и это понятное ограничение. Но рядом существует другая, гораздо более проблемная серая зона: когда в статье стоит "data available upon request", никаких репозиториев нет, а доступ к данным завязан на личную почту и мотивацию автора. ❌Data is NOT available upon request
Работу с таким названием опубликовал Йан Хасси, он массово разослал запросы авторам статьей, где данные были доступны только по запросу (Hussey, 2025). Полные датасеты содержат только 27% работ, а среди статей с формулировкой "данные предоставляются по запросу" получить данные получилось только в 17% случаев. К похожим неутешительным выводам приходят и медики: Обзор в области медицины и здравоохранения (medical and health sciences) приходит к тому же: data‑statements есть почти у всех, а реальные данные и код доступны у существенно меньшей доли - до 37% в медицине и до 23% в health science (Hamilton et al., 2023) В экономике картина схожа. В проекте по AEJ: в Applied Economics значимая часть провалов репликации связана именно с тем, что пакеты данных и кода неполные, не соответствуют описанию или недоступны, несмотря на формальные заявления (Herbert et al., 2021). Работа по German Socio‑Economic Panel показывает, что пока данные и код остаются "у автора" и гипотетически доступны "по запросу", системная реплицируемость остаётся низкой; устойчивый рост начинается там, где журналы требуют и проверяют репозитории при публикации (Fink, Marcus, 2024) 😱Вау, у нас первый пост, в котором выводы занимают чуть больше трети поста И здесь появляется важный практический выход, особенно для тех случаев, когда данные действительно конфиденциальны. Даже если сами индивидуальные наблюдения нельзя раскрыть, авторы могут публиковать:
1️⃣полный код для возможности реплицировать все расчёты 2️⃣генератор "синтетических" данных: скрипт, который создаёт искусственную выборку с той же структурой, распределениями и зависимостями, что и реальные данные 3️⃣подробные характеристики выборки и ключевых переменных (распределения, корреляции, описательные таблицы) Такой пакет позволяет другому исследователю запустить код на синтетических данных, проверить корректность процедур, оценить чувствительность результатов к методологическим решениям и, при наличии доступа к аналогичным защищённым данным, воспроизвести анализ уже на своей стороне. Это превращает репликационный пакет в самостоятельный исследовательский актив: даже без раскрытия "сырых" данных он снижает асимметрию информации, уменьшает потери от возможных ложных выводов и облегчает расширение фронтира Из забавного: для статей с кодом для репликации характерно более высокое число цитирований [мы осознаем, что здесь явный самоотбор в хорошие издания с политикой публикации кодов и датасетов, но мечтать не вредно 🤪] #канал_обозревает
@causal_channel