Фундаментальные ограничения современных LLMs Интересное инте — @cryptonewsworld

68просмотров

25.0%от подписчиков

30 ноября 2025 г.

Score: 75

Фундаментальные ограничения современных LLMs Интересное интервью Ильи Суцкевера (бывшего главного инженера OpenAI, а ныне основателя Safe Superintelligence). Это его первое публичное выступление с декабря 2024, но учитывая, что он является архитектором современного ядра LLM, его взгляд ценен. Идеи Ильи практически полностью пересекаются с моими концепциями, высказанными в нескольких циклах материалов по ИИ в этом году, поэтому перескажу, по сути, собственные идеи словами Ильи, но с более научным обрамлением. Главный тезис Ильи заключается в том, что период с 2012 по 2020 годы был «эпохой исследований», которая сменилась «эпохой масштабирования» (2020–2025), когда доминировал простой рецепт: больше данных + больше вычислений = лучше результат. Дополню от себя: это выражается в экспоненциальном росте капитальных расходов, достигающих 400 млрд в 2025 среди бигтехов США и зеркалировании выручки у производителей оборудования для развертывания ИИ. • Предел данных: предварительное обучение (pre-training) упирается в конечность доступных данных. Простое увеличение масштаба модели больше не дает прежнего качественного скачка. • Смена парадигмы: если раньше вопрос «на каких данных учить?» не стоял (ответ был «на всех»), то теперь, особенно в RL (обучении с подкреплением), отбор данных и создание среды становятся критическими задачами. • Возврат к исследованиям: индустрия снова входит в фазу, где прогресс зависит не столько от размера кластера, сколько от новых идей и алгоритмов. Чрезвычайно неэффективное использование вычислительных мощностей: 🔘Современная архитектура трансформеров (Илья входил в число ключевых инженеров, которые преобразовали прототип архитектуры в текущую конфигурацию LLMs) была создана в 2017 на всего двух чипах в эквиваленте Blackwell, сейчас ИИ фабрики требуют миллионов чипов. 🔘Современные модели, несмотря на огромные объемы обучения, обобщают знания значительно хуже людей – им требуются миллионы и миллиарды примеров, чтобы совершать элементарные операции, где у людей уходят часы (10 часов практики, чтобы научиться водить машину у человека на базовом уровни и десятки тысяч часов обучающих видео у моделей). 🔘Pre-training – это статистическая проекция мира, созданная людьми. Модель не учится на реальности, она учится на текстовой проекции реальности, созданной людьми. Pre-training дает широту знаний, но не дает глубины физического понимания причинно-следственных связей. Поэтому модели галлюцинируют – у них нет «заземления» в реальности, только в статистике слов. 🔘Чрезвычайная узконаправленность – LLMs демонстрируют выдающиеся результаты в формализованных и натреннированных задачах, но небольшое отклонение в сторону – модель сразу рассыпается, эффективность снижается (человек способен обеспечивать более эффективный трансфер опыта из одной дисциплины в другую, а LLM – нет). 🔘Имитация компетентности – компании «надрачивают» бенчмарки, чтобы казаться сильнее, создавая инфоповоды (подтверждает мои опасения), бенчмарки больше не показательны. Это создает иллюзию интеллекта, которая рассыпается при смене контекста. «Ум» в тестах не всегда транслируется в надежность в реальных задачах. 🔘Нет функции ценности по интерпретации Ильи. Для LLMs нужно дойти до конца итерации, чтобы оценить результат, тогда как человек за счет интуиций и композиции эмоций может заранее понимать неправильный путь решения. Например, чувство дискомфорта или неуверенности возникает до завершения задачи, позволяя корректировать путь. Если модель думала 100 или 1000 шагов и в конце ошиблась, весь этот вычислительный путь часто отбрасывается или маркируется как негативный, где огромная энергия тратится впустую, а человек намного раньше (в процессе решения) понимает ошибочность пути. LLM могут генерировать правдоподобный текст, но не обладают внутренней «интуицией» о правильности направления рассуждений, пока не получат внешний фидбек. Основное концептуальное ядро в интервью – уже уперлись в потолок, дальнейшее масштабирование неэффект

Другие посты @cryptonewsworld