З
Записки MLEшника
@yet_another_mle777 подп.
1.9Kпросмотров
10 февраля 2025 г.
Score: 2.1K
Ни для кого не секрет, что лекции Карпатого - это концентрат знаний Сегодня на обзоре Deep Dive into LLMs like ChatGPT (обзор на лекцию, реально?!) О чем? Из каких строительных блоков состоит LLM, и как ее учат, чтобы получит чат-асистента Что показалось мне интересным: 1. Андрей разбирает, почему есть "глупые ошибки" - "Сколько r в strawberry?" - потому что токенизация по токенам, а не по буквам - "Что больше 9.11 или 9.9?" - что модель путают библейские тексты, в которых 9.11 идет позже 9.9 - "Кто тебя создал?" - в модели этого нет (если не заложить), потому что она умеет только продолжать тексты 2. Откуда берутся галлюцинации, и как можно с ними бороться - Почему галлюцинации - потому что модели раньше не учили говорить "я не знаю". Тут на SFT этапе нужно найти вопросы, на которые модель не знает ответов, и сделать для них ответ - "я не знаю" - Можно научить модель гуглить в случаях, когда она не знает ответ 3. Объяснил идею DeepSeek R1 4. Поделился, как следит за прогрессом в LLM - lmarena - ainews рассылка - X(twitter) Определенно будет вам полезно, если не супер погружены в LLM движуху
1.9K
просмотров
1146
символов
Нет
эмодзи
Нет
медиа

Другие посты @yet_another_mle

Все посты канала →
Ни для кого не секрет, что лекции Карпатого - это концентрат — @yet_another_mle | PostSniper