1.3Kпросмотров
23 февраля 2024 г.
Score: 1.4K
Если вам наскучили трудовые будни, посмотрите новое ML инженерное видео от Андрея Картпаты. С этим материалом вы:
- разберётесь, наконец, вспомните особенности UTF-8
- напишите прямую реализацию токенайзера
- посмотрите открытые библиотеки токенизации
- поймете магические регулярки для препроцессинга текста в GPT-2-4
- осознаете важность токенизации (!)
- увидите как можно заставить ChatGPT выдавать неправильно на граничных случаях токенизации. Внимание! В процессе просмотра возникает непреодолимое желание открыть консоль и поэксперементировать. Поэтому не обращайте внимание на то что видео всего 2,5 часа, скорее всего, это отнимет у вас гораздо больше времени.