З
Заметки дата-сатаниста
@my_datascience280 подп.
1.2Kпросмотров
11 мая 2023 г.
Score: 1.3K
Всем привет! Недавно опубликовали опенсорсную модель StarCode, которая использует 8к токенов для контекста, что в 2 раза больше, чем у ChatGPT. Как можно понять из названия, модель заточена на написание кода. Авторы говорят, такая длина контекста позволяет использовать модель как виртуального помощника и передавать туда большие куски кода. Мое использование ChatGPT в основном ограничивается написанием или дебагом кода. Появление StarCode радует, не дает переживать по поводу возможных банов на сторонних сервисах от OpenAI. Для этой модели уже есть и расширение в VSCode, которое можно использовать как альтернативу Copilot. А вот статья на целых 50+ страниц для ценителей подробностей. Внутри модели 15 млрд. параметров и тренировали ее на 512 x Tesla A100 в течение 24 суток. В статье отдельно приведен блок про выбросы СО2 из-за обучения этой модели - суммарно почти 17 тонн эмиссии углеродного газа. Еще в статье уделено большое значение jupyter-ноутбукам, как источнику кода. Не думал, что его будут использовать для таких задач - редко встречал ноутбуки с кодом в идеальном состоянии, но авторы проделали большую работу по очистке данных для обучения, поэтому думается, что хорошие и красивые ноутбуки были найдены. Судя по бенчмаркам, эта модель в два раза качественнее той, которая сейчас крутится на HuggingChat. Сравнение делали для кода на python, здесь можно найти предвзятость. Пару дней буду пользоваться, если понравится, оставлю в редакторе.
1.2K
просмотров
1474
символов
Нет
эмодзи
Нет
медиа

Другие посты @my_datascience

Все посты канала →
Всем привет! Недавно опубликовали опенсорсную модель StarCod — @my_datascience | PostSniper