/How Much Knowledge Can You Pack into a LoRA Adapter without — @mashin_learning_tv

1.4Kпросмотров

21 февраля 2025 г.

questionScore: 1.6K

/How Much Knowledge Can You Pack into a LoRA Adapter without Harming LLM?/ Long time no see! Но как не вернуться и не рассказать про собственную статью) Первую статью, которую опубликовали в Core A, где ты один из первых авторов, и которую писала в ночь перед дедлайном до 5 утра. Незабываемые все ощущения, особенно рада, что хвалила себя и праздновала сразу после отправки и до вердикта, потому что хвалить надо за приложенные усилия. Давайте про статью) Когда мы дообучаем модель под конкретную задачу, то, как правило, мы трекаем метрики качества этой задачи, но не знаем, что мы сломали в этой модели по дороге. Давайте проанализируем это на конкретной задаче. Возьмем Llama 3.1 8b Instruct, LoRA и постараемся дообучить модель знаниям, которые она не знала до этого. Знания в этом случае — это правильные ответы на вопросы. Как мы трекаем, что модель чему-то разучается? Во-первых, внутренние метрики. Я писала про категории знаний, и мы пытаемся проверить, сколько ответов на вопросы из теста модель из HighlyKnown перевела в Unknown (отрицательный сдвиг), и из Unknown в HighlyKnown (положительный сдвиг). Во-вторых, внешние метрики, мы проверяем, на сколько модель теряет reasoning skills на MMLU и ThruthfulQA после дообучения модели. 💥 Что мы узнали? Модель может выучить до 3000 новых знаний, при этом подмешивание в обучении парафраз или HighlyKnown знаний на каждое знание, которое модель не знает, может помочь модели не растерять ее способности. При этом подмешивание HighlyKnown знаний помогает увеличить положительный сдвиг, уменьшая отрицательный сдвиг. В противовес подмешивание парафраз на каждое знание, которое модель не знает, меньше ухудшает reasoning на MMLU и TruthfulQA. 👀 Что было неожиданным? 💥При обучении новым знаниям модель выучивает не только то, чему ее учили, но и дополнительные знания. Что это за знания такие? Как правило, это знания из того же домена (по структуре графа знаний): например, если мы учили модель правильно называть столицу штата, она выучивает и другие столицы штатов. 💥После обучения убивается способность модели быть неуверенной и говорить "я не знаю ответ на вопрос". 💥Если количество парафраз или HighlyKnown знаний в ответ на вопрос было небольшим на каждое новое знание, модель может выродиться всего в несколько ответов. Например, если в обучении несколько раз встречался ответ "Moscow", то на тестовых вопросах этот ответ встретится в 60% случаев, хотя на самом деле встречается всего в 2% случаев. Важно! Модель училась и тестировалась на вопросах, которые были сгенерированы из троек графов знаний, то есть не попадали в обучение той же Llama 3.1 8b Instruct. Статья, GitHub #nlp

Другие посты @mashin_learning_tv