BIGDATA_1 Telegram 961
🧩 Critique Fine-Tuning (CFT): новая парадигма обучения LLM

Вместо классического Supervised Fine-Tuning (SFT), где модель учится имитировать «правильные» ответы, авторы предлагают Critique Fine-Tuning (CFT) — обучение через генерацию критики к шумным (и часто ошибочным) ответам.

🔬 Суть подхода:
- Вход: (инструкция x + ответ y)
- Цель: сгенерировать содержательную критику c
- Модель обучается анализировать, а не повторять


📦 Данные:
🔹 WebInstruct-CFT (50K) — критику сгенерировал GPT-4o к оригинальным, часто ошибочным ответам
🔹 Также сформированы baseline-наборы:
- WebInstruct-SFT (ошибочные ответы, 50K)
- WebInstruct-verified (вручную верифицированные GPT-4o, 50K)
- WebInstruct-GPT-4o (ответы от GPT-4o, 50K)

Дополнительно:
- WebInstruct-CFT-Tiny (4K) — для экономного fine-tuning моделей 32B
- Сгенерированы критики к MetaMathQA и NuminaMath


🧠 Обучение:
Модели: Qwen2.5, Qwen2.5-Math, DeepSeekMath (7B и 32B)

Обучение — генерация критики, а не ответов
Формат: concat(x, y) → c


📈 Результаты:
7B модели:
- Qwen2.5-Math-7B (base) → 37.8% avg accuracy
- +CFT56.0% — лучший результат среди 7B

32B модели:
- Qwen2.5–32B-Instruct-CFT (4K) превзошла Sky-T1–32B-Preview (17K)


🔗 Ресурсы:
- 📄 Blog
- 🛠️ Paper
- 📊 Code
- 📝 Dataset

CFT показывает, что генерация критики — мощный способ учить модели анализу и обоснованности, а не только подражанию. Подход уже сегодня улучшает производительность на математических задачах с ограниченным количеством данных.

👉 @bigdata_1
👍3



tgoop.com/bigdata_1/961
Create:
Last Update:

🧩 Critique Fine-Tuning (CFT): новая парадигма обучения LLM

Вместо классического Supervised Fine-Tuning (SFT), где модель учится имитировать «правильные» ответы, авторы предлагают Critique Fine-Tuning (CFT) — обучение через генерацию критики к шумным (и часто ошибочным) ответам.

🔬 Суть подхода:
- Вход: (инструкция x + ответ y)
- Цель: сгенерировать содержательную критику c
- Модель обучается анализировать, а не повторять


📦 Данные:
🔹 WebInstruct-CFT (50K) — критику сгенерировал GPT-4o к оригинальным, часто ошибочным ответам
🔹 Также сформированы baseline-наборы:
- WebInstruct-SFT (ошибочные ответы, 50K)
- WebInstruct-verified (вручную верифицированные GPT-4o, 50K)
- WebInstruct-GPT-4o (ответы от GPT-4o, 50K)

Дополнительно:
- WebInstruct-CFT-Tiny (4K) — для экономного fine-tuning моделей 32B
- Сгенерированы критики к MetaMathQA и NuminaMath


🧠 Обучение:
Модели: Qwen2.5, Qwen2.5-Math, DeepSeekMath (7B и 32B)

Обучение — генерация критики, а не ответов
Формат: concat(x, y) → c


📈 Результаты:
7B модели:
- Qwen2.5-Math-7B (base) → 37.8% avg accuracy
- +CFT56.0% — лучший результат среди 7B

32B модели:
- Qwen2.5–32B-Instruct-CFT (4K) превзошла Sky-T1–32B-Preview (17K)


🔗 Ресурсы:
- 📄 Blog
- 🛠️ Paper
- 📊 Code
- 📝 Dataset

CFT показывает, что генерация критики — мощный способ учить модели анализу и обоснованности, а не только подражанию. Подход уже сегодня улучшает производительность на математических задачах с ограниченным количеством данных.

👉 @bigdata_1

BY BigData




Share with your friend now:
tgoop.com/bigdata_1/961

View MORE
Open in Telegram


Telegram News

Date: |

In the next window, choose the type of your channel. If you want your channel to be public, you need to develop a link for it. In the screenshot below, it’s ”/catmarketing.” If your selected link is unavailable, you’ll need to suggest another option. A few years ago, you had to use a special bot to run a poll on Telegram. Now you can easily do that yourself in two clicks. Hit the Menu icon and select “Create Poll.” Write your question and add up to 10 options. Running polls is a powerful strategy for getting feedback from your audience. If you’re considering the possibility of modifying your channel in any way, be sure to ask your subscribers’ opinions first. There have been several contributions to the group with members posting voice notes of screaming, yelling, groaning, and wailing in different rhythms and pitches. Calling out the “degenerate” community or the crypto obsessives that engage in high-risk trading, Co-founder of NFT renting protocol Rentable World emiliano.eth shared this group on his Twitter. He wrote: “hey degen, are you stressed? Just let it out all out. Voice only tg channel for screaming”. The initiatives announced by Perekopsky include monitoring the content in groups. According to the executive, posts identified as lacking context or as containing false information will be flagged as a potential source of disinformation. The content is then forwarded to Telegram's fact-checking channels for analysis and subsequent publication of verified information. Select: Settings – Manage Channel – Administrators – Add administrator. From your list of subscribers, select the correct user. A new window will appear on the screen. Check the rights you’re willing to give to your administrator.
from us


Telegram BigData
FROM American