MATHMODELS Telegram 1293
"Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens" от исследователей из Arizona State University:
🧠 Основная идея
Авторы ставят под сомнение, действительно ли Chain-of-Thought (CoT) — пошаговое рассуждение, вызываемое у больших языковых моделей (LLMs) — является проявлением настоящего мышления. Они утверждают, что CoT — это не логическое рассуждение, а структурированное воспроизведение шаблонов, выученных на тренировочных данных.
🔍 Ключевые тезисы
1. CoT работает только в пределах обучающего распределения
Модели хорошо справляются с задачами, похожими на те, что были в обучении.
При малейшем отклонении (новая задача, формат, длина) — CoT начинает давать сбои.
2. CoT — это не мышление, а паттерн-матчинг
Модель не рассуждает, а воспроизводит шаблоны, которые она видела.
Пример: модель может правильно описать правило високосного года, но сделать логически противоречивый вывод.
3. DATAALCHEMY — экспериментальная среда
Авторы создали контролируемую среду, где обучали LLM с нуля.
Они проверяли CoT по трём осям:
Задача: насколько модель справляется с новыми типами задач.
Длина рассуждения: как меняется качество при увеличении/уменьшении количества шагов.
Формат запроса: насколько чувствительна модель к изменению формулировки.
4. CoT ломается при малейших изменениях
Даже небольшие изменения в формате запроса (вставка, удаление слов) резко снижают точность.
Модель может давать правильные шаги рассуждения, но неправильный ответ — и наоборот.
📉 Выводы и последствия
CoT — это иллюзия мышления, не отражающая настоящую способность к логическому выводу.
Файнтюнинг может временно «залатать» модель, но не решает проблему обобщения.
Практикам не стоит слепо доверять CoT в критических областях (медицина, финансы).
Исследователям стоит искать новые архитектуры, способные к настоящему выводу, а не к имитации.
2👍1



tgoop.com/MathModels/1293
Create:
Last Update:

"Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens" от исследователей из Arizona State University:
🧠 Основная идея
Авторы ставят под сомнение, действительно ли Chain-of-Thought (CoT) — пошаговое рассуждение, вызываемое у больших языковых моделей (LLMs) — является проявлением настоящего мышления. Они утверждают, что CoT — это не логическое рассуждение, а структурированное воспроизведение шаблонов, выученных на тренировочных данных.
🔍 Ключевые тезисы
1. CoT работает только в пределах обучающего распределения
Модели хорошо справляются с задачами, похожими на те, что были в обучении.
При малейшем отклонении (новая задача, формат, длина) — CoT начинает давать сбои.
2. CoT — это не мышление, а паттерн-матчинг
Модель не рассуждает, а воспроизводит шаблоны, которые она видела.
Пример: модель может правильно описать правило високосного года, но сделать логически противоречивый вывод.
3. DATAALCHEMY — экспериментальная среда
Авторы создали контролируемую среду, где обучали LLM с нуля.
Они проверяли CoT по трём осям:
Задача: насколько модель справляется с новыми типами задач.
Длина рассуждения: как меняется качество при увеличении/уменьшении количества шагов.
Формат запроса: насколько чувствительна модель к изменению формулировки.
4. CoT ломается при малейших изменениях
Даже небольшие изменения в формате запроса (вставка, удаление слов) резко снижают точность.
Модель может давать правильные шаги рассуждения, но неправильный ответ — и наоборот.
📉 Выводы и последствия
CoT — это иллюзия мышления, не отражающая настоящую способность к логическому выводу.
Файнтюнинг может временно «залатать» модель, но не решает проблему обобщения.
Практикам не стоит слепо доверять CoT в критических областях (медицина, финансы).
Исследователям стоит искать новые архитектуры, способные к настоящему выводу, а не к имитации.

BY Mathematical Models of the Real World


Share with your friend now:
tgoop.com/MathModels/1293

View MORE
Open in Telegram


Telegram News

Date: |

During a meeting with the president of the Supreme Electoral Court (TSE) on June 6, Telegram's Vice President Ilya Perekopsky announced the initiatives. According to the executive, Brazil is the first country in the world where Telegram is introducing the features, which could be expanded to other countries facing threats to democracy through the dissemination of false content. How to build a private or public channel on Telegram? Your posting frequency depends on the topic of your channel. If you have a news channel, it’s OK to publish new content every day (or even every hour). For other industries, stick with 2-3 large posts a week. Informative “Hey degen, are you stressed? Just let it all out,” he wrote, along with a link to join the group.
from us


Telegram Mathematical Models of the Real World
FROM American