MATHMODELS Telegram 1274
Мы не понимаем почему большие языковые модели такие умные!

Сначала модели опираются на положение слов в предложении.
По мере накопления данных происходит скачкообразное переключение — сеть начинает понимать смысл слов, игнорируя их порядок.
Это поведение напоминает фазовый переход в физике: как вода превращается в пар - количество переходит в качество.
Такой переход — своего рода «момент озарения», когда сеть отказывается от «зубрёжки» и начинает осмыслять язык.

И хотя архитектура моделей вроде трансформеров хорошо изучена, ключевые моменты — как из статистики и механики вдруг выныривает смысл — всё ещё остаются загадкой.

🔍 Этот «момент озарения» показывает: ИИ в какой-то момент отказывается от простой логики (положение слов) и начинает использовать семантику (значение слов). Это напоминает ситуацию, когда человек вдруг понимает, а не просто повторяет.

Такое поведение сложно предсказать: нейросети обучаются миллиардами параметров, и их коллективное поведение оказывается больше, чем сумма частей. Поэтому учёные теперь всё чаще обращаются к методам физики, биологии и теории сложных систем, чтобы хоть как-то объяснить этот феномен.

Краткий пересказ и перевод аннотации:

Учёные провели теоретический анализ того, как в нейросетях возникает семантическое внимание — способность модели понимать смысл слов, а не просто их порядок.

📌 Основные идеи:
На ранних этапах обучения языковые модели используют позиционное внимание — ориентируются на расположение слов.

При накоплении большого объёма данных происходит резкий переход к семантическому вниманию — модель начинает учитывать значение слов.

Этот переход напоминает фазовый переход в физике: как вода внезапно превращается в пар.

Авторы изучили нелинейный слой внимания с обучаемыми матрицами запросов и ключей, и вывели точную формулу для глобального минимума функции потерь.

Показано, что семантический механизм работает лучше, чем линейный позиционный, если данных достаточно.

📎 Исследование помогает понять, почему большие языковые модели вдруг начинают "понимать", и как это связано с количеством обучающих примеров.

https://iopscience.iop.org/article/10.1088/1742-5468/ade137
👍51



tgoop.com/MathModels/1274
Create:
Last Update:

Мы не понимаем почему большие языковые модели такие умные!

Сначала модели опираются на положение слов в предложении.
По мере накопления данных происходит скачкообразное переключение — сеть начинает понимать смысл слов, игнорируя их порядок.
Это поведение напоминает фазовый переход в физике: как вода превращается в пар - количество переходит в качество.
Такой переход — своего рода «момент озарения», когда сеть отказывается от «зубрёжки» и начинает осмыслять язык.

И хотя архитектура моделей вроде трансформеров хорошо изучена, ключевые моменты — как из статистики и механики вдруг выныривает смысл — всё ещё остаются загадкой.

🔍 Этот «момент озарения» показывает: ИИ в какой-то момент отказывается от простой логики (положение слов) и начинает использовать семантику (значение слов). Это напоминает ситуацию, когда человек вдруг понимает, а не просто повторяет.

Такое поведение сложно предсказать: нейросети обучаются миллиардами параметров, и их коллективное поведение оказывается больше, чем сумма частей. Поэтому учёные теперь всё чаще обращаются к методам физики, биологии и теории сложных систем, чтобы хоть как-то объяснить этот феномен.

Краткий пересказ и перевод аннотации:

Учёные провели теоретический анализ того, как в нейросетях возникает семантическое внимание — способность модели понимать смысл слов, а не просто их порядок.

📌 Основные идеи:
На ранних этапах обучения языковые модели используют позиционное внимание — ориентируются на расположение слов.

При накоплении большого объёма данных происходит резкий переход к семантическому вниманию — модель начинает учитывать значение слов.

Этот переход напоминает фазовый переход в физике: как вода внезапно превращается в пар.

Авторы изучили нелинейный слой внимания с обучаемыми матрицами запросов и ключей, и вывели точную формулу для глобального минимума функции потерь.

Показано, что семантический механизм работает лучше, чем линейный позиционный, если данных достаточно.

📎 Исследование помогает понять, почему большие языковые модели вдруг начинают "понимать", и как это связано с количеством обучающих примеров.

https://iopscience.iop.org/article/10.1088/1742-5468/ade137

BY Mathematical Models of the Real World


Share with your friend now:
tgoop.com/MathModels/1274

View MORE
Open in Telegram


Telegram News

Date: |

To view your bio, click the Menu icon and select “View channel info.” Telegram message that reads: "Bear Market Screaming Therapy Group. You are only allowed to send screaming voice notes. Everything else = BAN. Text pics, videos, stickers, gif = BAN. Anything other than screaming = BAN. You think you are smart = BAN. Developing social channels based on exchanging a single message isn’t exactly new, of course. Back in 2014, the “Yo” app was launched with the sole purpose of enabling users to send each other the greeting “Yo.” The best encrypted messaging apps The channel also called on people to turn out for illegal assemblies and listed the things that participants should bring along with them, showing prior planning was in the works for riots. The messages also incited people to hurl toxic gas bombs at police and MTR stations, he added.
from us


Telegram Mathematical Models of the Real World
FROM American