ATOMICCHERRY Telegram 705
Так как завтра, согласно заверениям Илона Маска, будет выпущена нейросеть Grok 3 – ответ на китайскую DeepSeek, и мы станем свидетелями очередного витка компьютерной войны США и КНР, то стоило бы тезисно, пусть и с опозданием, обсудить некоторые интересные факты о китайской языковой модели.

Подобно буму доткомов 2000-ых, когда достаточно было зарегистрировать сайт (невероятная инновация!), и вот деньги инвесторов уже текли твоей компании рекой (спойлер – кончилось все быстро и печально), 2024 год стал годом бума больших языковых моделей (не совсем корректно именуемых ИИ), причем инвестиций в это было привлечено кратно больше, нежели 24 года назад.

Что оно делает и почему оно так дорого? Если в двух словах, то нам необходимо взять огромный (очень, очень большой) объем текстовой информации и прогнать его через огромный (и очень, очень дорогой) массив параллельных процессоров (в 99% используются видеокарты или специальные чипы от NVIDIA, что обусловило космический рост акций компании, превзошедшей стоимость всей саудовской нефти и русского газа) для того, чтобы построенная по вероятностным правилам модель научилась угадывать (в буквальном смысле!) то, что пользователь сочтет за осмысленный ответ на вопрос.

Очевидно, что с интеллектуальной точки зрения данное творение недалеко ушло от пресловутой машины Луллия, над которой иронизировал еще Свифт в своих «Путешествиях Гулливера». Дабы модель угадывала получше и давала более осмысленные ответы, нежели случайный подбор слов, требуется огромный объем данных, который позволяет сгенерировать самое ценное – нужные веса (грубо говоря – вероятностные коэффициенты) для различных сочетаний слов, которые она выдает.

Естественно, исходя из таких вводных, мы неизбежно получаем текущее состояние рынка: железо, нужное для обучения модели, стоит сотни миллионов, времени это занимает около года, сама модель настолько громоздка, что работает только в терминальном режиме, крутясь в датацентрах, модель довольно часто галлюцинирует (официальный термин), выдавая в ответ на вопрос какие-то причудливые, малоосмысленные и совершенно нерелевантные ответы.

Для преодоления последнего недостатка недавно была предпринята попытка обратится к т.н. Model-based reasoning – старой идее классического ИИ 1980-ых – попытаться добавить к вероятностному выводу набор правил логического вывода, соответствующих какой-либо онтологии (базе фактов и их отношений), что позволяет отсеять совсем уж бредовые ответы. Созданная таким образом o1 от OpenAI несколько месяцев назад поразила неокрепшие умы обозревателей, отвечая значительно лучше обыкновенных вероятностных моделей.

И тут на рынке появляется то, что разрывает все шаблоны – китайская модель DeepSeek. Она почти бесплатна (o1 стоит $200, DeepSeek R1 – это 50 вопросов в день), разработана в полной тайне и с большой скоростью буквально за год-полгода (OpenAI шла к o1 десять лет) – и все это в условиях жесточайшего эмбарго США на поставки мощных видеокарт NVIDIA в Китай. И она не отличается от o1 по качеству ответов, превосходя обычные версии ChatGPT.

Естественно, на фоне происходящего за был сделан самый тривиальный вывод из возможных: китайцы – это гении, способные с легкостью и за малые средства сделать то, что янки не могут создать за 10 лет и 100 миллиардов, причем еще и обучить модель едва ли не на кластере из телефонов Meizu.

За несколько часов после появления DeepSeek фондовый рынок США рухнул вниз на триллион долларов, из которых NVIDIA потеряла 600 миллиардов – крупнейший крах за всю историю капитализма.

Но, как говорил советский физик Ландау, прежде чем принимать на основе того, что вам сказали, какую-то невероятную теорию, опровергающую все, что вы знали, подумайте над более простым ответом – вам просто соврали. При ближайшем рассмотрении прорыв DeepSeek можно объяснить куда проще, нежели какой-то неземной технологией, на поколение превосходящей все, чего добились янки.

Китайцы поступили ровно так же, как поступали всегда (а до них японцы, корейцы и вообще все азиаты). Они взяли набор известных языковых моделей и улучшили его.

@atomiccherry 💯



tgoop.com/atomiccherry/705
Create:
Last Update:

Так как завтра, согласно заверениям Илона Маска, будет выпущена нейросеть Grok 3 – ответ на китайскую DeepSeek, и мы станем свидетелями очередного витка компьютерной войны США и КНР, то стоило бы тезисно, пусть и с опозданием, обсудить некоторые интересные факты о китайской языковой модели.

Подобно буму доткомов 2000-ых, когда достаточно было зарегистрировать сайт (невероятная инновация!), и вот деньги инвесторов уже текли твоей компании рекой (спойлер – кончилось все быстро и печально), 2024 год стал годом бума больших языковых моделей (не совсем корректно именуемых ИИ), причем инвестиций в это было привлечено кратно больше, нежели 24 года назад.

Что оно делает и почему оно так дорого? Если в двух словах, то нам необходимо взять огромный (очень, очень большой) объем текстовой информации и прогнать его через огромный (и очень, очень дорогой) массив параллельных процессоров (в 99% используются видеокарты или специальные чипы от NVIDIA, что обусловило космический рост акций компании, превзошедшей стоимость всей саудовской нефти и русского газа) для того, чтобы построенная по вероятностным правилам модель научилась угадывать (в буквальном смысле!) то, что пользователь сочтет за осмысленный ответ на вопрос.

Очевидно, что с интеллектуальной точки зрения данное творение недалеко ушло от пресловутой машины Луллия, над которой иронизировал еще Свифт в своих «Путешествиях Гулливера». Дабы модель угадывала получше и давала более осмысленные ответы, нежели случайный подбор слов, требуется огромный объем данных, который позволяет сгенерировать самое ценное – нужные веса (грубо говоря – вероятностные коэффициенты) для различных сочетаний слов, которые она выдает.

Естественно, исходя из таких вводных, мы неизбежно получаем текущее состояние рынка: железо, нужное для обучения модели, стоит сотни миллионов, времени это занимает около года, сама модель настолько громоздка, что работает только в терминальном режиме, крутясь в датацентрах, модель довольно часто галлюцинирует (официальный термин), выдавая в ответ на вопрос какие-то причудливые, малоосмысленные и совершенно нерелевантные ответы.

Для преодоления последнего недостатка недавно была предпринята попытка обратится к т.н. Model-based reasoning – старой идее классического ИИ 1980-ых – попытаться добавить к вероятностному выводу набор правил логического вывода, соответствующих какой-либо онтологии (базе фактов и их отношений), что позволяет отсеять совсем уж бредовые ответы. Созданная таким образом o1 от OpenAI несколько месяцев назад поразила неокрепшие умы обозревателей, отвечая значительно лучше обыкновенных вероятностных моделей.

И тут на рынке появляется то, что разрывает все шаблоны – китайская модель DeepSeek. Она почти бесплатна (o1 стоит $200, DeepSeek R1 – это 50 вопросов в день), разработана в полной тайне и с большой скоростью буквально за год-полгода (OpenAI шла к o1 десять лет) – и все это в условиях жесточайшего эмбарго США на поставки мощных видеокарт NVIDIA в Китай. И она не отличается от o1 по качеству ответов, превосходя обычные версии ChatGPT.

Естественно, на фоне происходящего за был сделан самый тривиальный вывод из возможных: китайцы – это гении, способные с легкостью и за малые средства сделать то, что янки не могут создать за 10 лет и 100 миллиардов, причем еще и обучить модель едва ли не на кластере из телефонов Meizu.

За несколько часов после появления DeepSeek фондовый рынок США рухнул вниз на триллион долларов, из которых NVIDIA потеряла 600 миллиардов – крупнейший крах за всю историю капитализма.

Но, как говорил советский физик Ландау, прежде чем принимать на основе того, что вам сказали, какую-то невероятную теорию, опровергающую все, что вы знали, подумайте над более простым ответом – вам просто соврали. При ближайшем рассмотрении прорыв DeepSeek можно объяснить куда проще, нежели какой-то неземной технологией, на поколение превосходящей все, чего добились янки.

Китайцы поступили ровно так же, как поступали всегда (а до них японцы, корейцы и вообще все азиаты). Они взяли набор известных языковых моделей и улучшили его.

@atomiccherry 💯

BY 𝐀𝐓𝐎𝐌𝐈𝐂 𝐂𝐇𝐄𝐑𝐑𝐘


Share with your friend now:
tgoop.com/atomiccherry/705

View MORE
Open in Telegram


Telegram News

Date: |

To edit your name or bio, click the Menu icon and select “Manage Channel.” When choosing the right name for your Telegram channel, use the language of your target audience. The name must sum up the essence of your channel in 1-3 words. If you’re planning to expand your Telegram audience, it makes sense to incorporate keywords into your name. How to Create a Private or Public Channel on Telegram? Polls How to build a private or public channel on Telegram?
from us


Telegram 𝐀𝐓𝐎𝐌𝐈𝐂 𝐂𝐇𝐄𝐑𝐑𝐘
FROM American