Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
5566 - Telegram Web
Telegram Web
Имба: в честь матча за звание чемпиона мира по шахматам Google запустили в Google Labs возможность поиграть в шахматы с Gemini, да при этом еще и стилизованными по вашему запросу шахматными фигурами. Смотрите:

1. Заходим на сайт labs.google/genchess
2. Выбираем вид набора и пишем короткое описание темы для фигур. Например, Harry Potter
3. Генерируем сет (под капотом тут связка Gemini Flash + Imagen)
4. Генерируем сет противника. Тему для сета противника Gemini выбирает так, чтобы она "конфликтовала" с вашей
5. Играем

На первой картинке – набор, который получился у нас: вдохновленный, конечно, машинным обучением (отдельное внимание на ладью в виде кластера GPU), а в оппоненты Gemini подобрал.... квантовую физику. В пост добавляем еще несколько шахматных досок, которые получились у пользователей в Твиттере. А вы прикрепляйте в комментарии то, что получилось у вас!

Кстати, ранее в честь того же матча Google совместно с FIDE запустили чемпионат на Kaggle. В нем еще можно поучаствовать.
👍40🔥2011😁2👾1
В твиттере изобразили четырех китайских всадников апокалипсиса OpenAI 🥲

P.S. Подробнее о всадниках: DeepSeek-r1, macro-o1, LlaVa-o1, QwQ
Please open Telegram to view this post
VIEW IN TELEGRAM
😁77🔥176👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Фотоны вместо электронов – is all we need?

Некоторое время назад в сети завирусилось видео, которое показывает "световую" нейронную сеть. Бред, конечно: кусочки стекла, линза, – при чем тут реальные системы? Но, как на днях объяснил один из бывших ведущих инеженеров Google, разумное зерно в этом все же есть.

Смотрите: современные процессоры оперируют электронами, "проталкивая" их по проводам. Но что, если заменить электроны на фотоны? Проводимость такого сигнала в меди была бы в 3 раза выше, при этом с минимальным выделением тепла. Фотонные чипы могли бы достигать частоты >100Ггц/с (современные работают на 3-5 Ггц). При этом чип2чип соединения тоже будут работать лучше: по сравнению с сегодняшними датацентрами потребление энергии на аналогичных мощностях снизилось бы в 200 раз!

Соответсвенно, падает и сложность операций. Матричное умножение, на котором стоит все глубокое обучение, традиционно имеет сложность O(n^2), а в оптическом инференсе занимало бы O(1), то есть константу.

Такими разработками люди, кстати, уже занимаются (например, Ayar Labs и Lightmatter). Даже Intel смотрит в эту сторону: в трансиверах 400G уже используется кремниевая фотоника. Пока что индустрия не развита, подходящего сырья мало, и стоимость одного устройства слишком высока: это и отделяет фотонные системы от распространения.

Возможно, пройдет 5-10 лет, и мы увидим прогресс в этой области. А пока продолжаем умножать матрицы квадратично...
🔥123👍21🤯20😁6
На Habr вышла статья о том, какие способы используют, чтобы максимально точно измерить “ум” языковой модели

Представьте, что вы пытаетесь оценить знания человека с помощью тестов. Вроде все просто: правильно ответил — молодец, ошибся — учись дальше. Но с LLM все оказалось сложнее: хотя академические тесты полезны, они не показывают, насколько модель эффективна в реальных задачах — ведении диалогов, переводах, суммаризации и генерации идей.

Нужно учитывать и то, что у моделей нет внутренней картины мира, в отличие от людей, и на первый взгляд очевидные вопросы оказываются сложными для них. К примеру, вопрос о том, как почувствовать вкус чего-то, кажется нам абсурдным, а для LLM ответ совсем не очевиден.

В Яндексе для решения этой проблемы создали особый пайплайн. Помимо стандартных бенчмарков (которые, кстати, подвержены протечкам данных), используют команду AI-тренеров — экспертов для глубокой проверки ответов. Это сложнее и дороже, но позволяет понять реальную ценность LLM.

Оригинальная статья здесь
👍40🔥95🤯31
OpenAI рассчитывает в новом году на b2b

Об этом пишет The Information. Журналисты взяли интервью у директора по продажам стартапа и тот ясно дал понять, что в 2025 OpenAI целится в пятую ступень развития ИИ (вот тут пост про все ступени, которые описывал Альтман) – то есть в ИИ, который может управлять предприятием.

Для достижения цели они настроены подписывать крупные контракты с бизнесом и серьезно расширяют отдел продаж. «Мы думаем, что индустрия к этому готова: фокус применения ИИ смешается со стартапов на традиционный сферы, такие как здравоохранение и строительство».

Получается, что за год OpenAI планируют перепрыгнуть ступень ризонеров и новаторов, и достичь AGI (при этом на первых двух ступенях мы находились порядка пяти лет). Было упомянуто, кстати, что с точки зрения продукта стартап делает ставку именно на модель o1.
🤯35🤪14😁9👍51
Свежее исследование от Apple: всего один параметр в LLM может разрушить способность всей модели генерировать осмысленный текст

Во многих предыдущих работах уже было показано, что некоторые веса модели имеют больше значения, чем остальные. В частности, доказано, что существуют небольшие группы весов-выбросов (до 0.01%), которые составляют основную часть качества модели.

Apple же пошли дальше и выявили, что в моделях есть удивительный THE SUPER WEIGHT – параметр, зануление которого приводит к коллапсу модели, то есть вообще лишает ее способности генерировать что-то адекватное. Перплексия без него повышается в три раза, а на zero-shot качество ответов падает до случайного бормотания.

В статье также предлагается метод поиска такого супер-веса за один проход по сети. Дело в том, что, оказывается, супер-веса связаны с супер-активациями – исключительно большими актвациями, которые были обнаружены недавно в другой работе. При этом это не случайная корреляция, и как раз с помощью обнаружения скачков активаций (то есть на практике скачков в инпут и аутпут распределениях слоев) можно обнаружить супер-вес.

Кстати, супер-вес может быть не один: в некоторых сетях их обнаружили около шести, но обычно не более трех. При этом до и после файнтюнинга расположение супер-веса не меняется, а еще они обычно располагаются в ранних слоях.

Интересно то, что знания о расположении таких супер-весов можно эффективно применять для оптимизации квантования или дистилляции. Например, просто обрабатывая такие веса специальным образом, ученые добились того, что ванильные методы сжатия достигают перформанса продвинутых, выростая в качестве на 75-82%. Это очень достойный результат.

Статья полностью – здесь
102👍37🔥27🤔7
EpochAI продолжают радовать: они только что запустили интерактивный симулятор обучения моделей

Инструмент может проанализировать эффективность обучения на заданных чипах и с заданными характеристиками трейна: глубины модели, размера датасета и пр. Графики на выходе показывают, как меняется наилучшая достижимая утилизация трейна (во флопсах) по мере масштабирования обучения. На картинке выше пример с AlexNet.

Также можно играться с гиперпараметрами модели: например, проверить, что будет с производительностью, если мы учим на A100 и поменяли размер батча 😇

Ссылка с подробностями
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥418👍6
Внезапно выяснилось, что новая громкая модель ризонинга QwQ (пост) переключается на китайский, когда ей нужно глубоко о чем-то подумать, а затем переходит обратно на язык юзера, чтобы дать ответ.

Это довольно круто и логично и, скорее всего, очень хорошо влияет на метрики. Пример такого диалога

P.S. Кстати, на HuggingFace QwQ сегодня заняла первое место в рейтинге трендовых моделей
👍127😐20🔥10🤔8😁63
Найдено «развлечение» на вечер: парень в соцсетях поделился своими домашками и заданиями семестрового экзамена курса по машинному обучению в Индийском национальном институте (IISC). Первые два фото – теория (экзамен), остальное – практика (дз).

Еще вопросы к индусам на YouTube будут?
👍91🔥29👏9🤯64
Сегодня исполняется 2 года ChatGPT 🥳
Please open Telegram to view this post
VIEW IN TELEGRAM
👍122🔥43🍾37😁1612🌚8🤔1😐1🗿1
2025/07/13 08:35:49
Back to Top
HTML Embed Code: