Data Secrets

DeepSeek: 100 additional authors not shown
Google: подержи мое пиво

😁135🔥35👍18

13.7K views09:21

Meta проиграла суд по делу о нарушении авторских прав в процессе обучения ИИ

Это был один из первых исков, который был подан на корпорацию за обучение моделек на данных, защищенных автоским правом (да, даже считая тысяча и один иск на OpenAI). Его подавали еще в начале 2023 писатели Ричард Кадри и Кристофер Голден, а также комик Сара Сильверман.

Сначала Meta вину отрицали, и говорили, что обучали модели на безобидном датасете Books3 (там 196 000 книг). Однако в ходе разбирательства оказалось... что собирали эти данные в компании с помощью LibGen. Кто не в курсе – это самая известная пиратская либа для скачивания книг, созданная, кстати, в России.

😁

Please open Telegram to view this post

VIEW IN TELEGRAM

😁237❤24🤯13👍7👏5😎5😐1👀1

14.9K views14:03

Data Secrets

GAN умер; да здравствует GAN!

Да, эта статья заслуживает внимания за одно лишь название (в оригинале на английском The GAN is dead; long live the GAN!). Однако вчера она еще и стала лидером в рейтинге Paper of the day на HF. Разбираемся 👇

Итак, GAN был одной из первых генеративных архитектур. Чем же он плох? Самое главное, нестабильностью: чтобы заставить лосс сойтись, обычно нужно продать дьяволу душу. Есть миллион статей, описывающих кучу трюков для таких танцев с бубном, но это все еще попытки компенсировать фундаментальные недостатки архитектуры.

Здесь же авторы предлагают вообще переосмыслить подход и представляют архитектуру R3GAN. В R3GAN нет эмпирических трюков, как например в StyleGAN2, но зато есть новая функция потерь Relativistic Pairing GAN. Это продолжение идеи о лоссе Relativistic GAN, который был предложен еще давно, но здесь авторы добавили две хитрые регуляризации, и, что самое главное не имперически, а теоретически доказали локальную сходимость. В итоге получаем стабильность + универсальность для разных распределений даты.

В архитектуре тоже кое-что изменилось. Авторы полностью отказались от рудиментов, которые оставались в ганах аж с 2015 (ака нормализация, впрыскивание шума и тд) и добавили современных подходов: заменили стандартные свертки на групповые, добавили больше остаточных блоков в стиле ResNet, увеличили ширину боттлнеков и переделали ресемплинг с помощью билинейной интерполяции (раньше было просто транспонирование сверток).

В итоге R3GAN очень заметно превзошла StyleGAN2 на нескольких датасетах по FID, и даже показывает какие-то конкурентоспособные результаты по сравнению с диффузионными моделями, при этом оставаясь более эффективной с точки зрения вычислительных затрат.

Есть даже демо, потыкать и погенерить можно здесь

Please open Telegram to view this post

VIEW IN TELEGRAM

❤100👍59🔥27👏3🫡3⚡1

14.8K views08:23

Data Secrets

🍯

😁78🔥19😐10❤9🤨6👍3

13.4K views13:42

Вышло крутое полуторачасовое интервью Франсуа Шолле. Ниже – TLDR

Шолле – создатель Keras, ex ведущий исследователь Google DeepMind, автор книги "Deep Learning with Python", а также один из главных создателей того самого бенчмарка ARC AGI и учредитель соревнования ARC Prize. Из Google, он кстати, совсем недавно ушел и планирует открывать собственную компанию. Самое интересное из интервью:

🟦

Умение хорошо отвечать на сложные вопросы само по себе не гарантирует AGI, потому что бывает двух видов:
а) запоминание и применение паттернов, например, обучение алгоритму умножения чисел и его использование (это ближе к тому что умеют классические LLMки);
б) адаптация к новизне, то есть умение рекомпозировать и объединять известные когнитивные блоки для решения новых задач (ближе к o1).
Только если добиться от моделей полноценного ризонинга типа б) можно прийти к AGI (база)

🟦 Бенчмарк ARC AGI – как раз такой инструмент, который может помочь нам отличить а) от б). И по такому принципу должны строиться все современные бенчмарки, потому что, еще раз, просто умение отвечать на сложные вопросы ничего не доказывает, мы должны проверять умение рассуждать.

🟦 Но и с ARC AGI есть свои проблемы: в частности, он все еще недостаточно разнообразный. Кроме того, существуют известные методы, позволяющие восстанавливать содержимое приватного теста через отправку кучи сабмитов, и ARC AGI уязвим. В будущем Шолее планирует это исправить.

🟦 То, каких результатов добивается o1 делает ее абсолютно уникльной моделью, совершившей прорыв в генерализации. "Это уже далеко за рамками классического лубокого обучения" – говорит Шолле.

🟦 По его догадкам, o1 выполняет поиск по дереву в пространстве возможных Chain of Thought. Как устроен этот поиск, до конца не понятно, это может быть Монте-Карло или даже градиентный спуск.

Посмотреть полностью можно здесь (то что нужно в воскресенье)

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥71👍44❤25😁1👌1

14.3K views09:42

Data Secrets

Проверь ее, прежде чем жениться ‼️

😁287🔥29❤13👌10🗿5🤯3💯3👍1👏1

15K views14:23

Data Secrets

Понедельник

🔥130😁53👍18❤6🫡3🗿3❤‍🔥1

13.4K views07:21

Data Secrets

Ресерчеры из Беркли опенсорснули Sky-T1-32B-Preview. Это ризонинг моделька, которую можно обучить локально всего за 450 долларов

При этом по бенчмаркам модель достаточно хороша: на AIME, Math500 и LiveCodeBench выбивает даже больше, чем o1-preview. В данных почти одна синтетика, которую генерировали с помощью QwQ и обрабатывали с помощью o1-mini. Базовая модель – Qwen2.5-32B-Instruct.

Все подробные инструкции по тому, как обучить модельку локально, есть в блогпосте и на гитхабе. При этом стоить это будет всего 450 долларов (против миллионов долларов на о1 и десятков тысяч даже на самые дешевые аналоги), и понадобится только 19 часов на восьми H100 (подъемно почти для любого бизнеса).

Скорость прогресса иногда просто шокирует

Блогпост | Веса | Репа | Датасет

🔥100👍34😁9❤4🤯1

14.4K views08:57

Data Secrets

Все: ИИ – это дорого!
Цукерберг: планирует до конца года заменить модельками инженеров с шестизначными зарплатами

Ладно, на самом деле он не говорил, что планирует заменять. Сказал только "Вполне вероятно, что в 2025 году в Meta мы уже получим AI-агентов, которые смогут полноценно выполнять работу миддл-инженеров, которые пишут код". Читайте между строк.

На секундочку, по данным сайтов трекинга зарплат, сейчас миддлы в Meta получают сотни тысяч долларов. Представьте, сколько таких работает у Марка 💀

Please open Telegram to view this post

VIEW IN TELEGRAM

🌚103😁31👍17❤7🔥6🕊5🙈4🫡4🤔2🗿1🦄1

16.5K views12:24

Data Secrets

У каждой легенды свои слабости

😁199👍12🔥11💯8❤4☃2💅1

14.2K views17:08

Data Secrets

Вот это внезапно: OpenAI дропнули целый экономический план для укрепления лидерства США в сфере ИИ – OpenAI’s Economic Blueprint

В документе они топят за то, что Америка уже давно должна разработать какую-то национальную стратегию для развития ИИ и максимизировать экономическую выгоду от этого процесса, иначе Китай заберет себе лидерство (так и написано).

Поэтому «действовать надо быстро и думать масштабно, поддерживая разработчиков ИИ как основу экономики будущего». А еще в документе они предлагают собственную «истинную» политику регулирования и систему субсидий

Хорош, Сэм. Интересно, когда уже увидим его в конгрессе?

🔥67🤔24😁16👍13😐10🤪4❤3💅2🤯1

14.5K viewsedited 08:18

Data Secrets

У Google вышла крутая статья про новую архитектуру Titan, которая может победить проблему забывания в трансформерах

Традиционные трансформеры очень прожорливы. Архитектура масштабируется квадратично по мере увеличения длины последовательности. Это приводит к проблеме невозможности увеличения контекстного окна и так называемому забыванию, потому что трансформеры также часто склонны аллоцировать внимание на нерелевантный контекст и, чем он больше, тем больше такая накапливаемая ошибка и степень забывчивости модели.

В Titan же подход к памяти немного иной: помимо краткосрочной памяти attention исследователи добавили в архитектуру долгосрочную память (тут вы, возможно, поймали флешбек на LSTM, и не зря). То есть у нас есть некоторый core – стандартное внимание с ограниченным окном, и модуль, который хранит важную информацию из "далекого прошлого". Чтобы решать, какую информацию запоминать, в нем используется метрика сюрприза (чем "неожиданнее" новые данные для модели, тем важнее их запомнить) + есть коэффициент затухания. Все эффективно параллелится.

При этом в статье показали аж три варианта соединить текущее внимание с долгосрочной памятью:

➖ Memory as Context: долгосрочная память используется как контекст для текущего внимания.
➖ Memory as Gating: здесь прямо максимальный мэтч с LSTM, тот же механизм гейтов
➖ Memory as Layer: самый простой вариант, вся память соединена как слой в сетке

MAC оказался лучше всего по перплексии, а MAL чуть быстрее, но теряет в эффективности. В целом такая архитектура может легким движением руки масштабироваться до контекста в 2+ миллиона токенов, сохраняя стабильную точность (трансформеры начинают обычно фейлить уже после отметки 4096). Очень крутая работа получилась у Google, в общем.

Полный текст статьи здесь

P.S. Очень подробный и понятный разбор архитектуры LSTM от нас можно почитать здесь, а вот тут лежит наша большая статья про другие архитектуры-альтернативы трансформеру

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥114👍32❤16😐3⚡1😁1

26.9K views11:41

2025/07/09 08:53:13
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>