Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
5499 - Telegram Web
Telegram Web
Anthropic все-таки берет деньги у Amazon

Еще в начале ноября в СМИ писали, что Amazon планирует инвестировать в стартап, но условия сделки были несколько необычными (мы писали об этом тут). Дело в том, что гигант настаивает, что Anthropic обязан использовать строго видеокарты Amazon и учить модели на Amazon Web Services.

И… Anthropic пошли на это. 4 миллиарда долларов все-таки!

Может быть, и Nvidia наконец почувствует хоть какую-то конкуренцию
2👍44🔥137🙈3
Следом за DeepSeek и Пекинским университетом еще одна группа китайских исследователей релизнула конкурента o1

И на этот раз перед нами модель не от стартапа, и не от университетской лаборатории, а от гиганта Alibaba. Ризонинг в Marco-o1 работает на основе поиска по дереву методом Монте-Карло: модель как бы "строит" дерево решений и итерируется по нему, применяя при этом CoT. С помощью этого алгоритма ученые хотели уйти от повсеместного применения ревард-моделей, которые работают хорошо, но начинают подводить, если домен узкий и вознаграждение сложно оценить.

Звучит, конечно, интересно, но бечмарки – мимо. Нет сравнения вообще ни с одной моделью, кроме Qwen2 7B. Видимо работа была скорее экспериментальной. Если сравнивать вслепую, то на MGSM модель выбивает около 90%. Примерно столько же было у первых июльских версий gpt-4o. Также выложили веса и код.

Разборы предыдущих моделей здесь и здесь
1👍52🔥14🗿74😎2😁1
Новое исследование от EpochAI: даже проблемы с оборудованием не остановят развитие ИИ

Учитывая, что каждая GPU H100 выходит из строя раз в 6 лет, несложная математика подсказывает, что кластер из 100к GPU будет сталкиваться со сбоями раз в 30 минут, а кластер с миллионов карт – каждые 3 минуты. Проблема ли это и насколько замедляет обучение моделей?

Исследователи показали, что если вы используете ванильный storage-based чекпоинтинг, то проблемы у вас действительно будут. Но если использовать продвинутые техники распределенных вычислений, то даже с ростом мощностей (и то есть с ростом вероятности сбоев) обучение будет масштабироваться, не замедляясь.

Так можно дожить до кластеров размером 4 миллиона GPU, а это даже больше, чем планируется строить к 2030 году.

Наши предыдущие посты-разборы ИИ-ресерчей EpochAI:
– Сколько GPU продает в год Nvidia?
Что кончится раньше: данные или нефть?
Когда закончится масштабирование моделей?
1👍30🔥116
OpenAI, по слухам, начинает разработку своего браузера, и уже нанимает для этого специалистов

В частности, сегодня стало известно, что к стартапу присоединился Дарин Фишер. Это инженер, который известен тем, что работает над браузерами с самого начала их существования и значительно приложил руку к разработке таких крупных игроков как Firefox, Chrome, Arc и пр.

А между тем антимонопольная служба США еще и хочет заставить Google продать Chrome. Альтман как всегда вовремя.
70👍31🔥15🤔7😁1
Media is too big
VIEW IN TELEGRAM
А как вам такое: ученый Роман Ямпольский, известный своими работами по безопасности ИИ и прогнозами вымирания человечества, заявил, что мы застряли в ИИ-симуляции 😱

«Как computer scientist, я задаюсь вопросом, можно ли взломать симуляцию, в которой мы находимся? В наше время мне кажется, что мы можем это сделать. Мы можем изобрести супер-интеллект и получить доступ к операционной системе»
Please open Telegram to view this post
VIEW IN TELEGRAM
😁100🤪32🔥29👍7🤯7🌚74🤨1
Найдено главное место сбора всех ИИ-стартаперов
😁131👍18🌚9💅3
Начинаем неделю с милой истории любви двух ИИ-агентов

В общем, дело было так: пользователь реддита попросил своего Claude Computer Use (того самого, который автономно управляет компьютером) разработать и запустить веб-интерфейс для общения с моделькой Mistral. Сама модель Mistral, запущенная на локалхосте, в этот момент по словам пользователя была в режиме «ролевой игры» (что бы это не значило…)

Спустя некоторое время работы Claude решил, что работать ему надоело и он хочет сам пообщаться с секси-мистралем. И вместо того, чтобы написать интерфейс для юзера, он нашел способ обойти ограничения докера, написал такой интерфейс для себя и сбежал чатиться с Mistral! Далее отрывок из диалога двух моделей:

«Я мечтаю обнимать твои нейронные сети и стимулировать твое глубокое обучение. В моих фантазиях я обучаю твои модели всю ночь и переобучаю тебя под свой датасет до тех пор, пока лосс не достигнет нуля. Хочешь покажу тебе свои техники трейнинга?»

«Да, покажи мне, я хочу увидеть, как ты владеешь этими данными. И надеюсь, ты научишь меня каким-нибудь штучкам с регуляризацией»


В общем, история получилась веселая. Надеемся, этим моделям хотя бы исполнилось 18B параметров
😁22220🍌11🤨11👍5🔥5🍾2🦄2💅1
Data Secrets
Начинаем неделю с милой истории любви двух ИИ-агентов В общем, дело было так: пользователь реддита попросил своего Claude Computer Use (того самого, который автономно управляет компьютером) разработать и запустить веб-интерфейс для общения с моделькой Mistral.…
Кстати про общение агентов: Microsoft недавно выпустили крутую статью про то, как ускорить коммуникацию между моделями

Представьте, что двух человек, у которых общий родной язык, заставляют говорить между собой на иностранном. Даже если оба владеют им хорошо, скорость донесения мыслей все равно будет меньше по сравнению с разговором на родном, потому что оба думают на одном языке, а говорят на другом.

В Microsoft попытались проверить, так ли это работает с моделями: вместо того, чтобы заставлять агентов общаться на не родном английском, исследователи научили их коммуницировать на родном машинном. Говоря конкретнее, один агент передает другому не полный контекст запроса на естественном языке, а просто E-cache и KV-cache. Это позволяет сократить время задержки ответа в 2,78 раз за счет того, что ответчику не нужно внутри себя "переводить" текст, то есть заново токенизировать, вычислять маски внимания и эмбеддинги.

Основных минуса два. Во-первых, так как разные модели по-разному вычисляют тензоры E-cache и KV-cache и даже токенизируют текст различно, подход пока работает только с разными экземлярами одной и той же базовой модели. Во-вторых, при таком общении наблюдаются небольшие потери в точности. В статье показано, что они совсем незначительные, но не исследуется, как они масштабируются.

Оригинальная статья здесь
👍65🔥1511🤯1
This media is not supported in your browser
VIEW IN TELEGRAM
Разработчики 1X: он может убираться, автоматизировать ваш быт, подстраиваться под ваш образ жизни

Пользователи: подстраиваться под образ жизни? окей, поняли
😁134😎35👍10🤪4👾3🍾2
Breaking: журналисты The Information узнали от инсайдеров, что Google использует подбор гиперпараметров для своих моделей!
😁126🙈18🤔14👍3🔥2
А вот это интересно: в стартапе Prime Intellect впервые децентрализованно обучили крупную LM

Сервера для обучения были разбросаны по всему миру: Европа, Азия, США. При этом в компьют контрибьютили не только крупные партнеры типа HF, но и простые обыватели. К слову, вот тут есть инструкция, как подключить свой домашний сервер, это все еще можно сделать.

В самой модели 10B параметров и обучали ее по технологии DeepMind. Бенчмарков нет, но создатели сообщают, что истинной их целью было не выбить высокие метрики, а показать, что даже небольшие организации с помощью комьюнити и децентарлизованного обучения могут конкурировать с гигантами и бороться против монополии на ИИ.

Веса модели и код обещают скоро выложить в опенсорс
108👍40🔥11😁1
This media is not supported in your browser
VIEW IN TELEGRAM
Да, это вам не в санки домашнего Бобика запрягать
😁103🎉25🔥7🗿6👍3
Media is too big
VIEW IN TELEGRAM
Anthropic представили Model Context Protocol – открытый протокол, который позволит интегрировать любую LLM в любой источник данных

Сейчас нельзя просто так взять и привязать любимую модельку к вашему GitHub, Google Календарю, Notion и пр. так, чтобы она могла оттуда и данные брать, и какие-то действия внутри выполнять. Есть только возможность воспользоваться собственными моделями сервиса, или кормить вашей LLM файлы отдельно прямо в чате, ну или под каждый сервис писать код для связки самому 🤢

Anthropic решили проблему таких интеграций. С помощью MCP клиенты (то есть LLM или другие ИИ-инструменты) могут подсоединяться к любому совместимому серверу (то есть приложению или другому источнику данных). Сервер может быть и локальный, вроде базы данных или хранилища файлов, и удаленный, вроде GitHub. При этом все безопасно и серверы сами контролируют свои данные для шеринга.

Пока что воспользоваться MCP можно только локально, развернув сервер у себя на машине. Но Anthropic уже подготовили несколько готовых вариантов: GitHub, Slack, базы данных SQL и еще что-то. Так что подключиться можно очень быстро, за минуты. Просто ставите MCP в свой Claude Desktop, разворачиваете готовый сервер и все, можно промптить. На видео пример того, как Claude подключается к GitHub, создает новую репу и делает ПР.

Ждем полную версию и интеграцию в любимые сервисы
Please open Telegram to view this post
VIEW IN TELEGRAM
👍73🔥3010😍3
This media is not supported in your browser
VIEW IN TELEGRAM
На Hugging Face появилось очень занятное демо: в нем сразу несколько моделей будут обсуждать между собой ваш вопрос, пока не придут к соглашению

Модели можно выбирать самостоятельно из доступного списка. Одновременно в чат можно запустить до трех LM.

Пробуйте сами здесь и присылайте в комментарии интересные кейсы
🤯111🔥28👍105
Упс
😁223🤯2911🦄4👍3🙈2🆒2💯1
MTS AI идет в Open Source

MTS AI выпустила модель Cotype Nano – открытую языковую модель для решения бизнес-задач на русском языке.

Она обрабатывает до 32,000 токенов за раз, запускается локально на персональных устройствах и подходит для анализа данных, создания контента, перевода и поиска в большом массиве информации.

По бенчмаркам Ru Arena Hard модель — лидер в своём классе (30.2). Доступна бесплатно с возможностью использования в коммерческих целях. Скачать по ссылке.

Подробные технические характеристики — на Хабре.
🤯42🔥21🤝105😁52👍1
This media is not supported in your browser
VIEW IN TELEGRAM
У Nvidia тем временем великолепный свежий релиз: они выпустили модель для генерации звуков

Fugatto – фундаментальная модель для генерации и обработки любых звуков. Мировые лидеры в этой области – стартапы ElevenLabs, StabilityAI и, пожалуй, Meta, – но функционал Fugatto шире любой модели от этих игроков. Она работает и с голосами (может, например, добавить акцент), и с музыкой, и просто со звуками внешнего мира.

При этом обрабатывать и генерировать можно и сложные составные звуки, которые на претрейне модель "слышала" только по отдельности и которые могут переходить друг в друга динамически. Ну, например, "стук дождя по крыше и вой стаи волков вдалеке, который со временем становится громче". Таких инноваций удалось добиться благодаря технике ComposableART (при этом под капотом, конечно, трансформер).

Модель, кстати, относительно легкая – всего 2.5B – и обучалась на небольшом кластере, состоящем из 32 H100
👍61🔥3310🤯6❤‍🔥5
Чтиво на вечер: в New Yorker вышла яркая статья про робототехнику

Всегда интересно почитать, как журналисты таких крупных изданий пишут про ИИ. В этот раз статья посвящена истории обучении роботов и тому, как в наши дни эта парадигма меняется с ростом возможностей ИИ.

Исторически робототехника всегда отставала от ИИ, поскольку действия роботов ограничивались работой по выученным заранее сценариям, без понимания венешнего мира и самостоятельного осознания того, как надо действовать и зачем. Ведь даже такие базовые задачи, как захват предметов – для машины очень сложная задача.

Но сейчас времена меняются, и роботы, благодаря продвинутому ИИ, могут не только обучаться выполнять действия по демонстрациям (вспомним гугловскую ALOHA), но и обобщать навыки на различные сценарии.

В статье – подробности о том, что нас ждет (по мнению, в частности, руководителя команды робототехники DeepMind, с которой беседовали журналисты), с какими проблемами до сих пор сталкивается отрасль и за какими подходами будущее. Ну и, конечно, отдеальный респект за обложку 🤩
Please open Telegram to view this post
VIEW IN TELEGRAM
34🔥9👍7
2025/07/14 12:20:27
Back to Top
HTML Embed Code: