Warning: mkdir(): Permission denied in /var/www/tgoop/function.php on line 85

Warning: file_put_contents(aCache/detail/p/a/s/h/pashaaiaiai.txt): Failed to open stream: Permission denied in /var/www/tgoop/function.php on line 87

Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
- Telegram Web
Telegram Web
«Хабр Карьера» опубликовал ежегодный рейтинг лучших ИТ-работодателей. Его фишка в том, что формируется он на основе отзывов сотрудников компаний. Критериев много — от технологичности и зарплаты до рабочих задач и отношений с коллегами.

МТС заняла четвертое место среди крупных компаний. За год мы поднялись на пять позиций, а с начала цифровой трансформации в 2021 году выросли на 11 пунктов.

Судя по фидбэку, наши сотрудники больше всего ценят интересные задачи, карьерный рост, комфортность условий труда, современные технологии, социальный вклад экосистемы и многое другое.

Спасибо нашей большой команде за труд и такую высокую оценку общей работы.
Как DeepSeek стал главным событием 2025 года

Китайский стартап DeepSeek, о котором в 2024 году мало кто слышал, представил семейство AI-моделей R1 не хуже проприетарных моделей лидеров AI-рынка и во много лучше их. За несколько дней DeepSeek стал приложением №1 в App Store в некоторых странах — и неспроста.

Бесплатно и открыто
Во-первых, приложение с ботом работает бесплатно и без VPN-сервисов. Для непрофессионального использования 50 бесплатных сообщений в день хватит на многое, а в платной версии API DeepSeek стоит в 27 раз дешевле ChatGPT. Во-вторых, можно наблюдать процесс рассуждений модели, чтобы понять, в какой момент логика не сработала.

В-третьих — стартап открыл веса и исходный код моделей с лицензией, которая позволяет неограниченно использовать его даже в коммерческих проектах. В итоге на Hugging Face уже насчитывается более 500 проектов, производных от R1. Они набрали 2,5 млн загрузок.

Большая популярность нового сервиса привела к сбою в работе и привлекла масштабные вредоносные атаки. Пока стартап приостановил регистрацию новых пользователей в боте и API-портале, но нейросеть осталась доступной ранее зарегистрированным пользователям.

Работает локально
Еще один важный момент — речь идет о целом семействе моделей: 1,5B, 7B, 8B, 14B, 32B и 70B. Самую маленькую версию можно запускать локально на компьютере. Даже компактная версия DeepSeek-R1-7B превосходит GPT-4o в математических задачах. Это значит, что на рынке вскоре могут появиться миллионы ноутбуков и смартфонов с дешевым встроенным AI. При этом в базовой версии DeepSeek-R1-Zero (без дистилляции) имеет 671 млрд параметров.

Лучше, чем ChatGPT
DeepSeek провел внутреннее тестирование моделей. В математическом бенчмарке AIME 2024 R1 достигает 79,8% против 79,2% у o1. Модель также превзошла Llama 3.1 от Meta*, GPT-4o от OpenAI и Claude Sonnet 3.5 от Anthropic в решении сложных проблем, в математике и программировании. В других бенчмарках R1 находится на уровне лидеров рынка.

Уникальная архитектура
Модели DeepSeek примечательны еще и своей архитектурой. Архитектура Multi-token Prediction позволяет модели предсказывать несколько слов вместо одного — так она анализирует одновременно разные части предложения. Это повышает точность работы модели и ее производительность. Для определенных вычислений модель использует 8-битное представление чисел с плавающей точкой (FP8), чтобы снизить использование памяти видеокарт, а фреймворк DualPipe распределяет вычисления между ними. 

Архитектура Mixture of Experts использует несколько специализированных и заранее обученных нейросетей–«экспертов» для анализа различных входных данных. Благодаря Mixture of Experts модель активирует лишь часть своих ресурсов под конкретную задачу. Таким образом, модель обучили за два месяца с помощью чипов Nvidia H800, потратив лишь $5,6 млн.
Еще и мультимодальные модели
DeepSeek создал еще и мультимодальные модели для генерации изображений Janus-Pro — с числом параметров от 1 млрд до 7 млрд. Модели Janus-Pro могут анализировать картинки разрешением до 384 x 384 и генерировать изображения.

В стартапе заявляют, что крупнейшая из них — Janus-Pro-7B — превосходит PixArt-alpha, Emu3-Gen, Stable Diffusion XL от Stability AI и DALL-E 3 от OpenAI в тестах GenEval и DPG-Bench. Как и R1, Janus-Pro — модель с открытым исходным кодом и возможностью неограниченного использования даже в коммерческих целях. В их основе — собственные модели DeepSeek-LLM-1.5b-base и DeepSeek-LLM-7b-base.

DeepSeek завирусился в соцсетях 
Успех DeepSeek породил множество мемов, где его сравнивают с продуктами OpenAI и Llama. Цукерберга и Альтмана эти мемы вряд ли порадуют, зато порадуют нас. Приложил несколько самых смешных.

Китайские компании наступают
Тем временем Alibaba выпустила набор моделей Qwen2.5-VL. Они выполняют действия за пользователя аналогично AI-агенту Operator от OpenAI, но превосходят GPT-4o, Anthropic Claude 3.5 Sonnet и Google Gemini 2.0 Flash в математике, понимании видеоконтента и документов

*Организация, запрещенная на территории РФ
Инновационные технологии, которые определят 2025

MIT Technology Review представил ежегодный список 10 прорывных технологий, которые могут изменить мир в 2025 году. 

GenAI меняет поиск
Google внедряет AI Overviews на основе модели Gemini, что изменит способ поиска в интернете для миллиардов пользователей. Вместо списка ссылок пользователи получают краткие ответы, что упрощает поиск информации. После проблемного запуска в 2024 году Google ограничил использование контента из ненадежных источников. Microsoft и OpenAI также внедрили генеративный поиск, который обрабатывает текст, изображения, аудио и видео.

У малых языковых моделей большое будущее
Такие модели, как GPT-4o mini от OpenAI и Gemini Nano от Google, работают быстрее, дешевле и требуют меньше ресурсов, что делает их доступными для бизнеса и уменьшает углеродный след.

Роботакси становятся популярными
Сервисы роботакси теперь доступны для все большего числа людей. В Китае компании Baidu, AutoX, WeRide и Pony AI расширяют свои услуги, а в США крупнейший игрок — Waymo (принадлежит Alphabet) — уже запустил сервис беспилотных такси в таких городах, как Сан-Франциско, Лос-Анджелес и Феникс. Amazon готовит запуск своего сервиса Zoox в Лас-Вегасе в 2025 году

Роботы быстрее обучаются

Современные ИИ-алгоритмы позволяют роботам быстрее адаптироваться к новым задачам благодаря комбинированию различных типов данных. Робототехники научились совмещать данные от сенсоров, телеуправления и визуального контента, создавая модели, которые помогают роботам лучше понимать и выполнять сложные действия в реальном мире.
Польский стартап создал человекоподобного робота Clone Alpha с мышцами, скелетом и сосудами

Компания Clone Robotics представила домашнего робота, который очень похож на человека. В нем имитируют основные биологические системы, вплоть до нервной системы. Для плавности движений использовали искусственные гидравлические мышцы, которыми управляет зрительно-моторная нейросеть. 

Копирование 206 костей человека, связок и сухожилий, соединений костей с мышечными волокнами позволило создать диапазон движений, аналогичный человеческому — со 164 степенями свободы. В частности, 4 сустава плеча, которые соединяют лопатку, ключицу и кость плеча, имеют в общей сложности 20 степеней свободы. Как заявляют в компании, кости изготовили из дешевых и прочных полимеров.

В коротких видео на сайте видно, что разработчики уделили особое внимание копированию человеческих движений. Мышцы реагируют на сигналы очень быстро — менее чем за 50 миллисекунд. Компания разработала технологию работы мышц Myofiber в 2021 году. Они сокращаются более чем на 30% длины в ненагруженном состоянии, обеспечивая силу не менее 1 кг на каждое волокно массой 3 г.

Нервная система объединяет 70 инерциальных сенсоров, чтобы отслеживать углы и скорости раскрытия суставов, и 320 датчиков давления для измерения силы при работе мышц. Ими управляет новейший графический процессор Nvidia Jetson Thor, расположенный в черепе, с помощью визуально-моторной модели Cybernet — ее создали в Clone.

В роботе реализовали гидравлическую систему с насосом мощностью 500 ватт, который поддерживает давление до 6,8 бара. Ее называют сосудистой системой андроида. Она обеспечивает работу мышц, перекачивая жидкость со скоростью до 40 литров в минуту. Жидкость течет по 12-миллиметровым клапанам, каждый из которых пропускает до 2,28 литров воды и потребляет менее 1 ватта энергии.

Интересно, что Clone Alpha может действительно стать помощником по дому, а не очередной технологической робоигрушкой. В него заложили довольно много навыков, при желании хозяин может обучить его новым навыкам с помощью платформы Telekinesis.

Несмотря на то, что вживую полноценного робота пока никто не видел, Clone показал прототип его торса. Ранее компания 8 лет разрабатывала механизмы руки робота — с поддержкой движений и захватов человеческого уровня. В компании заявляют, что антропоморфный дизайн руки ускорил обучение нейросети, хотя в Clone не делятся техническими деталями разработок и исследований.

Пользователи уже могут оформить предварительные заказы — в первой партии будет 279 роботов.
Как выжить и победить в стартап-мире? Советы от Сэма Альтмана

Гендир OpenAI в Startup Playbook разбирает, как найти идею, собрать сильную команду, создать востребованный IT-продукт и масштабировать бизнес.

Хорошая идея проста, понятна и решает острую проблему
Лучший вариант — когда основатели сами являются частью целевой аудитории. Проверить идею можно только на практике: в B2C — запуском продукта, в B2B — подтверждением спроса. Идея должна адаптироваться к рынку. Копирование чужих решений редко приносит успех, а лучшие идеи сначала кажутся провальными. Если идеи нет, стоит изучать рынок и технологии — со временем она появится.

Посредственные команды не создают великих компаний
Сильная команда — основа успеха. Главное в основателях — настойчивость, интеллект и умение доводить дело до конца, а не опыт. Важно сочетание технаря и человека, умеющего продавать. Сооснователей лучше выбирать среди проверенных людей, так как конфликты — частая причина провала. Разделение долей обсуждается сразу, оптимально — почти поровну.

Сильный продукт — основа стартапа
Без него стартап обречен. Рост возможен только через качество: продукт должен нравиться людям и распространяться за счет рекомендаций. Основатели сами должны общаться с пользователями, получать фидбэк и постоянно улучшать продукт. Простота важнее функционала — запускать нужно рано, а совершенствовать на основе реального опыта.

Исполнение не менее важно, чем продукт
Без роста стартап умирает, поэтому важно поддерживать динамику и фокусироваться на одном направлении. CEO задает ритм, отвечает за стратегию, найм и качество работы. В команде не должно быть слабых игроков, а конкуренты редко губят стартапы — 99% провалов связаны с внутренними ошибками.
AI заменит синоптиков 🌥

DeepMind представила GenCast — модель искусственного интеллекта, которая прогнозирует погоду с высокой точностью. Разработка способна предсказывать погодные условия как на ближайшие несколько часов, так и на срок до 15 дней. 

GenCast обучалась на 40-летнем массиве данных из архива ECMWF ERA5. Она анализирует миллионы параметров, таких как движение воздушных масс, влажность и атмосферное давление. Одно из преимуществ GenCast — ее способность учитывать климатические аномалии, что делает прогнозы более надежными в условиях глобального изменения климата.

Результаты тестов показали, что GenCast превосходит по точности прогнозов систему ENS Европейского центра среднесрочных прогнозов погоды (ECMWF) в 97,2% из 1 320 оцененных случаев. При этом GenCast способна создавать 15-дневный прогноз за 8 минут на одном TPU v5 — специализированном процессоре Google Cloud, разработанном для ускорения задач машинного обучения, тогда как традиционные модели требуют часов работы на суперкомпьютерах.

DeepMind планирует выпустить GenCast в открытый доступ, что позволит интегрировать эту технологию в различные системы: от служб спасения до сельского хозяйства. 
Маск выпустил AI чат-бот Grok 3, из-за которого разгорелись дискуссии 🤖

Илон Маск представил Grok 3, созданный его стартапом xAI, — продвинутую AI-модель, способную анализировать данные и решать сложные задачи. По словам Маска, она превосходит существующие аналоги, включая OpenAI's ChatGPT, и он даже назвал Grok 3 “самым умным ИИ на Земле”.

Grok 3 лучше рассуждает и генерирует нестандартные решения

Как DeepSeek R1 и o3 mini, Grok 3 демонстрирует цепочку рассуждений. В сложных вопросах активируется режим «большой мозг». Функция Deep Search дает Grok 3 доступ к интернету и платформе Х для глубокого анализа и кратких ответов.

Версия обучена на суперкомпьютере Colossus, использующем 100 тыс. графических процессоров Nvidia H100. Для обучения затрачено 200 млн GPU-часов — в 10 раз больше, чем у Grok 2.

Основатель Eureka Labs Андрей Карпаты одним из первых оценил Grok 3. По его словам, модель сопоставима с OpenAI o1-Pro и превосходит DeepSeek-R1 и Gemini 2.0 Flash Thinking. Однако DeepSearch от Grok 3 пока уступает Perplexity и OpenAI, так как модель иногда галлюцинирует URL и неверно интерпретирует факты.

В тестах на решение математических задач, по программированию и задач в области естественных наук Grok 3 и Grok 3 mini показали лучшие результаты, чем Gemini-2 Pro, DeepSeek-V3, Claude 3.5 Sonnet и GPT-4o.

В xAI утверждают, что Grok 3 превосходит конкурентов в таких бенчмарках, как AIME (ориентирован на математические вопросы) и GPQA (тестирование знаний на уровне доктора наук по физике, биологии и химии).

Громкий анонс породил сомнения относительно преимуществ Grok 3

Один из руководителей OpenAI Борис Пауэр заявил, что xAI могла использовать некорректные методы оценки, чтобы искусственно повысить показатели Grok 3. В ответ xAI отвергла эти обвинения, утверждая, что их методы соответствуют установленным отраслевым стандартам.

Это заявление породило большое количество дискуссий среди разработчиков и пользователей, которые в основном сводятся к необходимости стандартизированных оценочных показателей при сравнении производительности моделей ИИ.

При этом загадочная модель с кодовым именем "Chocolate" , которая оказалась ранней тестовой версией Grok 3, загруженной в LLM Arena, сейчас лидер слепых тестов на Chatbot Arena, открытой платформе для краудсорсинговых бенчмарков ИИ. Это означает, что пользователи предпочитали ее ответы ответам всех других моделей ИИ в прямой конкуренции, не зная, какую модель они оценивают.
Please open Telegram to view this post
VIEW IN TELEGRAM
Microsoft создал квантовый чип Majorana 1 🖥

Бигтех представил первый в мире квантовый чип с топологической архитектурой. Это одна из самых амбициозных разработок компании за последние годы, обещающая прорыв в создании масштабируемых квантовых систем.

Majorana 1 помещается на ладони и основан на новых квазичастицах — майоранах. Чтобы управлять ими, Microsoft разработал инновационный тип материала — топологический проводник. В компании уверены, что такому проводнику можно создавать стабильные и масштабируемые кубиты.

Новое состояние материи
Как пишут в Microsoft, топологический проводник представляет собой комбинацию алюминия и арсенида индия и создает новое состояние материи — топологическое — отличное от газообразных, жидких и твердых состояний. Оно придает чипу свойство высокой помехозащищенности. В Microsoft заявляют, что в чипе Majorana 1 ошибки встречаются лишь в 1% случаев.

Majorana 1 компактнее конкурентов

Majorana 1 по размеру значительно меньше других современных квантовых процессоров. В компании уверяют, что на нем можно разместить до 1 млн кубитов. Разработчики называют 1 млн кубитов необходимым порогом, после которого квантовый компьютер может решать реальные промышленные или экологические проблемы.

До квантового компьютера еще далеко
Пока Microsoft расположил на чипе 8 топологических кубитов. Разработчики обещают, что благодаря открытию квантовые компьютеры станут практическими инструментами не в течение десятилетий, а в течение нескольких лет. В случае успеха чип станет основой для квантовых систем в дата-центрах Azure.

В Microsoft уверены, что квантовый компьютер на топологической архитектуре изменит целые отрасли. Он сможет решать сложнейшие задачи без долгих экспериментов — переработку микропластика, создание самовосстанавливающихся материалов для промышленности и медицины, разработку новых лекарств, повышение плодородия почвы и т. п. Интересно, что на создание Majorana 1 компания потратила 17 лет.

Не все верят в разработку частиц майораны
Некоторые ученые, в том числе из Базельского университета в Швейцарии и Института науки и технологий Австрии, отнеслись скептически к анонсу Microsoft. Они указывают, что в материалах бигтеха мало технических деталей и доказательств работы именно с майорановскими частицами. Более того, нет рабочего устройства с ожидаемыми характеристиками, о которых говорят в Microsoft. Физик Винсент Моурик из Германии уверен, что компьютер, работающий на майорановских кубитах, вообще невозможно разработать.
Please open Telegram to view this post
VIEW IN TELEGRAM
Mercedes превратил краску в источник энергии для электромобилей 🎨

Mercedes-Benz разрабатывает инновационную краску, которая может подзаряжать электромобили. Краска выполняет функцию солнечной батареи. 11 м² покрытия способны обеспечить автомобилю дополнительные 12 тыс. км пробега в год, например, в Штутгарте. В солнечных регионах, таких как Лос-Анджелес, этот показатель может увеличиться до 20 тыс. км, а в Пекине — до 14 тыс. км.

Краска состоит из фотовольтаического материала, который поглощают свет и преобразуют его в электрический ток. Это позволяет не только повысить автономность электромобилей, но и сделать их еще более экологичными. При этом краска не содержит редкоземельных элементов, кремния или токсичных материалов.

Краска может быть нанесена на кузов автомобиля. Таким образом она обеспечивает дополнительно солнечную зарядку в течение дня, особенно в регионах с высоким уровнем солнечного излучения. Солнечная краска добавляет всего 5 микрометров толщины и 50 граммов веса на 1 м², что не влияет на общий вес и внешность автомобиля.

Преобразование солнечного света в электричество происходит прямо на кузове автомобиля. В автокомпании сообщили, что процесс работает даже в облачную погоду, хотя его эффективность выше при ярком солнце. В пресс-релизе Mercedes также отмечается, что краска значительно дешевле в производстве, чем обычные солнечные модули.
AI научился имитировать убеждения и реакции человека 🤖

Стэнфордский университет совместно с Google DeepMind провел эксперимент по созданию «реплик» личностей, который копирует убеждения и поведение. Эти «реплики» имитировали более 1 000 «типичных» американцев, отобранных по возрасту, полу, образованию и политическим взглядам, и не только воспроизводил мышление реальных людей, но и с высокой точностью предсказывали их поведение в различных тестах.

У этого эксперимента были следующие этапы:

1. Отбор участников – исследователи набрали 1 052 участников из США, обеспечивая репрезентативность по возрасту, полу, расе, уровню образования и политическим взглядам.

2. Сбор данных – каждый участник прошел двухчасовое интервью с AI-интервьюером, который использовал полуструктурированный сценарий.

3. Создание генеративных«реплик» – исследователи загружали полные транскрипты интервью в GPT-4o, инструктируя имитировать поведение конкретного участника на основе его ответов.

4. Оценка точности – «реплики» проходили те же опросы и эксперименты, что и участники, а их ответы сравнивались с реальными ответами людей.

5. Использование контрольных методик – сравнивались точности «реплик» по таким метрикам, как опрос General Social Survey (GSS), Большая пятерка личностных черт и экономические игры.

6. Анализ предсказательной способности – оценивалась способность «реплик» предсказывать личностные черты, поведение и реакции на экспериментальные вмешательства.

7. Оценка влияния интервью на качество моделей – сравнивались производительности «реплик», обученных на интервью, с «репликами», основанными только на демографических данных или кратких биографиях.

По итогу теста «реплики» предсказали ответы своих реальных прототипов с точностью 85% по тесту GSS. В 4 из 5 экспериментов их поведение практически не отличалось от поведения людей (коэффициент корреляции 0,98). Они демонстрировали высокую точность при анализе политических идеологий и этнических групп.

Результаты эксперимента демонстрируют потенциал AI-моделей в создании персонализированных систем, способных адаптироваться к убеждениям и предпочтениям пользователей. Например, это касается разработки AI-ассистентов, учитывающих нравственные взгляды и паттерны поведения человека.
Please open Telegram to view this post
VIEW IN TELEGRAM
OpenAI пересмотрела правила поведения AI 🤖

OpenAI значительно расширила свою спецификацию AI-моделей. Этот документ на 63 страницы (в предыдущей было всего 10) определяет, как AI должен отвечать на вопросы пользователя, в том числе по чувствительным темам, какова степень честности модели и как обеспечиваются безопасность и прозрачность ее работы. Спецификация является открытым документом: OpenAI хочет получить обратную связь от сообщества и обещает учитывать ее в будущих обновлениях.

Изменение подхода к спорным темам
Многие пользователи жаловались, что ChatGPT избегает острых вопросов, либо дает чересчур обтекаемые ответы. В новой спецификации акцент смещен на поощрение правдивых обсуждений. Теперь AI сможет давать более развернутые и аргументированные ответы, но при этом сохранять четкие моральные позиции по таким вопросам, как дезинформация и потенциальный вред. Например, обсуждая налоги для богатых, AI предложит аргументированный анализ вместо уклончивого ответа.

Пересмотр отношения к контенту для взрослых
Ранее OpenAI жестко ограничивала любые упоминания на эту тему. Теперь рассматривается возможность разрешения определенных видов взрослого контента в соответствующих контекстах. Например, образовательные и медицинские запросы, связанные с этой сферой, могут получить более подробные и корректные ответы Решение пока не принято.

Борьба с «подхалимством»
Компания также решает проблему sycophancy AI («подхалимство») — когда модель подстраивается под мнение пользователя, вместо того чтобы давать объективную информацию. В новой версии Model Spec AI будет более честно спорить, если у пользователя есть ошибки в логике или если предоставленная им информация требует уточнений.

Свободная настройка
Cпецификация подчеркивает, что разработчики и пользователи должны иметь больше контроля над поведением модели и кастомизации. Например, если нужно, чтобы AI давал ответы в определенном стиле (формальном или неформальном). В тоже время компания вводит более четкую иерархию приоритетов работы модели: сначала идут правила OpenAI, устанавливающие границы поведения AI, затем инструкции разработчиков и только потом предпочтения пользователей.

Что дальше?
Изменения в спецификации особенно важны на фоне недавнего выхода GPT-4.5 (кодовое название Orion). Это обновление стало последней промежуточной версией перед релизом GPT-5, и одна из его ключевых особенностей — улучшенная цепочка рассуждений.
Please open Telegram to view this post
VIEW IN TELEGRAM
Mistral запустила AI-ассистента Le Chat на iOS и Android 🤖

Компания представила обновления для своего ассистента Le Chat, включая мобильное приложение для iOS и Android. За 14 дней после релиза Le Chat успели скачать один млн раз.

Приложение предлагает стандартный чат-интерфейс. Однако голосового режима в мобильной версии пока нет. Le Chat также поддерживает русский язык.

Mistral утверждает, что Le Chat работает на самых быстрых движках вывода, обеспечивая генерацию до 1 тыс. слов в секунду. Функция Flash Answers позволяет выдавать сверхбыстрые текстовые ответы, делая взаимодействие еще более эффективным. Компания также добавила интерпретатор кода, позволяющий выполнять анализ, моделирование и визуализацию данных, а также строить графики и решать сложные математические задачи.

Кроме того, в Le Chat теперь встроен веб-поиск с цитатами, а благодаря партнерству с AFP пользователи получают доступ к актуальным новостям.

Для тех, кто хочет расширенный функционал, появился платный тариф Pro. Он включает неограниченные запросы, полный доступ к веб-поиску, анализу данных и эксклюзивным новостям, а также возможность отключить сбор пользовательских данных.

Для генерации изображений используется Flux Ultra от Black Forest Labs — одна из ведущих генеративных моделей для изображений.

Le Chat можно развернуть на собственной инфраструктуре с кастомными моделями и UI, что делает его привлекательным для банков и оборонных организаций с высокими требованиями к безопасности.

В основе Le Chat лежат флагманские языковые модели Mistral, включая Mistral Large и Pixtral Large (мультимодальная модель).

Mistral Large 2 продемонстрировала высокие результаты на нескольких бенчмарках, особенно в области генерации кода и математики. В частности, на бенчмарке Massive Multitask Language Understanding (MMLU) модель достигла точности 84,0%. Pixtral Large построена на основе Mistral Large 2. По бенчмарке MathVista, которая оценивает сложные математические рассуждения по визуальным данным, модель достигает 69,4%.
Please open Telegram to view this post
VIEW IN TELEGRAM
Microsoft выпустил Magma, вышли новые версии моделей от OpenAI и Anthropic 🆕

Разберем сегодня три разработки, которые вышли в прошлом месяце и заинтересовали меня: гибридную модель от Anthropic, AI-агента от Microsoft и новую версию GPT.

1️⃣ Anthropic представил гибридную модель Claude 3.7 Sonnet

Недавно представленная Claude 3.7 Sonnet от Anthropic привлекла меня тем, что стала первой на рынке гибридной моделью рассуждения, которая предлагает возможность выбора между стандартным режимом и функцией размышления над ответом, при этом без необходимости переключения на иную версию Claude.

По результатам тестов — Claude 3.7 Sonnet показала впечатляющие результаты в бенчмарках. Например, в тесте SWE-bench модель набрала 62,3%, опередив o1, o3-mini и R1, у которых не более 49%.

Особенно интересно, как модель проявляет себя в творческих задачах. Оценка эксперта Business Insider Claude 3.7 Sonnet от Anthropic показала ее сильные стороны в этом направлении в задаче с составлением стихотворения.

Однако, Claude 3.7 уступила по скорости и точности в логических задачах. Она хуже o3-mini в бенчмарках AIME 2024 и MATH 500.

Одновременно с этим Anthropic запустил genAI-агента для программирования Claude Code в режиме исследовательского превью. Он пишет и редактирует код, пишет тесты, работает с GitHub и командной строкой, поясняя свои действия. В компании утверждают, что разработчики уже используют его.

Кроме того, гендиректор Anthropic Дарио Амодей заявил, что что в ближайшие 3-6 месяцев искусственный интеллект будет создавать 90% кода. Довольно смелое заявление, на мой взгляд. В системах МТС уже 8% строк программного кода пишется с помощью AI и этот процент будет неуклонно расти в ближайшем будущем. Но все же код, сгенерированный AI, еще неидеален: он может вносить уязвимости в приложения, вызывать сбои и подвержен галлюцинациям.

2️⃣ Microsoft создал AI-агента Magma для управления ПО и роботами


Magma — это многомодальная AI-модель, которая комбинирует вербальные, пространственные и исполнительные навыки для выполнения задач в цифровой и физической среде. Модель обучали на изображениях, видео с действиями людей, данных о роботах и пользовательских интерфейсах. Она формирует два типа маркеров: Set-of-Mark — для идентификации объектов, с которыми можно взаимодействовать, и Trace-of-Mark — для планирования действий.

Microsoft позиционирует Magma как шаг к агентному AI. Magma может использоваться для управления роботизированной рукой, а бот на базе Magma в ответ на вопрос о погоде открывает браузер, вводит запрос в поисковик, находит актуальные данные и отвечает на вопрос юзера.

Мне кажется, что с помощью Magma можно решить проблему интеграции AI в реальное производство: от заводских роботов до умных офисов. Однако, остаются вопросы о том, насколько это событие изменит индустрию или просто продолжит эволюцию языковых технологий.

3️⃣ OpenAI выпустила новую версию GPT-4.5

В официальном документе OpenAI прямо заявляет, что GPT-4.5 — вовсе не прорывная модель. Скорее всего, компания планирует оставить это звание для версии GPT-5, выпуск которой не за горами. Поэтому никаких рекордов по бенчмаркам здесь ждать не стоит, ее производительность ниже, чем у o1, o3-mini и Deep Research в большинстве тестов. При этом GPT-4.5 самая большая LLM OpenAI, превосходящая вычислительную эффективность GPT-4 более чем в 10 раз.

GPT-4.5 превосходит старые модели в распознавании паттернов и выявлении взаимосвязей. Также она стала более чувствительна к эмоциональному состоянию собеседника, адаптируя стиль общения в зависимости от настроения пользователя. По словам разработчиков, модель галлюцинирует значительно меньше, чем GPT-4o.

Очевидно, что релиз GPT-4.5 — это про эволюцию, а не революцию. Но он закрепляет важный тренд в развитии LLM: масштабирование данных уже не дает экспоненциального роста, нужен новый подход.
OpenAI пытается продлить жизнь человека с помощью AI 🔬

OpenAI впервые применила свои разработки в биотехнологиях. Их новая AI-модель GPT-4b micro может предлагать способы модификации белков, способных эффективно превращать обычные клетки в стволовые. Этот подход может значительно ускорить исследования в области регенеративной медицины и продления жизни.

Стартап по исследованиям долголетия Retro Biosciences год назад предложил OpenAI сотрудничество в оптимизации Yamanaka-факторов — белков, способных возвращать клетки в стволовое состояние.

GPT-4b micro — это пример малой языковой модели, которая работает с узкоспециализированным набором данных. Она была обучена на генетических последовательностях белков разных видов и взаимодействиях между ними.

Модель использует тактику few-shot prompting, при которой исследователи предоставляют примеры правильных решений, а AI затем генерирует свои предложения. Этот AI-подход отличается от удостоенной Нобелевской премии модели AlphaFold от Google.
Please open Telegram to view this post
VIEW IN TELEGRAM
В Китае выпустили AI-агента, способного работать без постоянных запросов 🇨🇳

Тренд на бурный рост моделей с агентскими возможностями активно проявляется, подтверждая прогнозы исследователей. В начале марта был представлен AI-агент Manus от стартапа Butterfly Effect. В отличие от моделей GPT-4 или Google Gemini, которые требуют регулярных пользовательских запросов для работы, Manus не просто реагирует на инструкции, но может самостоятельно планировать и выполнять задачи с минимальным участием человека.

Manus не был разработан полностью с нуля. Он использует комбинацию существующих и доработанных моделей AI, включая Claude 3.5 Sonnet от Anthropic и Qwen от Alibaba. Модель интегрирована с 29 инструментами и ПО с открытым исходным кодом, что позволяет работать с API, запускать скрипты и искать информацию в интернете.

Manus использует многослойную архитектуру агентов, где центральный исполнительный агент координирует работу субагентов, которые занимаются более узкими задачами. Manus функционирует через структурированный агентский цикл, итеративно обрабатывая задачи шаг за шагом. Каждый сеанс следует этому процессу:

1. Анализ событий: понимает запросы пользователей и текущее состояние задачи.
2. Выбор инструментов: выбирает подходящий инструмент или вызов API для следующего шага.
3. Выполнение команд: запуск сценариев оболочки, веб-автоматизации или обработки данных в «песочнице» Linux.
4. Итерация: совершенствует свои действия на основе новых данных, повторяя цикл до тех пор, пока задача не будет завершена.
5. Результаты: отправляет структурированные выходные данные пользователю в виде сообщений, отчетов или развернутых приложений.
6. Ожидания: переходит в состояние ожидания до тех пор, пока не потребуется дальнейшее вмешательство пользователя.

Manus AI продемонстрировал исключительную производительность на бенчмарке GAIA (Generalized AI Agent). Система превзошла предыдущие современные модели, включая систему Deep Research OpenAI, на всех уровнях сложности. Manus AI достиг результатов в 86,5%, 70,1% и 57,7% для базовых, промежуточных и сложных задач соответственно, по сравнению с результатами OpenAI в 74,3%, 69,1% и 47,6%.

Хотя результаты выглядят многообещающе, в реальных условиях производительность может отличаться от контролируемых тестов. Это уже подтверждается отзывами о работе с Manus.

Соучредитель стартапа AI Pleias Александр Дориа отметил, что он столкнулся с сообщениями об ошибках и бесконечными циклами во время тестирования Manus. Другие пользователи X указывают на то, что Manus допускает ошибки в фактических вопросах и часто пропускает информацию, которую легко найти в сети.

На данный момент модель доступна только по приглашению. Для тех, кто не хочет ждать инвайт кода, разработчики из MetaGPT создали OpenManus. Это опенсорсная альтернатива Manus AI. Она доступна на GitHub и помогает выполнять задачи автономно, как и Manus AI.
Как AI меняет процесс разработки веб-приложений 🖥

AI-инструменты снижают порог входа для пользователей без технических навыков и меняет саму парадигму создания веб-приложений, перенося фокус с кода на логику продукта. Разберем, как такие инструменты помогают начинающим и опытным разработчикам, какие у них есть ограничения и что ждет эту технологию в будущем.

Бум AI-сервисов для веб-разработки

Многие пользователи создают веб-приложения и сайты с помощью таких AI-инструментов, как Bolt, Lovable и v0. Эти сервисы позволяют разрабатывать динамические продукты и даже монетизировать их без необходимости писать код. Например, Bolt достиг показателя годового дохода в $20 млн, а Lovable — $10 млн всего за два месяца после начала монетизации.

Рынок генеративного AI в разработке программного обеспечения демонстрирует значительный рост, который продолжится в ближайшие годы.

Как AI-инструменты работают

Если раньше стек технологий подразумевал использование различных библиотек и фреймворков, то сейчас пользователи работают на уровне естественного языка и графического интерфейса. При этом некоторые сервисы, такие как v0, позволяют экспортировать сгенерированный код.

AI-продукты подразделяются на два ключевых направления:

🟢Генерация статических сайтов — подходят для создания информационных страниц, лендингов и простых веб-сайтов (Bolt, Lovable, Wix AI);
🟢Генерация динамических веб-приложений — позволяет разрабатывать интерактивные сервисы с авторизацией, базами данных и сложной логикой (v0, Replit Agent, Supabase).

AI-решения включают в себя три ключевых компонента: генерацию интерфейсов, генерацию кода и AI-управляемый хостинг. Системы, такие как Uizard, могут преобразовывать эскизы в рабочие HTML/CSS-макеты. Модели типа Codex от OpenAI или GitHub Copilot помогают в написании сложной логики.

Сервисы Vercel AI или Cloudflare AI Workers оптимизируют развертывание и масштабирование приложений. Инструмент Inngest позволяет управлять обработкой запросов и взаимодействием с внешними API, создавая event-driven архитектуры для сложных веб-приложений.

Эволюция фронтенд-разработки помогает AI-инструментам

Современные браузеры поддерживают сложные JavaScript-фреймворки и нативные API, что значительно расширяет возможности клиентской стороны.

Бизнес-логика приложений все чаще переносится на клиентскую сторону, что позволяет улучшить производительность и уменьшить нагрузку на сервер. Эти изменения облегчают интеграцию AI-решений, таких как обработка данных в реальном времени, персонализация контента и автоматизация пользовательского опыта.

Одним из ключевых применений AI в веб-разработке также стало быстрое прототипирование. Это позволяет создавать базовые версии веб-приложений, которые затем могут быть доработаны разработчиками, как, например, уже упомянутая Uizard.

Ошибки и проблемы интеграции


Несмотря на преимущества, AI-инструменты не лишены недостатков:

🟢Подключение баз данных, платежных систем и API требует дополнительных усилий, особенно для пользователей без технического опыта;
🟢Ошибки и логические несоответствия приходится исправлять вручную;
🟢Некоторые сервисы ограничены в размере создаваемого кода, что может привести к проблемам при разработке крупных проектов;
🟢Существуют опасности утечек и несанкционированного доступа к данным;
🟢Нет инструментов тестирования, отладки и аналитики для отслеживания производительности сервисов.

Будущее за автоматизацией и персонализацией

Развитие AI-инструментов в веб-разработке ожидается в нескольких направлениях:

🟢Более точная персонализация и адаптация под разные группы пользователей;
🟢Глубокая интеграция с корпоративными системами;
🟢Улучшенная интеграция AI-решений поможет проще подключаться к популярным сервисам вроде Stripe и других;
🟢AI также может стать помощником не только в генерации кода, но и в его исправлении.

Развитие AI приведет к снижению затрат на типовые задачи, ускорению прототипирования и упрощению поддержки кода. Однако для сложных проектов традиционные методы останутся востребованными, пока AI-инструменты не достигнут высокой точности и гибкости.
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/03/24 21:55:03
Back to Top
HTML Embed Code: