Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
1350 - Telegram Web
Telegram Web
Вышел Grok-3

https://x.com/i/broadcasts/1gqGvjeBljOGB
Умнее чем o3-mini. Лучший по всем тестам.
Сегодня должны открыть доступ.

#Grok
———
@tsingular
🤖 Google Meet встроил AI-помощника для встреч.

Gemini теперь умеет не просто записывать встречи в Google Meet, но и автоматически выделять следующие шаги и назначать ответственных.

- Работает пока только на английском языке
- Нужен компьютер/ноутбук (для звонков с мобильников пока не поддерживается)
- Длительность встреч: от 15 минут до 8 часов
- Создает Google Doc с заметками, который автоматически прикрепляется к календарному событию
- Поддерживает цитирование с таймкодами из транскрипции
- Умеет делать "Summary so far" для опоздавших

Доступность:
- Google Workspace Business Standard/Plus
- Enterprise Standard/Plus
- Образовательные учреждения через Gemini Education Premium
- Старые подписчики Gemini Enterprise и AI Meetings

Как работает:
1. Находите кнопку "Take notes with Gemini" в верхнем правом углу Meet
2. Включаете - участники видят значок карандаша
3. После встречи организатор и включивший заметки получают email со ссылкой
4. Документ автоматически расшаривается на внутренних участников встречи

За последний год появилось много стартапов типа tldv, Fathom и других, предлагающих AI-заметки для встреч. Google фактически "убил" их рынок, встроив эту функцию прямо в Meet.

И судя по rollout'у (медленный, с тщательным мониторингом качества) - Google серьезно настроен сделать это базовой функцией для всех корпоративных клиентов.

А следом, скорее всего, и для обычных.

Так что если вы планировали делать стартап в этой нише - возможно, стоит пересмотреть планы.
Google показывает, что базовые AI-функции будут встроены во все популярные инструменты. Нужно искать более специализированные ниши или создавать решения поверх существующих платформ. 🤔
Мультиплатформенные ассистенты.

#GoogleMeet #tldv #транскрибация
———
@tsingular
Интересный вариант карты российского ИИ ландшафта.

- Рынок ИИ-агентов и автоматизации поддержки достаточно насыщен. Тут не только гиганты, но и специализированные игроки, которые делают кастомные решения.

- В инфраструктурной части есть и NVIDIA A100 и иногда даже H100

- Есть локальные бенчмарки для русскоязычных LLM - теперь можно объективно сравнивать модели
- Кроме YandexGPT и GigaChat, есть опенсорсные Saiga LLM и Вихрь LLM - адаптированные под русский язык

- Рынок LLM оценивается в 35 млрд руб
- Прогноз роста - 25% ежегодно до 2028
- Основной барьер - сложности с железом для обучения

В целом карта показывает, что рынок живее, чем кажется. Особенно если нужны решения для автоматизации поддержки или кастомные ИИ-агенты.

Карта тут

Не хватает, конечно, еще достойных игроков, вроде aitunnel.ru например или immers.cloud. Ну и разработчиков и интеграторов ИИ решений не хватает многих.

Запилить что-ли свою карту ? :)
Что скажете?

#Россия #карта
———
@tsingular
Forwarded from Data Secrets
OpenAI релизнули новый бенчмарк SWE-Lancer, который привязывает способности LLM к реальному экономическому эффекту

А сделали они это очень просто и изящно: взяли 1 488 заданий с фриланс-платформы Upwork общей стоимостью $1 миллион USD и проверили, сколько из них сможет решить модель. При этом не все задачи одинаковые. Они варьируются от мелких исправлений багов за $50 до сложных тасок по реализации новых фич за $32 000.

В этом как раз и фишка: задания оцениваются по реальным рыночным ставкам, а не гипотетическим оценкам сложности. В среднем, если что, такие задачи требуют изменения 2 файлов и 69 строк кода и решаются людьми за 26 дней.

Лучше всего себя показала Claude 3.5 Sonnet (да, не o1). Модель заработала $403 000. o1 high compute при этом заслужила $380 000, а GPT-4o всего $304 000.

Интересно было посмотреть на сравнение с затратами на API, но такого анализа пока не провели

arxiv.org/abs/2502.12115
👍1
Появилась утечка, что Антропик готовит следующую модель с размышлениями и поиском.

Обнаружили по иконкам в приложении под iOS.

Опус 3.5 уже так долго маринуют, что можно его под 4м номером выпускать, раз уж такой способный.

#anthropic
———
@tsingular
Forwarded from do...while...ai (Gregory is typing...)
Как отучить языковые модели врать при принятии решений.

TL;DR — не давать им принимать решения.

Представим себе кейсы, где используется чеклист/опросник, проверяющий, правильно ли заполнена декларация, или соответствует ли договор некоему шаблону, проходил ли договор комплайенс проверку или корректно ли написан код. Что в таких опросниках обычно включается? Серии бинарных вопросов "да" / "нет". Будет ли такое решение хорошо работать? Нет. Почему? Потому что LLM с покерфейсом ответит на все вопросы рандомом и вы не поймете, почему она иногда ошиблась. Поможет ли переход от бинарных "да"/"нет" к количественной оценке по шкале от 0 до N? Нет. У модели с оценкой в цифрах ещё хуже и более недетерминистично. Она также продолжить врать, но при этом ещё сложнее будет понять, какие пороговые значения выбрать.

Какие варианты улучшения чеклистов? Например, добавить перед каждым вопросом блок reasoning или thoughts, где модель расскажет, как она дошла до такого умозаключения. Там хотя бы можно будет прочитать, что у нее было "в голове". Но у меня периодически попадаются кейсы, где ризонинг очень убедительный и часто даже правильный, а вердикт всё равно неверный.

В конце концов я совершенно перестал использовать чеклисты с бинарными ответами, и вообще использовать языковые модели как средство принятия решений. Решения я принимаю в коде. А модель работает как умный извлекатель из нечетких и неструктурированных данных и сигналов для того, чтобы в коде я смог принять решение сам.

Это примерно как с людьми: вы можете спросить у человека экспертное мнение в виде однозначного "да" / "нет". При этом человек может оказаться неэкспертом, или экспертом, но не так понять ваш вопрос. По "да" / "нет" не получится определить, поняли ли вопрос, верный ли вам дали ответ. С другой стороны, вы можете задать вопрос так, чтобы ответ человека, во-первых, гарантировал вам то, что вас услышали правильно и отвечают именно на то, что вам нужно ответить. А с другой стороны, дали достаточно информации, чтобы вы сами решили. С LLM примерно также.

Пример: есть договор, где нужно проверить, корректно ли заполнен блок реквизитов (допустим, там должны быть форма собственности + название, адрес в определенном формате, телефон, email, имя генерального). Вместо того, чтобы спрашивать модель проверить, соответствует ли формат реквизитов ожидаемому или эталонному (например, вы покажете в промпте несколько примеров корректного формата), можно попросить модель вытащить в виде structured output все, что относится к этому корректному блоку, а дальше в коде проверить, какие поля окажутся пропущены, и подсветить красным флажком пункт "некорректные реквизиты в договоре" не потому что так сказала LLM, а потому что там не будет хватать, например, ФИО генерального (у вас в структуре будет пусто). Или только фамилия, без инициалов или полного имени и отчества.

Что вытаскивать для валидации — вам решать, и это творческая задача. В каждом случае своё. Например, в задаче ревью патчей мы просили для каждого изменения одного патча вернуть соответствующие изменения из другого патча. А не просто спрашивали, корректно ли сделана адаптация кода (мы так пробовали, и получалась ерунда).

Из плюсов такого подхода: всегда известны детали принятия решения, всегда есть сопутствующие данные по каждому пункту, которые можно с пользой использовать дальше в проекте, всегда можно написать однозначные тесты, потому что детерминизм становится выше.

Из минусов: чуть больше приходится думать головой, а не только полагаться на умную модель, и чтобы она сама решала.
Forwarded from Бла-Бла-Блог
Привет «Чёрное зеркало»!
Сервис для AI-общения с усопшими.

Штука в том, что тебе надо самому при жизни создать своего аватара, напихать его своими голосами и классными фотками, а потом… умереть)))
Forwarded from Бла-Бла-Блог
Да что мы всё про трупаков, да порнушку.

Grok таки зарелизили и он сразу зиганул сиганул на первое место в Worldwide best 20 лучших треков, обогнав OpenAI’s GPT-4o и Google’s Gemini.

Помимо крутанской цепочки мыслей, товарищи не постеснялись с названием. Chocolate🖤😋

Я правда, пока, не затестила ибо наши отношения с твиттером замерли примерно лет 10 назад. Но капитализация XAI уже подскочила, а Маск сразу же пообещал высадить миниГроков на Луне😝

Я ж говорила, надо вкладываться )
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from LEFT JOIN
Думающий Grok от Маска — что думаете?
Пока OpenAI работает над GPT-5, а DeepSeek отбивается от обвинений то в краже, то в недостаточной защите данных, принадлежащая Илону Маску xAI выпустила свою флагманскую модель — Grok 3.

На самом деле это целое семейство моделей: Grok 3 и ее «младшая сестра» Grok 3 mini, а также «думающие» Grok 3 Reasoning и Grok 3 mini Reasoning.

🔜 На VC уже собрали подборку мнений и тестов
К консенсусу пользователи и исследователи пока не пришли: судя по отзывам, с задачи на программирование и логику Grok 3 решает хорошо, но через раз. Иногда справляется с вопросами, на которых ломаются o1 и Claude, иногда галлюцинирует и выдает странные ответы.

Первыми к доступ к Grok 3 получили подписчики Premium+, который обойдется в 50$ месяц. Кстати, цена на этот тариф подскочила больше, чем в 2 раза, сразу после релиза Grok 3 — раньше она составляла 22 доллара.

Что думаете про Grok?
❤️ — Выглядит круто, скоро догонит и перегонит конкурентов!
🙈 — Сомнительно, но окей…
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from AI-Движ
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Нашли прикольный тренажер для промтинга изображений — Secret Prompter.

Работает просто: ежедневно вылетает новое изображение и вам нужно угадать промт, которым оно создано. 100% совпадения никто не ожидает, но подсказки довольно простые, так что угадать на 60-70% легко.

На одну задачку дают до 5 попыток. Что интересно — русский текст тоже принимает!

Нейросети | Маркетинг
Forwarded from Сиолошная
Готовность четыре с половиной часа
Forwarded from Робот сочинит симфонию?
⚡️ OpenAI представили GPT-4.5 — новую языковую модель, заметно превосходящую GPT-4o в точности и креативности.

Главный акцент — сокращение количества галлюцинаций (выдуманных фактов) и улучшение работы с текстами.

Революции в программировании ждать не стоит: «думающие» модели o1 и o3-mini по-прежнему сильнее в логических задачах.

Сейчас доступна только подписчикам ChatGPT Pro да $200 и через API (очень дорого). Для пользователей Plus откроется на следующей неделе.

Ключевые моменты:

— GPT-4.5 лучше всего справляется с текстовыми и креативными задачами.
— В логике и глубоком анализе уступает «думающим» моделям (o1, o3-mini).
— Генерирует быстрее, чем предшественники, но не всегда — модель огромная, и её скорость оставляет вопросы.
— Существенно реже выдаёт ложную информацию: точность на бенчмарке SimpleQA — 62,5% против 44,3% у Gemini 2.0 Pro.

GPT-4.5 — не конечная цель, а фундамент для будущих моделей с мощными аналитическими возможностями.
Илон Маск против OpenAI: Полная история от любви до ненависти

Ура, у нас новый здоровенный лонгрид! Всё, как вы любите: полчаса захватывающего чтения о том, как на самом деле родилась на свет OpenAI (главная ИИ-компания современности), какую роль в этом сыграл Маск, и почему появление этого проекта обязано тому факту, что Илон как-то раз посрался с друганом на своей денюхе.

Гарантирую, что если вы начнете читать этот материал – оторваться не сможете.

Читать статью: https://habr.com/ru/articles/883656/

P.S. Это гостевая статья (я тут выступил в основном в качестве редактора) от Леонида Хоменко – автора лампового канала «Трагедия общин» про искусственный интеллект и современные технологии. Рекомендую на него смело подписаться, там интересно!
Forwarded from e/acc
Антропик утверждает, что в 2026 появятся модели, которые

— превосходят Нобелевских лауреатов в большинстве областей
— умеют пользоваться всеми человеческими интерфейсами
— могут работать и думать неделями
— могут взаимодействовать с реальными миром через роботов.

Самое смешное, что в мире есть еще люди, которые считают что это не гарантированно и «авось пронесет».

Я не вижу ни одного сценария (технического, политического, бизнесового), в котором этого бы не произошло в течении 2 лет. Nothing stops this train.

Другой вопрос: как подготовиться и что делать дальше, особенно с такими штуками как координация людей (экономика, финансы, право, политика)? Есть любопытные идеи.
Forwarded from e/acc
Еще важный датапоинт о мире: начиная с декабря 2024 года результаты решение самого сложного на тот момент теста на AGI (ARC challenge) выглядят абсолютно экспоненциально.
2025/07/14 15:28:44
Back to Top
HTML Embed Code: