Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
281 - Telegram Web
Telegram Web
"Evals are surprisingly often all you need" Greg Brockman

Одной из самых больших проблем при разработке приложений на основе языковых моделей (LLM-enabled apps) - является тестирование и оценка качества приложений. Без этой оценки развивать продукт до полноценно высокого, массового уровня, практически невозможно - без приборов летать сложно. Ярко видно это на примере чат-ботов.

В отличие от классического машинного обучения (ML), у разработчика нет доступа к данным использованным для обучения и даже заметно важнее во многих юзкейсах нет единого правильного решения. Например, как объективно сказать что есть правильный ответ на запрос "составь мне стих про Эльбрус" или "план на 3 дня в Черногории" - никак. Получиться все равно субъективная оценка.

По итогу, приходиться лучшее из нехороших методов использовать. Нехороши они либо дороговизной, либо некачественностью/субъективностью оценки, либо и тем и другим.

По итогу, наиболее распространённый сейчас способ оценки - это чатбот арены, прямое сравнение "какой ответ из 2х вариантов был полезнее".

Но это конечная метрика качества как выручка или прибыль, чтобы улучшать качество требуется измерять качество на всех предварительных этапах используя более классические методы тестирования.

Еще из интересного, оценка языковыми моделями все более активно используется. И кажется будущее за пайплайном сначала оценкой LLM, потом ограниченная перепроверка человеком.

На эту тему есть классное видео и презентация.

#genAI #технологии
👍10🔥2
LLM Evaluation.pdf
1.6 MB
4👏1
Дурова задержали, похоже за не сотрудничество с французскими властями. Либертарианцам сложно быть большими бизнесменам.

Хочется и чтобы его отпустили, и телега развивалась такими же темпами.

На мой взгляд, телеграм - лучший русскоязычный ИТ продукт. Или просто лучший ИТ продукт в любой номинации

#интересныйфакт #телеграм
🔥237
Channel photo updated
Венчурные инвестиции в AI и во все остальное

Рост доли AI стал еще заметнее на фоне того, что общий объем венчурных инвестиций с 2021 года сильно снизился.
👍7😭2
Венчур в картинках
Венчурные инвестиции в AI и во все остальное Рост доли AI стал еще заметнее на фоне того, что общий объем венчурных инвестиций с 2021 года сильно снизился.
Этот график многие воспримут как очередной показатель хайпа вокруг AI, но я вижу здесь четкий стратегический тренд.

Крупнейшие бизнесы всегда строятся на фундаментальных сдвигах. У Морейниса есть наглядная формула успешных стартапов: изменение технологии/регуляторики/поведения → новый продукт → новый рынок спроса и предложения.

В этой цепочке ключевой момент — обнаружить и инвестировать в тот самый сдвиг, или как называл это Энди Грув, экс-CEO Intel, 'strategic inflection point' в Only Paranoid Survive. Сейчас такой точкой перелома является GenAI era.

#стартапы #genAI #венчур
👍72
Второй август подряд засели с Максом, чтобы ускорить совместную работу. В этот раз в буквальном смысле под одной крышей)

Мне нравится. Удаленка + периоды совместной работы, особенно в процессе исследования, вот она продуктивность и эффективность небольших команд

#личное #предпринимательство
🔥285
Notion выбрала один из самых абсурдных способов блокировки (link).

Я не так уж активно пользуюсь Notion, хотя в разные периоды было по-разному. И под их ограничения я не попадаю.

Но их подход, при котором всех россиян, когда-либо (!) использовавших российские платежные инструменты, блокируют навсегда, вне зависимости от последующих действий, вызывает заслуженный хейт.

Особенно это раздражает, когда подобные меры принимает сервис, чья ценность не в функционале, а в контенте, который пользователи хранят у себя и который принадлежит им, а не сервису.

Web3, несмотря на весь скам вокруг этого термина, основывается на классной ключевой идее — контент и данные должны принадлежать пользователям, а не платформе.

#технологии #Web3
👍271
Думаю завести секцию в блоге интересных мне проектов. В любом случае я этим занимаюсь, так что будет какой-то выход и в мир мыслей. Проекты интересные мне очень разные, но чаще всего это сервисы, которые получили развитие или новую жизнь вместе с GenAI, то, что называют GenAI-enabled apps.

Мне нравится не чисто технический слой — там и не факт, что я такой уж эксперт, да и смысла нет. GenAI, как технология в чистом виде, развивается сама по себе. Толкать её — это как в океане толкать волну: смысла нет, но устать можно. Гораздо логичнее стараться найти место, где волна будет самой подходящей (рынок), и лучше всего её оседлать (конкретное решение).

#телеграм #стартапы #genAI
21👍3
Просто любопытные факты)

Знаете как называется европеоидная раса на английском? Большинство моих знакомых не знает. Кавказская (https://en.wikipedia.org/wiki/Caucasian_race), немецкий антрополог, создатель расовой теории [она устарела,btw] считал каноничными представителями расы - грузин и черкесов, а источником расы - кавказские горы куда предполагается приземлился Ной.

Сегодня схожий любопытный факт узнал.

Сколько континентов в мире?
Был уверен что 6, включая Евразию. Но оказалось, что зависит от того как считать.

Англоязычные страны и бывшие колонии считают что 7, включая отдельно Европу и Азию. Романские страны их бывшие колонии что 6, отдельно Европу и Азию, но Америки вместе. https://en.wikipedia.org/wiki/Continent

#интересныйфакт
👍13🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Что может перезагружать лучше чем хайкинг в горах, особенно если это самая высокая часть кавказского хребта и очень повезло с погодой?

Давно хотел доехать до Безенги и вот удалось, наконец.

Рекомендасьон, как сказала мне женщина средних лет в альплагере. Интересно как один тревел блогер ввел в обиход новое слово.

#личное #тревел
16🔥10
YCombinator как источник идей для стартапов

YC, лучший акселератор мира, поддерживает обширную базу стартапов, в которые они инвестировали. Изучение последних наборов стартапов – один из лучших способов подсмотреть свежие идеи для собственного бизнеса.

YC отличается не только своим брендом и успешностью, но и тем, что они предпочитают инвестировать на самой ранней стадии, часто становясь первым инвестором проекта. Это значит, что, даже если вы нашли идею в последнем или предпоследнем наборе, окно возможностей для создания подобного проекта может быть еще открыто. Отставание на 3-9 месяцев от стартапов YC – вполне допустимо. В истории немало примеров, когда поздние игроки занимали лидирующие позиции: Google, FB, Яндекс – ни одна из этих компаний не была первой на своих рынках.

Однако, выходя на рынок слишком поздно, шансы на успех значительно снижаются. Искать идеи на таких платформах, как Crunchbase, может означать отставание от трендов на 12-18 месяцев.

Еще один плюс базы данных YC – это ее открытость. У 2-5% проектов можно найти "мясо" – видео, использованные для подачи в YC, и ответы на вопросы из заявки. Эти материалы не только помогают понять уникальность подхода стартапов, но и учат лучше артикулировать свои собственные проекты для различных заявок.

#венчур #стартапы
20🔥10
RAG в русской википедии

В GenAI, RAG (Retrieval augmented generation) - это наше всё. По-русски переводится довольно коряво. Например, Генерация с дополненной выборкой (RAG).

Это критически важная техника. Практически любое применение языковых моделей в реальном мире основано на этом методе.

Суть проста - заставить языковую модель применить свой "интеллект", основываясь на данных, которые мы ей предоставили, а не на информации, заложенной создателями модели. Пример: Порекомендуй концерт в Амстердаме из списка ниже, если я люблю джаз -> рекомендация будет на основе актуальной афиши, а не любых амстердамских джазовых концертов.

Удивительно, но до сих пор на русском языке в википедии такой статьи нет. Мне кажется, это яркий и печальный показатель того, что в этой технологической волне русскоязычное технологическое сообщество рискует отстать.

Поскольку создание статей, включая перевод с других языков, доступно только ограниченному кругу пользователей, я не смог добавить полноценную статью.

Пока что пусть будет хотя бы мой черновик в вики "Генерация с дополненной выборкой (RAG)" . Надеюсь, это ускорит появление полноценной статьи.

#genAI #технологии
👍10🔥2
И пишу этот пост (видео) о том, как с помощью клода, просто описывая, что я им хочу, создал extension, не написал ни единой строчки кода. Extension – это voice-to-text, использующий Whisper, очень хорошую распознавалку, которая живет на всех вкладках. Мне кажется, это невероятно круто.

#genAI
🔥16
Интересные бизнес-идеи: Полноценные бизнес-интервью на автопилоте

Сегодня AI способен проводить полноценные сложные интервью, анализируя кандидатов и адаптируясь к их ответам в реальном времени.

Как человек, который много раз нанимал и интервьюировал специалистов, я прекрасно понимаю, насколько это трудоёмкий процесс. Со временем интервью превращаются в рутину, особенно когда нужно оценивать технические навыки и решать сложные кейсы. Конечно, 15-20 минут, чтобы понять "химию" с кандидатом, остаются важными — ошибка в найме дорогого специалиста может стоить слишком дорого. Но техническую часть интервью, особенно кейс-интервью, можно автоматизировать.

Это отличный пример того, как работа "белых воротничков" меняется благодаря генеративному AI.

Пример:

Mindely (YC S24) — AI, который проводит сложные бизнес-кейсы и ролевые интервью, экономя время старших менеджеров и устраняя усталость и предвзятость.
Apriora (YC W24, $2.8M seed) — автоматизирует массовые интервью с AI-рекрутерами, которые проводят живые видео-интервью и задают персонализированные вопросы на основе вакансии.

Зачем/преимущества:
+Экономия времени на интервью (особенно для старших специалистов, чьё время может стоить до $500/час).
+Исключение предвзятости и усталости интервьюера.
+Масштабирование сложных интервью для консалтинга и других интеллектуальных профессий.
+Кажется, что это может быть самостоятельным софтом, а не быть задавленным двумя ключевыми HR системами - доской вакансии и кандидатов (Linkedin, HH) и ATS. Ближе к формату зума.

Сложности/ограничения:
-Основной вызов — это сложность продаж таких решений в крупные корпорации, условный Fortune 500. Это и есть основной рынок, ведь остальные компании слишком редко нанимают специалистов на такие роли, чтобы часто покупать такой SaaS.
-Возможный риск инновации — потенциальная отрицательная селекция: лучшие кандидаты могут отказаться проходить интервью с машиной, что снизит эффективность.

Тем не менее, эти технологии точно будут распространяться, так как они решают реальные проблемы и делают процесс найма более эффективным и точным. Вопрос только какой команде хватит нетворка забрать первые топовые пилоты типа с BCG и потом запустить машинку продаж.

Интересно, что думаете насчёт этой идеи и моих выводов?

#идея #предпринимательство #GenAI
🔥9👍1
Почему большинство B2B приложений в Generative AI работают как копайлоты, а не автопилоты (и это не из-за технологии)

Сегодня большинство приложений в области Generative AI, особенно в B2B-секторе, можно разделить на два типа: copilots (условно 90%) и автопилоты (условно 10%). Важно понять, почему именно модель copilots сейчас доминирует.

Один комментарий, который я прочитал, хорошо подытоживает причину: бизнесу нужно не только решение задачи, но и тот, кто несет ответственность за результат.

Компании не готовы полагаться на полностью автономные решения, потому что машина не способна взять на себя ответственность за ошибки или провалы. Это не просто про функциональность — это про доверие и контроль.

#GenAI
👍10
Я очень активный юзер своего хром расширения по голосовому вводу на любой странице браузера. Доля таких в базе 100%😁

Вообще, в зависимости от времени дня и настроения, сидя перед монитором и разговаривая с ним, мне кажется, что я Тони Старк, разговаривающий с Джарвисом. То зашуганный чувак из фильма Она😅

#юмор
😁15
Еще одна причина использовать Poe.com вместо самих ChatGPT и Claude — возможность удалять отдельные сообщения. Это очень полезная функция.
Например, я спрашиваю, как исправить код, и в процессе у меня возникает вопрос: а вообще такую задачу можно решить в такой-то программе или кидаю скрин интерфейса и спрашиваю, что означает эта иконка?

То есть, в целом, я хочу разобраться, как исправить работу расширения на сложных сайтах, таких как Google Docs. Но по ходу дела у меня появляются дополнительные вопросы, отступления от основной темы.

Если использовать обычный ChatGPT, контекст быстро засоряется, и качество ответов при работе сильно ухудшается, приходиться начинать диалог заново с полной потерей контекста. А с Poe, т.к могу удалить любые сообщений и не бояться задавать вопросы в середине диалога, как если бы я спрашивал человека.

В общем, это отличная функция. Рекомендасьон

#личная_продуктивность
👍132
TaxGPT.pdf
846.2 KB
Интересная бизнес-идея: копайлот для налоговых консультантов.

В этой профессии много рутины, и автоматизация может значительно облегчить работу специалистов.
В последнем наборе YC 4 компании занимающихся вертикалью бухучета и налогов.

Например, есть копайлот для налоговиков, помогающий с проведением налоговых рисечей. В последнем наборе YC есть TaxGPT (приложил их питч), автоматизирующий получение ответов на налоговые вопросы. По сути, это аналог Perplexity для налоговой сферы.

Преимущества идеи:
+Востребованность во всех сегментах: B2C, B2SOHO, B2B, SME, B2B Enterprise. На примере Copilot2trip ярко увидел насколько сервисная индустрия голодна на сильных копайлотов
+Понятная экономика: пользователи готовы платить около $1000 в год. Можно растить чек внутри клиента за счет других фич (автоматизация написания мемо, CRM-ка итд)
+Сокращение числа налоговиков и консультантов. Старое поколение уходит, а новое приходит медленно, профессия не модная.

Минусы:
-Прям непреодолимый какой-то ров вряд ли можно создать. Данные: законы, рекомендации регуляторов, общедоступны.
-Если остаться только в рисеч сегменте конкуренция с другими горизонтальными поисковиками (Google, ChatGPT, Perplexity) может очень сильно уронить ARPU.
-Большие (PwC & Co) могут сделать и сами. Хотя это индустрия в которой доминируют по доле небольшие компании (до 30 консультантов).
-Вопрос privacy/trust будет возникать постоянно и может мешать продажам.

+\- Важно, что копайлот вряд ли станет полностью автономным из-за высокой цены ошибки в налоговых вопросах.

Вообще идея мне интересна, буду рад в комментах или в личке пообщаться на эту тему

#идея #genai #предпринимательство
4👍1
2025/07/09 18:14:17
Back to Top
HTML Embed Code: