Mashkka про Data Science 1941

И почему пятница это вечно день созвонов
#пятничныемемасы

1.6K views18:06

🫥

Paper Watch: Обзор EMNLP'24

В новом выпуске #paperwatch подготовили для вас с коллегой большой обзор конференции EMNLP'24. Рассказали про основные тренды, самые интересные статьи и наш рисерч по генерации нейросказок, который мы презентовали в этом году.

💭Запись
🌴Материалы конференции
👀Слайды
🧚‍♂️Исследование про нейросказки

#paperwatch #mashkka_usa #трудовыебудни #новостисполей

Please open Telegram to view this post

VIEW IN TELEGRAM

1.7K views19:03

Mashkka про Data Science

Forwarded from Kantor.AI

0:58

This media is not supported in your browser

VIEW IN TELEGRAM

Есть ли отечественные генеративные нейросети на самом деле?

В соцсетях сейчас вирусится видео, прикрепленное к посту: молодой человек рассказывает о том, как отечественные нейросети выдают крайне подозрительный результат по запросу нарисовать «родное».

Первое, что думают люди, видя такое, это что отечественных нейросетей на самом деле нет и они просто перенаправляют запросы в апишку Midjourney и им подобных зарубежных оригиналов.

Те, кто более прошарен, думают, что наши компании просто берут зарубежный опенсорс, разворачивают у себя, а русские запросы обрабатывают после перевода на английский.

А кто еще более прошарен, знает, что опенсорс в целом поддерживает и русский язык. Остается вопрос: так как же все-таки работают отечественные нейросети?

Зачем гадать, если можно спросить эксперта в области технологий AI, который сам имеет отношение к теме генеративного ИИ — Александра Абрамова. См. ответ у него в канале или репост ниже 👇

1.3K views10:10

Mashkka про Data Science

Forwarded from Dealer.AI

Mashkka про Data Science

Есть ли отечественные генеративные нейросети на самом деле? В соцсетях сейчас вирусится видео, прикрепленное к посту: молодой человек рассказывает о том, как отечественные нейросети выдают крайне подозрительный результат по запросу нарисовать «родное». Первое…

Вы спросили —Дядя отвечает. Истина находится где-то по середине. Действительно на нашем рынке можно встретить множество решений вокруг открытых моделей с huggingface или же апи модных нынче Midjourney. Это может работать по принципу перевел с ру на ен и вкинул в апиху, далее выдал результат. Обычно, на старте, это было уделом малых команд, стартапов и пр.

На самом деле, ничего в этом зазорного нет, те же ребята с Perplexity строить свое решение начали именно вокруг топовых апи LLM (OpenAI, Google, Anthropic и т.п.). Но при этом perplexity имеют свою доп. логику с поиском, линковкой фактов и пр. Что делает ее решение аналогом поисковика "в кармане". После, они еще и собственные тюны моделей Llama like завезли, благо лицензия открытая позволяет. И это имеет спрос.
Т.е. более крупные игроки, стараются использовать такие решения для холодного старта или во все опираясь на открытые сеты , модели или архитектуры делать собственные решения/тюны/модели. И я думаю, что крупные игроки нашего рынка достигли уже того уровня зрелости, когда могут позволить себе свои исследования, и как следствие, свои решения в виде моделей и сервисов.

Вопрос остается только в источниках данных. Такое поведение, как мы видим на видео, может быть обусловлено, влиянием сетов обучения. Т.к. на рынке множество открытых сетов на английском языке для задач text2image, а для русского языка примеров много меньше. Создание таких ру-ен данных требует затрат на написание/генерацию и чистку. А в открытых сетах для обучения может возникать дисбаланс по ру-ен паре и как следствие превалирование этики из сетов коих больше. Поэтому тот же native/родной после предобучения на таких примерах будет носить знания культуры того языка коего больше. Тк в основном это все переводы с ен языка на ру как есть, да ещё к релевантным для ен языка картинкам. Для того, чтобы решить проблему "перекоса", не достаточно балансировки знаний, надо писать/матчить именно опорные ру тексты с "правильными" картинками к ним,а также придется, скорее всего, прибегнуть к выравниванию поведения — привет alignment/ human feedback и тп. А далее, вооружившись всем этим, нужно будет решать вопросы тюна с эмбеддером text2image, чтобы для языковой пары запрос сводился к "правильной картинке". Именно его представления будут использоваться диффузией как базой генерации. И в тч над этим, думаю, работают исследовательские команды крупных игроков.

Но нет предела совершенству, это непрерывный процесс дообучения и отлова "черных лебедей". Вот как-то так.

1.4K views10:10

Mashkka про Data Science

0:35

Media is too big

VIEW IN TELEGRAM

#justaboutme Best of EMNLP✨

Собрала лучшие моменты EMNLP в одном ярком vlog. Встречаем, лучшее из Майами за 30 секунд (и буду признательна, если поддержите этот ролик на YouTube).

❕Напомню, #justaboutme - воскресная рубрика, в которой я делюсь яркими событиями из своей жизни, не связанными с DS и ИТ подобно тому, как я это делаю в соцсетях.

#mashkka_usa #трудовыебудни #новостисполей

1.5K viewsedited 06:50

Mashkka про Data Science

Forwarded from tsymba❤️

Привет, друзья!

Мы открыли набор задач для IOAI 2025 (международной олимпиады школьников по искусственному интеллекту, где в прошлом году победила российская команда).

У вас есть уникальный шанс привнести что-то невероятное и заставить лучшие умы человечества (в своей возрастной категории) поломать голову над вашей задачей 🤔🧠 (я там был — ощущения просто незабываемые! 🔥)

Авторов лучших задач, кроме всемирной славы, ждем на самой олимпиаде летом 2025 в Китае 🇨🇳 (жильё обеспечим, билеты — за ваш счёт, хе-хе).

💡 Что нужно для подачи: описание, датасет, бейзлайн, метрики, карточка задачи.

📊 Как мы выбираем: задача должна быть:
- не решаемой "в лоб",
- с несколькими трюками и частичными решениями,
- быстрой и оригинальной,
- образовательно ценной.

⏳ Дедлайн: 31 января 2025.

Если есть сомнения или вопросы, пишите мне лично — я с радостью помогу и отвечу! (отвечаю за задачи на следующей олимпиаде).

🙏 И пожалуйста, поделитесь этим постом или ссылкой со своими академическими и индустриальными друзьями! Уверен, среди них есть неравнодушные люди ❤️

International Olympiad in Artificial Intelligence

Call for tasks - International Olympiad in Artificial Intelligence

Call for tasks Contribute to IOAI 2025! The IOAI International Scientific Committee (ISC) invites AI researchers worldwide to contribute to the design of competition tasks for IOAI 2025. The competition consists of three stages: At-Home Round: Students work…

1.5K views17:34

Mashkka про Data Science

Forwarded from Kantor.AI

0:54

Media is too big

VIEW IN TELEGRAM

🔥Подкаст про большие языковые модели с Сашей Абрамовым

Опубликовал полную версию подкаста с Dealer.AI

YouTube: https://youtu.be/3ra-zgi-dIM
VKвидео: https://vkvideo.ru/video-228552366_456239026?list=ln-1rG35Aicro6zMIMOIK

Саша не только в значительной степени приложил руку к Сберовским LLM и GenAI, но и очень хорошо рассказывает. К просмотру строго обязательно :)

Please open Telegram to view this post

VIEW IN TELEGRAM

1.4K views17:21

Mashkka про Data Science

🤖Подключайтесь к

🅰

уже сейчас

Сегодня началась ежегодная AI конференция от Сбера - AI Journey, где лучшие передовые исследователи рассказывают про достижения и тренды в области AI, а мы с коллегами делимся последними достижениями.

👀Подключайтесь к трансляции уже сейчас (регистрация не требуется!).

❗️Spoiler: самые интересные доклады будут 12 и 13 декабря.

@mashkka_ds

#nlp #ai #конференция

Please open Telegram to view this post

VIEW IN TELEGRAM

5.1K viewsedited 11:26

Mashkka про Data Science

🎄Под новый год происходят чудеса: новые лидеры на MERA

Сразу два новых сабмита залетают на лидерборде MERA в топ: модель Cotype от MTS AI, в спину которой дышит новая модель T-pro от Т-банк.

🆕Между прочим, у Т-банка вышла не одна, а сразу 2 модели на 7B и 32B параметров. Модели уже доступны на huggingface, а больше подробностей ищите здесь.

Please open Telegram to view this post

VIEW IN TELEGRAM

1.5K viewsedited 11:36

Mashkka про Data Science

Forwarded from OTUS IT News

Что ждёт Data Science и AI в 2025

❓

Не стройте догадок. Выясните наверняка!

➡️ Приходите на конференцию "Будущее Data Science: тренды 2025"

Узнайте о передовых технологиях: Zero-shot Anomaly Detection и мультимодальных моделях
Узнайте, как улучшить производительность продуктов и сократить затраты на разработку с помощью Generative AI и синтетических данных
Погрузитесь в практические подходы к работе с Generative AI, синтетическими данными и LVLM
Познакомьтесь с основными трендами и технологиями Data Science

⭐️ Будет интересно: опытным дата-сайентистам, менеджерам проектов, аналитикам, разработчикам, а также всем, кто только начинает путь в ML или задумывается о карьере в Data Science или анализе данных.

Спикеры:
Мария Тихонова, руководитель направления R&D в SberDevices
Дмитрий Колесников, техлид команды компьютерного зрения
Андрей Коняев, инженер-исследователь в IT-Systems International

Бонусы для участников! Скидка 7% на любой курс OTUS, 5 классных гайдов, презентации спикеров

🗓 12 декабря, 19:00 МСК
Бесплатно

Записаться на событие

#Otus #вебинар #DataScience #конференция #ИИ

Please open Telegram to view this post

VIEW IN TELEGRAM

1.4K views15:46

Mashkka про Data Science

0:31

This media is not supported in your browser

VIEW IN TELEGRAM

Прямое включение с открытия второго дня 🅰

🅰

🅰 от коллег.

👀Подключаемся к трансляции уже сейчас (регистрация не требуется!).

Please open Telegram to view this post

VIEW IN TELEGRAM

1.5K viewsedited 07:28

Mashkka про Data Science

#пятничныемемасы
Как же хорошо, что сейчас не среда, а пятница!

1.4K viewsedited 08:06

Mashkka про Data Science

Forwarded from Dendi Math&AI (Денис Димитров)