Итак, настал финальный день DataFest 2025.
Сегодня в онлайн-программе доклады секции Opensource, начиная с 14-00 мск:
1. Александр Нозик, Scientific programming centre МФТИ.
Экосистема открытого научного ПО KScience и возможности развития открытого ПО в вузах.
Термин открытое программное обеспечение у всех на слуху. В этом докладе мы обсудим, что такое открытое программное обеспечение, какова его история и какие типы такого ПО бывают. Обсудим создание комьюнити и коммерциализации таких проектов на примере экосистемы KScience, включающей такие проекты как KMath, Controls-kt, VisionForge и Maps-kt. Ну и наконец мы обсудим, как может выглядеть экосистема открытого ПО для промышленности на базе вузов.
2. Дмитрий Кабанов, эксперт по стратегическому управлению, НИУ ВШЭ
Как ученые-стратеги понимают open source
Доклад про то, как ученые-стратеги смотрят на явление open source, какие существуют мифы и заблуждения, какие новые взгляды и инициативы стоит знать. Поговорим о (1) развитии научной мысли и подходов к open source с позиции стратегического управления организациями — от простейших концепций и бизнес-моделей к развитию организационных способностей. Кроме того, обсудим (2) мягкие инициативы государственных структур и регуляторов в данной области — от open source-реестров к геостратегическому взгляду на феномен открытой разработки технологий.
3. Антон Ширяев
VLMHyperBench — open-source фреймворк для оценки возможностей Vision language models (VLMs) распознавать документы на русском языке.
VLMHyperBench позволяет: сравнивать модели, запускаемые на разных фреймворках инференса (Hugging Face, vLLM, SGLang и др.); сравнивать между собой модели, несовместимые по зависимостям; оценивать подбираемые промпты для каждого отдельного типа документа и каждого отдельного поля документа, объединяя их в коллекции промптов; подбирать коллекцию промптов для каждого типа вопроса, если их конечное множество, как в документах; использовать коллекции промптов и системных промптов подобранных индивидуально для каждой модели, чтобы получать максимум от ее возможностей; легко добавлять свои наборы данных, модели, типы задач, метрики и визуализации результатов оценки за счет модульной и расширяемой архитектуры; проводить оценку метрик с агрегацией: по каждому отдельному объекту датасета индивидуально, группируя тип вопроса и промпт, группируя по типу вопроса, по всему датасету. Вдохновившись примером Дональда Кнута, мы решили создать собственный open source фреймворк, сочетающий данные возможности и особенности.Следить за нашим проектом удобнее всего через официальный новостной канал. Проект был поддержан грантом Yandex Open Source 2025 г.
4. Мария Румянцева, аналитик данных ООО "Статанли", аспирант ИТМО
CTCI - библиотека для анализа однородных промышленных данных.
Однородные плотно сгруппированные промышленные данные - это, например, камни в кучах и на конвейере, пузырьки флотации, гранулы удобрений и так далее, т.е. те данные, которые достаточно сложно и дорого размечать, и даже автоматическая разметка с помощью фундаментальных моделей не всегда помогает. В инструменте CTCI мы предлагаем способы размечать автоматически, при этом значительно экономя время, но достигая сопоставимых результатов.
——
Также проанонсирую доклад в соседнем треке AI4SE, который пройдет в 12-00 мск:
Андрей Гетманов, ML researcher и open-source разработчик, Институт ИИ ИТМО:
OSA: Как помочь учёным писать хороший код
Тут Андрей расскажет про новые обновления в нашем инструменте OSA (в частности - покажет прототип графического интерфейса).
Приглашаем всех послушать и позадавать вопросы. Пароль от ODS спейса: datafest2025_0106, а а ссылка тут - https://ods.ai/events/df2025-01-june-online
Сегодня в онлайн-программе доклады секции Opensource, начиная с 14-00 мск:
1. Александр Нозик, Scientific programming centre МФТИ.
Экосистема открытого научного ПО KScience и возможности развития открытого ПО в вузах.
Термин открытое программное обеспечение у всех на слуху. В этом докладе мы обсудим, что такое открытое программное обеспечение, какова его история и какие типы такого ПО бывают. Обсудим создание комьюнити и коммерциализации таких проектов на примере экосистемы KScience, включающей такие проекты как KMath, Controls-kt, VisionForge и Maps-kt. Ну и наконец мы обсудим, как может выглядеть экосистема открытого ПО для промышленности на базе вузов.
2. Дмитрий Кабанов, эксперт по стратегическому управлению, НИУ ВШЭ
Как ученые-стратеги понимают open source
Доклад про то, как ученые-стратеги смотрят на явление open source, какие существуют мифы и заблуждения, какие новые взгляды и инициативы стоит знать. Поговорим о (1) развитии научной мысли и подходов к open source с позиции стратегического управления организациями — от простейших концепций и бизнес-моделей к развитию организационных способностей. Кроме того, обсудим (2) мягкие инициативы государственных структур и регуляторов в данной области — от open source-реестров к геостратегическому взгляду на феномен открытой разработки технологий.
3. Антон Ширяев
VLMHyperBench — open-source фреймворк для оценки возможностей Vision language models (VLMs) распознавать документы на русском языке.
VLMHyperBench позволяет: сравнивать модели, запускаемые на разных фреймворках инференса (Hugging Face, vLLM, SGLang и др.); сравнивать между собой модели, несовместимые по зависимостям; оценивать подбираемые промпты для каждого отдельного типа документа и каждого отдельного поля документа, объединяя их в коллекции промптов; подбирать коллекцию промптов для каждого типа вопроса, если их конечное множество, как в документах; использовать коллекции промптов и системных промптов подобранных индивидуально для каждой модели, чтобы получать максимум от ее возможностей; легко добавлять свои наборы данных, модели, типы задач, метрики и визуализации результатов оценки за счет модульной и расширяемой архитектуры; проводить оценку метрик с агрегацией: по каждому отдельному объекту датасета индивидуально, группируя тип вопроса и промпт, группируя по типу вопроса, по всему датасету. Вдохновившись примером Дональда Кнута, мы решили создать собственный open source фреймворк, сочетающий данные возможности и особенности.Следить за нашим проектом удобнее всего через официальный новостной канал. Проект был поддержан грантом Yandex Open Source 2025 г.
4. Мария Румянцева, аналитик данных ООО "Статанли", аспирант ИТМО
CTCI - библиотека для анализа однородных промышленных данных.
Однородные плотно сгруппированные промышленные данные - это, например, камни в кучах и на конвейере, пузырьки флотации, гранулы удобрений и так далее, т.е. те данные, которые достаточно сложно и дорого размечать, и даже автоматическая разметка с помощью фундаментальных моделей не всегда помогает. В инструменте CTCI мы предлагаем способы размечать автоматически, при этом значительно экономя время, но достигая сопоставимых результатов.
——
Также проанонсирую доклад в соседнем треке AI4SE, который пройдет в 12-00 мск:
Андрей Гетманов, ML researcher и open-source разработчик, Институт ИИ ИТМО:
OSA: Как помочь учёным писать хороший код
Тут Андрей расскажет про новые обновления в нашем инструменте OSA (в частности - покажет прототип графического интерфейса).
Приглашаем всех послушать и позадавать вопросы. Пароль от ODS спейса: datafest2025_0106, а а ссылка тут - https://ods.ai/events/df2025-01-june-online
🔥6🤩2
Через 10 минут начнётся секция Open Source DataFest 2025
Подключаться сюда
Пароль: datafest2025_0106
После подключения заходите в комнату Open Source
Задавайте вопросы в чате Spatial, спикеры обязательно на них ответят
Подключаться сюда
Пароль: datafest2025_0106
После подключения заходите в комнату Open Source
Задавайте вопросы в чате Spatial, спикеры обязательно на них ответят
app.spatial.chat
SpatialChat
Virtual space platform to help remote teams collaborate.
🔥5
Научный опенсорс
Сообщают, что на Хабре объявили совместный с GitVerse конкурс статей про опенсорс - https://habr.com/ru/specials/898552/ Статьи могут быть посвящены опыту создания, поддержке и сопровождении open-source-проектов, описанию глубоких погружений в код популярных…
Пару месяцев назад писал про конкурс "Сезон Open Source" на Хабре, организованный совместно с GitVerse. И вот уже 10 июня в 16-00 начнется встреча с подведением итогов и другими активностями, посвященными открытом коду. Планируется обсуждения перспектив совмещения ИИ и open-source, современных инструментов (в том числе GigaCode и GigaIDE) и перспектив области в целом.
Все подробности - в канале GitVerse, трансляция - тут.
От своей лаборатории мы подавали на конкурс посты:
1) OSA: ИИ-помощник для разработчиков научного open source (про активно нами развиваемый проект https://github.com/aimclub/OSA)
2) Нейросети со льдом (про созданный в рамках проекта КОД-ИИ фреймворк https://github.com/ChrisLisbon/TorchCNNBuilder и его использование для прикладных задач в области гидромета).
Все подробности - в канале GitVerse, трансляция - тут.
От своей лаборатории мы подавали на конкурс посты:
1) OSA: ИИ-помощник для разработчиков научного open source (про активно нами развиваемый проект https://github.com/aimclub/OSA)
2) Нейросети со льдом (про созданный в рамках проекта КОД-ИИ фреймворк https://github.com/ChrisLisbon/TorchCNNBuilder и его использование для прикладных задач в области гидромета).
🔥10❤5
Писал пару месяцев назад про закрытый тест платформы SourceCraft от Yandex, а сегодня вот сообщают, что выпустили публичную версию.
Среди новых фич:
- Чат-клиент для SourceCraft Code Assistant (плагины для VSCode и IDE от JetBrains);
- Миграция и зеркалирование проектов с GitHub (что полезно - включая PR и Issue);
- Публичное API для автоматизации и интеграции с другими приложениями;
- Форки, пакеты, локальные actions.
Подробнее - в блоге или канале платформы.
Среди новых фич:
- Чат-клиент для SourceCraft Code Assistant (плагины для VSCode и IDE от JetBrains);
- Миграция и зеркалирование проектов с GitHub (что полезно - включая PR и Issue);
- Публичное API для автоматизации и интеграции с другими приложениями;
- Форки, пакеты, локальные actions.
Подробнее - в блоге или канале платформы.
🔥8👍3❤1
При сабмите на конференции с double-blind review (как, например, на большинстве треков A*) у авторов периодически возникает вопрос - как упомянуть в статье свой репозиторий с кодом и данными, не утратив при этом анонимности.
Могу порекомендовать сервис, который сам использую - https://anonymous.4open.science/
Что умеет:
1) Анонимизировать существующие репо из гитхаба, меняя ссылку на свою (а при необходимости - синхронизируя дальнейшие обновления);
2) Удалять заданные ключевые слова, которые могут вас раскрыть (название, имена, технологии);
3) Чистить картинки, приложенные PDF и др.
4) Учитывать требования конкретных конференций к анонимизации;
5) Удалять анонимный репозиторий после заданной даты;
Конечно, бдительность все равно нужно сохранять. Знаю ситуацию с desk reject с NeurIPS, когда никто из соавторов не заметил, что в конце README притаился раздел в How To Cite с не до конца анонимизированной ссылкой на предыдущую статью по проекту. А вот рецензент - заметил... Было обидно.
От этого предложенный сервис не спасёт, конечно. Но вообще такие моменты умеют неплохо подмечать LLM - есть смысл им свою статью и документацию из репо тоже "показывать" (тот же бесплатный DeepSeek умеет принимать на вход документы целиком).
В общем, очень удобная штука. Всем удачных сабмитов!
Могу порекомендовать сервис, который сам использую - https://anonymous.4open.science/
Что умеет:
1) Анонимизировать существующие репо из гитхаба, меняя ссылку на свою (а при необходимости - синхронизируя дальнейшие обновления);
2) Удалять заданные ключевые слова, которые могут вас раскрыть (название, имена, технологии);
3) Чистить картинки, приложенные PDF и др.
4) Учитывать требования конкретных конференций к анонимизации;
5) Удалять анонимный репозиторий после заданной даты;
Конечно, бдительность все равно нужно сохранять. Знаю ситуацию с desk reject с NeurIPS, когда никто из соавторов не заметил, что в конце README притаился раздел в How To Cite с не до конца анонимизированной ссылкой на предыдущую статью по проекту. А вот рецензент - заметил... Было обидно.
От этого предложенный сервис не спасёт, конечно. Но вообще такие моменты умеют неплохо подмечать LLM - есть смысл им свою статью и документацию из репо тоже "показывать" (тот же бесплатный DeepSeek умеет принимать на вход документы целиком).
В общем, очень удобная штука. Всем удачных сабмитов!
👍7🔥3❤1
Небольшой дайджест интересных материалов в околоопенсорсной сфере, на основе попадавшегося за последнего время в соседних сообществах и нашем чате:
1) Выложили доклад Андрея Гетманова "OSA: как помочь учёным писать хороший код" с конференции Merge (Иннополис);
2) Вышла подборка решений для создания и управления ИИ-приложениями от российских разработчиков от ICT Moscow - про наши проекты тоже упомянули;
3) Идет набор участников на школу DataCon, посвященную применению AI/ML в разработке фармацевтических молекул. Представители NSS Lab ИТМО участвуют в программе, среди прочего - проведем мастер-класс по применения ИИ-инструмента OSA для связанных с химией открытых репозиториев;
4) Опубликованы результаты конкурса опенсорс-статей на Хабре, можно почитать посты по интересующим темам;
5) Обьявлен call for speakers на конференцию OFFZONE 2025. Есть AI-трек.
Надеюсь что-то пригодится.
Если что-то особенно любопытное пропустили - пишите в комментарии)
1) Выложили доклад Андрея Гетманова "OSA: как помочь учёным писать хороший код" с конференции Merge (Иннополис);
2) Вышла подборка решений для создания и управления ИИ-приложениями от российских разработчиков от ICT Moscow - про наши проекты тоже упомянули;
3) Идет набор участников на школу DataCon, посвященную применению AI/ML в разработке фармацевтических молекул. Представители NSS Lab ИТМО участвуют в программе, среди прочего - проведем мастер-класс по применения ИИ-инструмента OSA для связанных с химией открытых репозиториев;
4) Опубликованы результаты конкурса опенсорс-статей на Хабре, можно почитать посты по интересующим темам;
5) Обьявлен call for speakers на конференцию OFFZONE 2025. Есть AI-трек.
Надеюсь что-то пригодится.
Если что-то особенно любопытное пропустили - пишите в комментарии)
YouTube
OSA: как помочь учёным писать хороший код - Андрей Гетманов, ИТМО
IT-конференция Merge, Иннополис, 26.04.2025
В современной науке код приходится писать всем: от биологов до химиков. Они зачастую не знакомы с best practices разработки, такой код сложно прочесть и ещё сложнее запустить.
Я расскажу, как обстоят дела в ресёрче…
В современной науке код приходится писать всем: от биологов до химиков. Они зачастую не знакомы с best practices разработки, такой код сложно прочесть и ещё сложнее запустить.
Я расскажу, как обстоят дела в ресёрче…
🔥7❤3👍1
Увидел в чате SPC анонс вот такого мероприятия. Kotlin, как известно, создан выпускниками ИТМО, да ещё и сам митап проходит в Петербурге. Поэтому не могу не проанонсировать:
"28 июня состоится долгожданная встреча Kotlin User Group в Петербурге!
Мероприятие начнется с вступления легенды Kotlin— Романа Елизарова.
Мы собрали несколько тем, которые могут быть интересны для общения. про Kotlin & Spring, про Rich Errors, и про Kotlin в IoT. Обсудим интересные новости с Kotlin Conf.
И конечно — неформальное общение!
Перед тем как прийти, нужно обязательно зарегистрироваться на событие."
Кстати, если кто-то хочет адаптировать OSA к улучшению Kotlin-репозиториев - пишите, поможем.
"28 июня состоится долгожданная встреча Kotlin User Group в Петербурге!
Мероприятие начнется с вступления легенды Kotlin— Романа Елизарова.
Мы собрали несколько тем, которые могут быть интересны для общения. про Kotlin & Spring, про Rich Errors, и про Kotlin в IoT. Обсудим интересные новости с Kotlin Conf.
И конечно — неформальное общение!
Перед тем как прийти, нужно обязательно зарегистрироваться на событие."
Кстати, если кто-то хочет адаптировать OSA к улучшению Kotlin-репозиториев - пишите, поможем.
🔥4
Коллеги с ФКН ВШЭ анонсировали семинар по нашей любимой теме - "Open-source в науке".
Пройдет онлайн 27.06 (пятница), в 18-00 мск, докладчик - Иван Рубачев, исследователь Yandex Research, Младший научный сотрудник Научно-учебной лаборатории компании Яндекс
Подробности про семинар и ссылка на зум - тут.
Пройдет онлайн 27.06 (пятница), в 18-00 мск, докладчик - Иван Рубачев, исследователь Yandex Research, Младший научный сотрудник Научно-учебной лаборатории компании Яндекс
Подробности про семинар и ссылка на зум - тут.
🔥11🤩6
Научный опенсорс
А тем временем, близится DataFest 2025, на котором мы традиционно проводим секцию OpenSource. В карточках - описание основных локаций и докладов. Площадок несколько: 24 мая - в Москве (VK), 25 мая - в Белграде (Yandex), 29 мая - в СПб (Selectel), 1 июня …
Подоспели записи докладов опенсорс-трека с ODS DataFest - видео и материалы со всех площадок выложены тут.
Ниже - выступления очного дня в Selectel и онлайна (записями докладов с площадок VK и Белграде уже делились ранее):
Офис Selectel, Санкт-Петербург
Владимир Игошин, студента Нового Физтеха ИТМО.
SVETlANNa = свет + artificial neural network: как физики делали Open Source и что из этого вышло
Кирилл Колодяжный, ведущий разработчик ПО в YADRO.
Adept: Исследовательская и образовательная платформа с открытым кодом для тензорных вычислений, обучения и запуска ML-моделей
Андрей Новицкий, независимый разработчик.
Volga: движок для обработки real-time данных с фокусом на AI/ML системы
Александр Календарёв, разработчик OpenSource.
Обучение на табличных данных в Postgres
Онлайн
Александр Нозик, директор Scientific programming centre МФТИ.
Экосистема открытого научного ПО KScience и возможности развития открытого ПО в вузах.
Дмитрий Кабанов, эксперт по стратегическому управлению, НИУ ВШЭ.
Как ученые-стратеги понимают open source
Антон Ширяев, магистрант AI Talent Hub ИТМО.
VLMHyperBench — open-source фреймворк для оценки возможностей Vision language models (VLMs) распознавать документы на русском языке.
Мария Румянцева, аналитик данных ООО "Статанли", аспирант ИТМО.
CTCI - библиотека для анализа однородных промышленных данных.
Спасибо всем кто участвовал!
Ниже - выступления очного дня в Selectel и онлайна (записями докладов с площадок VK и Белграде уже делились ранее):
Офис Selectel, Санкт-Петербург
Владимир Игошин, студента Нового Физтеха ИТМО.
SVETlANNa = свет + artificial neural network: как физики делали Open Source и что из этого вышло
Кирилл Колодяжный, ведущий разработчик ПО в YADRO.
Adept: Исследовательская и образовательная платформа с открытым кодом для тензорных вычислений, обучения и запуска ML-моделей
Андрей Новицкий, независимый разработчик.
Volga: движок для обработки real-time данных с фокусом на AI/ML системы
Александр Календарёв, разработчик OpenSource.
Обучение на табличных данных в Postgres
Онлайн
Александр Нозик, директор Scientific programming centre МФТИ.
Экосистема открытого научного ПО KScience и возможности развития открытого ПО в вузах.
Дмитрий Кабанов, эксперт по стратегическому управлению, НИУ ВШЭ.
Как ученые-стратеги понимают open source
Антон Ширяев, магистрант AI Talent Hub ИТМО.
VLMHyperBench — open-source фреймворк для оценки возможностей Vision language models (VLMs) распознавать документы на русском языке.
Мария Румянцева, аналитик данных ООО "Статанли", аспирант ИТМО.
CTCI - библиотека для анализа однородных промышленных данных.
Спасибо всем кто участвовал!
🔥10❤6🎉3
Тем временем, ворвались на PyCon 2025 с докладом про OSA - наш инструмент для улучшения репозиториев.
Андрей Гетманов расскажет про обновления, которые многочисленные контрибьюторы (из ИТМО и не только) реализовали за последние несколько месяцев: от агента-планировщика, обеспечивающего автоматизацию комплексной обработки репозитория до улучшенной генерации документации в формате mkdocs и возможностей улучшения уже существующих README.
Кто будет на PyCon в этом году - приходите послушать и позадавать Андрею вопросы. Запись потом выложат.
Репозиторий всё тот же - https://github.com/aimclub/OSA. Заходите, пробуйте, если понравится - ставьте звездочки)
P.S. Кстати, недавно работу про OSA приняли на воркшоп CODEML конференции ICML - даже получили там статус "Spotlight". Про это тоже скоро расскажем и вышлем препринт и постер.
Андрей Гетманов расскажет про обновления, которые многочисленные контрибьюторы (из ИТМО и не только) реализовали за последние несколько месяцев: от агента-планировщика, обеспечивающего автоматизацию комплексной обработки репозитория до улучшенной генерации документации в формате mkdocs и возможностей улучшения уже существующих README.
Кто будет на PyCon в этом году - приходите послушать и позадавать Андрею вопросы. Запись потом выложат.
Репозиторий всё тот же - https://github.com/aimclub/OSA. Заходите, пробуйте, если понравится - ставьте звездочки)
P.S. Кстати, недавно работу про OSA приняли на воркшоп CODEML конференции ICML - даже получили там статус "Spotlight". Про это тоже скоро расскажем и вышлем препринт и постер.
pycon.ru
Андрей Гетманов. OSA: инструмент для повышения воспроизводимости и качества научного кода
В современной науке код приходится писать всем: от биологов до химиков. Они зачастую не знакомы с best practices разработки, такой код сложно прочесть и ещё сложнее запустить.
🔥13