Научный опенсорс

В канун Первомая выпустили статью на Хабре, где рассказываем о деталях реализации нашего проекта OSA — "улучшателя" научных репозиториев на базе LLM.

https://habr.com/ru/companies/spbifmo/articles/906018/

Также в статье поделились примерами использования OSA и обратной связью от коллег, попробовавших проект на своих репозиториях. В их числе — сотрудники лаборатории КТ ИТМО, ФКН ВШЭ и бразильского Universidade Federal de Juiz de Fora.

Приятного чтения!

P.S. Попробовать Осу можно здесь. Будем рады вашим звёздочкам.

❤13👍8👎1

1.51K views13:31

Научный опенсорс

Всем привет! 👋
Мы — команда probAI, и рады представить applybn — нашу новую библиотеку для прикладного анализа данных на базе байесовских сетей (БС) и каузальных моделей. Разработано в рамках гранта «КодИИ».

Однажды мы собрались и поняли, что существует множество классных алгоритмов на основе байесовских сетей и каузальных моделей, которые умеют детектировать выбросы, отбирать и генерировать признаки, объяснять влияние частей модели на результат и многое другое. Так почему бы не собрать лучших из них в одну удобную библиотеку? Так и появился applybn.

Что умеет applybn?

1. Обнаружение аномалий

✔️Табличные данные: сочетание байесовских сетей и методов близости для поиска плотностных аномалий и аномалий зависимостей

✔️Временные ряды: динамические БС, автоматически учитывающие временные и межпеременные зависимости

2. Генерация синтетических данных и балансировка выборок

✔️Автоматическое выравнивание несбалансированных выборок при помощи гибридных БС и гауссовских смесей с учётом взаимодействий признаков

3. Отбор и генерация признаков

✔️Каузальный отбор: ищет только те фичи, которые имеют ненулевой причинный эффект (без ручных порогов)

✔️MI‑отбор: находит марковские окружения по нормализованной взаимной информации

✔️Генерация фичей на основе БС: дополняет данные вероятностными параметрами условных зависимостей для повышения качества моделей

4. Объяснимый анализ

✔️Каузальный анализ компонентов моделей: строит структурную каузальную модель, чтобы оценить и убрать неважные компоненты модели (например, фильтры CNN)

✔️ACE‑анализ признаков в данных: рассчитывает средний эффект влияния признаков на уверенность модели для интерпретации и отладки

⚙️ Все модули библиотеки совместимы с экосистемой scikit-learn, так что её легко интегрировать в существующие пайплайны анализа данных.

Заглядывайте в репозиторий applybn, ставьте звёздочки ⭐️ и делитесь впечатлениями!

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub

GitHub - Anaxagor/applybn: Multi-purpose data analysis framework based on Bayesian networks and Causal models

Multi-purpose data analysis framework based on Bayesian networks and Causal models - Anaxagor/applybn

🤩14🔥10❤6👍4

1.71K viewsIrina Deeva, 12:09

Научный опенсорс

На Хабре вышла статья Дмитрия Кабанова "«Теплый ламповый» опенсорс — новые мега-подборки, пет-проекты, комиксы и книги, абсурдные и полезные лицензии".

В ней - подборка интересных opensource-related материалов: интересных репозиториев, книг, awesome-листов и т.д.

Среди прочего, упоминают про научный код и нашего ИИ-ассистента для опенсорс-разработки OSA, про которого мы недавно рассказывали в канале.

🔥11👍2🫡2

4K viewsNikolay Nikitin, 10:31

Научный опенсорс

Всем привет! Мы обновили и расширили документацию с примерами нашей библиотеки TorchCNNBuilder. Инструмент довольно простой в освоении, позволяет быстро создавать сверточные сети для любых целей не задумываясь о внутренних размерностях - достаточно задать размер входных и выходных данных.

Модельки можно собрать легковесные, но в качестве бейзлайнов для прогнозирования, сегментации, автоэнкодеров - отличный вариант. Кто еще не пробовал, но внезапно почувствует потребность в свертках, приглашаем затестировать или поконтрибьютить) ну и поддержите звездочками, нам будет очень приятно ☺️

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥16

1.06K views12:31

Научный опенсорс

"Зоопарк из слоновой кости" вновь включил наш канал "Научный опенсорс" в свою подборку. На этот раз - по близким мне техническим наукам.

По ссылкам в репосте - tg-папки с интересными ресурсами из разных областей, среди которых можно поискать чего-то по душе.

Мы бы тоже собрали свою папку с каналами про open-source, но кажется их не слишком много) Может, кто-то когда-то возьмется.

🔥5

663 viewsNikolay Nikitin, 19:01

Научный опенсорс

Forwarded from Зоопарк из слоновой кости

#пост_по_регламенту

Итак, закрываем долги. Ловите оставшиеся небольшие тематические папочки от нашего Зоопарка - небольшие, но интересные:

Математика

Физика

Технические науки

Если кто хочет добавиться, пишите в комменты до конца дня (после не имеет практического смысла)

Math 03-25

Смотритель Зоопарка invites you to add the folder “Math 03-25”, which includes 11 chats.

🔥3❤‍🔥1

381 viewsNikolay Nikitin, 19:01

Научный опенсорс

Время очередной подборочки интересных около-опенсорсных материалов и активностей:

- Стартовал конкурс проектов с открытым кодом для студентов ФКН НИУ ВШЭ.
Хорошая инициатива, тоже в ИТМО планируем такое сделать.

- Близится дедлайн конкурса Kaicode.
Авторам хорошо проработанных открытых проектов рекомендуем попробовать податься - даже если не выиграете, то получите обратную связь. Там была проблема с формой сабмита, но организаторы оперативно починили.

- Вышло исследование про MLOps в России от ICT.Moscow.
Дал для него пару комментариев с точки зрения не-корпоративных опенсорс-разработчиков

- Мы выложили в ютуб-канале доклады с нашего недавнего онлайн-митапа про способы поддержки научных опенсорс-проектов.
Для удобства разбили единую запись на несколько видео. Если есть вопросы к докладчикам - можно задавать прямо тут.

- В нашем чате в рамках обсуждения лицензирования открытого кода был сегодня хороший пост про то, почему корпорации вовсе не хотят украcть ваш открытый код.

Соглашусь с выводом, что при использовании чужих опенсорс-проектов "этически корректное решение теперь часто совпадает с экономически выгодным". Мы в своих открытых проектах тоже в основном используем BSD-3/MIT вместо GPL-лицензий, чтобы всячески упростить их потенциальное использование.

🔥13👍6

821 viewsNikolay Nikitin, edited 12:44

Научный опенсорс

Увидел, что опубликовали результаты грантовой программы Yandex Open Source 2025. Среди проектов-победителей:

- SQL‑линтер sqruff — Андрей Николаев;
- Расширение pg_index_stats для PostgreSQL — Андрей Лепихов;
- Отладчик BugStalker — Константин Деревцов;
- Эмулятор js‑dos — Александр Гурьянов;
- Календарь Vanilla Calendar Pro — Юрий Уваров;
- Библиотека WebMarkupMin для сжатия HTML, XHTML и XML — Андрей Тарицын;
- Инструмент kernel‑build‑containers для контейнеров — Александр Попов;
- Утилита i18n‑unused для локализации — Максим Вишневский;
- Открытая прошивка для паяльников IronOS - Иван Зорин;
- Библиотека Talker для логирования — Станислав Ильин;
- Фреймворк VLMHyperBench для оценки VLM‑моделей — Антон Ширяев;
- Инструмент Faster COCO Eval для ускорения валидации — Михаил Степанов.

Подробнее про суть решений - расписано на Хабре. А про один из проектов - VLMHyperBench, созданный студентами AI Talent Hub ИТМО - скоро можно будет послушать на нашей секции DataFest 2025. Скоро все напишем, следить за анонсами.

🔥7👍4

711 viewsNikolay Nikitin, edited 16:45

Научный опенсорс

Мы тут вместе с учебно-научной лабораторией ИТМО LISA организовали мини-семинар по разборке удачных и неудачных реализаций студенческих репозиториев. Заодно обсудим опыт улучшения некоторых из них с помощью нашего ИИ-инструмента OSA (про который недавно писали на Хабре).

С нашей стороны в роли эксперта участвует Андрей Гетманов - исследователь из NSS Lab, руководитель разработки OSA и активный участник соообщества ITMO OpenSource.

Если интересно послушать - подключиться можно тут в зуме, вот как раз начинаем.

🔥14👍1🏆1

1.26K viewsNikolay Nikitin, edited 14:06

Научный опенсорс

А тем временем, близится DataFest 2025, на котором мы традиционно проводим секцию OpenSource. В карточках - описание основных локаций и докладов.

Площадок несколько: 24 мая - в Москве (VK), 25 мая - в Белграде (Yandex), 29 мая - в СПб (Selectel), 1 июня - онлайн.

Кто хочет попасть на очные площадки - регистрируйтесь ASAP, место мало. Для остальных планируется трансляция, записи также выложат.

Запланировано много интересного - не пропускайте! Конечно, ближе к делу обо всем напомним.

🔥10👍3⚡2

1.66K viewsNikolay Nikitin, 11:01

Научный опенсорс

Меньше чем через час стартует DataFest 2025 на площадке VK - трансляция основного зала по ссылке.
Из нашей секции по open-source будет два доклада. Они в зале А1 без live-трансляции - но видео после мероприятия выложат, обязательно про это напишем и скинем ссылки.

А пока - про сами доклады и их авторов:

1) Антон Костин, Иван Литвак - преподаватели МФТИ
Как мы сделали свободный и открытый (GPLv3) бенчмарк в домене российского права
13:05, зал А1

Расскажем, зачем создавать опенсорсные датасеты для дообучения и проверки способностей моделей работать с правовыми вопросами (чтобы сделать опенсорс лучше). Ссылка на бенчмарк: https://huggingface.co/datasets/lawful-good-project/sud-resh-benchmark

2) Михаил Гущин - руководитель проекта по открытому коду ФКН НИУ ВШЭ
Открытый код в научных исследованиях
13:35, зал А1

На ФКН НИУ ВШЭ есть проект по открытому коду, где мы популяризируем открытый код научных исследований наших сотрудников и студентов. Мы рассказываем про них на нашем канале https://www.tgoop.com/hse_cs_opensource. Некоторые проекты широко используются исследователями в своих работах. Мы бы хотели рассказать про некоторые проекты сотрудников ФКН, о том зачем их выкладывать в открытый доступ и зачем это для науки.

Все докладчики - участники нашего чата, так кто вопросы можно задавать и прямо тут.

🔥6⚡1👍1

760 viewsNikolay Nikitin, edited 08:20

Научный опенсорс

Cегодня в секции OpenSource на DataFest 2025 - доклад в Белграде, в офисе Яндекса.

В 16-10 выступает Алексей Васильев, исполнительный директор по исследованию данных в Сбере:

OpenSource в Sber AI Lab. Библиотека для создания рекомендательных систем RePlay

Большинство фреймворков в области рекомендаций нацелены в первую очередь на исследователей и требуют модификации для использования в продакшене из-за невозможности работы с большими наборами данных или неподходящей архитектуры. Мы представляем нашу библиотеку с открытым исходным кодом RePlay — фреймворк, содержащий сквозной конвейер для построения рекомендательных систем, который готов к использованию в проде.

Кто регистрировался на площадку - приходите, для остальных - выложим видео и презентацию позже, в комментариях к этому посту.

👍6

742 viewsNikolay Nikitin, edited 09:06

Научный опенсорс

Сегодня - следующий день опенсорс-докладов DataFest, который пройдёт в СПб на площадке Selectel. Для тех кто удалённо - трансляция будет тут.

Сегодня в программе четыре доклада, начиная с 20-30 и до 22-30:

1. SVETlANNa = свет + artificial neural network: как физики делали Open Source и что из этого вышло
Владимир Игошин, ИТМО

Расскажем о том, что такое дифракционные нейросети, представим нашу открытую библиотеку для их моделирования и нашем опыте разработки.

2. Adept: Исследовательская и образовательная платформа с открытым кодом для тензорных вычислений, обучения и запуска моделей машинного обучения
Кирилл Колодяжный, YADRO

Хочу рассказать про исследовательский и образовательный проект Adept который я сейчас разрабатываю - это платформа для обучения нейронных сетей. Основная цель: создать базу для курса по построению ML-платформ, чтобы познакомить студентов со всеми компонентами от реализации библиотек линейной алгебры до Python-интерфейса с которым работают ML-инженеры. Также в планах реализовать конвейер обучения моделей на Vulkan и OpenCL, чтобы была альтернатива CUDA. Сейчас проект уже используется как база для студенческой практики.

3. Volga: движок для обработки real-time данных с фокусом на AI/ML системы
Андрей Новицкий, независимый разработчик

Построение систем искусственного интеллекта и машинного обучения (AI/ML), работающих в режиме реального времени - непростая инженерная задача, особенно в части обработки данных.
В этом докладе мы обсудим связанные с этим ключевые сложности (вычисление онлайн и оффлайн фичей, построение feature platform и т.д.), рассмотрим существующие open-source решения (Flink, Spark, Chronon) и проприетарные облачные платформы (Tecton-ai, Fennel-ai, Chalk-ai), а затем представим Volga — open-source движок обработки данных, призванный стать улучшенной альтернативой упомянутым системам. Github: https://github.com/volga-project/volga, блог: https://volgaai.substack.com/

4. Обучение на табличных данных в Postgres
Александр Календарёв, разработчик OpenSource

Доклад о плюсах и минусах внедрения библиотеки CatBoost в PostgreSQL. Так же в начале сделаю обзор существующих проектов машинного обучения в PostgreSQL и расскажу, чем они отличаются от моего решения. Расскажу какие есть идеи и что уже внедрено. Будет демонстрация на датасетах с kaggle.

До встречи!

🔥6❤1👍1

609 viewsNikolay Nikitin, edited 10:43

Научный опенсорс

Недавно писали про вебинар лаборатории LISA ИТМО, где мы применяли наш инструмент для улучшения репозиториев OSA к студенческим научным проектам.

И вот стала доступна запись (YouTube и ВК) и ссылки на обработанные репозитории - см. репост ниже.

Не везде доработка получилось идеальной, но в целом оказалось полезным. Вот, например, отзыв от автора одного из проектов - CGT4NN:

"OSA очень много полезного сделала в моём репозитории, что делать руками было бы долго и неприятно. Например, она создала workflows для автоматизации тестирования и сгенерировала docstrings для определений функций. Меня радует, что такая рутинная работа была сделана за меня."

🔥7👍1

573 viewsNikolay Nikitin, edited 12:27

Научный опенсорс

Forwarded from Lisa.itmo

1:43:04

Media is too big

VIEW IN TELEGRAM

👩‍💻 Результаты встречи LISA GitHub Review

21 мая прошла встреча и мы готовы поделиться результатами анализа репозиториев проектов в экосистеме LISA-ITMO

Материалы генерации проекта OSA по репозиториям LISA:
1. CGT4NN — базовая и с учетом тезиса
2. bot_vasily — базовая и с учетом тезиса
3. LLM-resume-moderator — базовая и с учетом тезиса
4. SchoolOCR — с учетом тезиса
5. teept-gui-assistant — базовая и с учетом тезиса
6. universal_eduplatform — базовая и с учетом тезиса

Благодарим приглашенных экспертов из NSS Lab: Николая Никитина и Андрея Гетманова! 🔥
Запись встречи с таймкодами на YouTube и ВК 👀

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7🔥1

281 viewsNikolay Nikitin, 12:27

Научный опенсорс

Некоторое время назад наш подписчик Валерий рассказал об очень любопытном опенсорсном инструменте для генерации постеров с помощью (v)LLM - https://github.com/Paper2Poster/Paper2Poster. Тут же заинтересовались - делать постеры обычно нужно быстро и адекватное начальное приближение в формате pptx было бы довольно полезно.

Попробовали прогнать нашу статью c NeurIPS 2024. Первая картинка - сгенерированный ИИ-инструментом постер, вторая - авторская версия, представленная на конференции.

Вывод: пока не оч. Всё-таки выглядит "скучно" и не особо информативно. При этом данный результат получился не с первого раза - если загружать полный текст статьи с appendix-ами, то получается совсем так себе, пришлось его вырезать.

Из плюсов - всё можно доработать вручную в поверпоинте. Но вот будет ли сильно быстрее ли чем делать вручную с нуля - не факт. Ну и радует что инструмент заработал и выдал обещанный результат - т.е. технически реализовано неплохо.

Так что пока это скорее добротный proof-of-concept, чем рабочий инструмент.

С другой стороны, каких только постеров на конференциях не встретишь, стена текста на куче мятых А4 - ещё не самое странное. Так что может через пару итераций доработки будет вполне полезный ассистент ученого-статьеписателя.

P.S. За эксперименты c генерацией постеров спасибо Ярославу @staeros.

🔥13

554 viewsNikolay Nikitin, 09:08

2025/07/12 22:47:39
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>