Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
197 - Telegram Web
Telegram Web
Вчера стартовал весенний поток курса «Машинное обучение в биологии и биомедицине». Впереди — 3,5 месяца увлекательных исследований и открытий.

Мы уверены, что каждый, кто принял решение присоединиться к этому захватывающему путешествию, получит ценные знания, освоит актуальные навыки и откроет для себя новые горизонты. ☺️

🎁 А те, кто еще не решился присоединиться к курсу, смогут пройти первую неделю курса бесплатно!

Расскажите нам о своей мотивации к обучению на курсе в этом посте, и мы бесплатно предоставим вам доступ к первой неделе обучения.

Окончание пробной недели фиксировано, доступ будет закрыт 4го марта (независимо от даты открытия). Так что рекомендуем не откладывать, чтобы у вас было больше времени на ознакомление с курсом ;)


Преподаватели курса подготовили слова мотивации для нового потока обучающихся, которыми мы с радостью делимся с вами сегодня:

🔹 Илья Воронцов:

«Биоинформатики могут не бояться, что их заменит машинное обучение и прочий искусственный интеллект.

Но тех из них, кто с ML не знаком, будут активно теснить специалисты, которые умеют его применять.

Выбирайте правильную сторону ;) »

🔹 Артем Касьянов:

«Сегодня без использования ИИ-систем не обходится, наверно, ни одна профессиональная сфера. Эти инструменты можно использовать без знания их внутреннего устройства, но гораздо полезнее (и интереснее!) применять их, зная, как все работает изнутри.

На нашем курсе мы глубоко изучим особенности работы алгоритмов для обработки биомедицинских данных – тяжелых в сборе и очень специфичных. Будете ли вы в дальнейшем работать в наукоемких областях или займетесь чем-то более традиционным — умея работать с такими данными, вы точно сможете себя чувствовать в своей тарелке, даже если в будущем уйдете из биомедицины.

Наша программа научит вас работать с неидеальными данными в неидеальных условиях. И покажет, что даже в таких условиях машинное обучение оказывается полезным.»

🔹 Александр Сарачаков:

«Друзья, поздравляем всех, кто уже погрузился в мир машинного обучения для биологии и медицины — вас ждет увлекательное путешествие и масса новых открытий! Если вы еще сомневаетесь, стоит ли начинать, помните: каждый большой успех начинается с первого шага. Машинное обучение — это ключ к будущему, который открывает двери к прорывным решениям и карьерным возможностям.

Не упустите шанс вырасти вместе с нами и превратить любопытство в реальные навыки — мы всегда ждем вас в новом потоке!»

#openbio_education

📩📥📤

📌 Машинное обучение в биологии и биомедицине | OpenBio.Edu — подписывайтесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🤓3😍2
🔬 От многообразия методов машинного обучения для научных задач могут разбегаться глаза. На какие вопросы помогают ответить те или иные методы ML? Как выбрать правильный метод для вашего исследования? Сколько методов вообще позволительно применять в работе? 🤔

Сегодня рассмотрим пример научной работы (в открытом доступе — советуем ознакомиться с методами!) в области онкологии, в которой использовали несколько методов ML для создания прогностической модели для пациентов со светлоклеточным раком почки (ccRCC).

➡️ Разбор живых примеров — важный компонент обучения. На курсе «Машинное обучение в биологии и медицине» мы разбираем примеры реальных исследований на биомедицинских данных, чтобы вы были готовы смело применить новые навыки в своей работе! ☺️

🎁 А прямо сейчас вы можете получить «живой пример» самого курса! До 4го марта включительно напишите в комментариях к посту, почему вы хотите пройти курс и чем он будет вам полезен, и мы откроем вам бесплатный пробный доступ к первой неделе курса.


💉 ccRCC — гетерогенная опухоль с разнородным иммунным микроокружением, которое влияет на эффективность терапии ингибиторами иммунных контрольных точек (ICI). Чтобы научиться точнее прогнозировать ответ на терапию, авторы разработали пространственно-ориентированную модель глубокого обучения для анализа пространственные взаимодействий опухолевых и иммунных клеток на гистологическом срезе. Основной интерес представляла структурная гетерогенность опухолей и ее связь с иммунной инфильтрацией и ответом на лечение.

Основные выводы:
🔷 Обнаруженная микрогетерогенность опухолей связана с потерей функции гена PBRM1 и разными иммунными состояниями, в частности — повышенной активностью PD-1 в CD8+ лимфоцитах.
🔷 Микрогетерогенность ассоциировалась с худшим прогнозом выживания и большей агрессивностью опухоли.

Рассмотрим, из каких шагов состояло исследование:

1️⃣ Сбор и обработка данных. Были использованы 1 102 гистологических изображения ccRCC из открытых баз данных (TCGA-KIRC, CM-025, DFCI-PROFILE). Данные нормализованы, проведена предварительная фильтрация качества.

2️⃣ Исследователи построили две модели компьютерного зрения: ResNet-50 классифицировала области опухоли на гистологическом срезе, а HoVerNet идентифицировала отдельные инфильтрирующие опухоль лимфоциты (TILs).

3️⃣ Данные объединены в графовые представления для выявления пространственных паттернов гетерогенности.

Кластеризация помогла выявить два типа микрогетерогенности опухоли:

Пространственная: разные клеточные типы соседствуют и смешиваются;
Раздельная: разные клеточные типы объединены в кластеры, но разделены между собой стромой.

4️⃣ Интеграция мультиомиксных данных выявила корреляцию микрогетерогенности опухоли с наличием мутаций в генах PBRM1, SETD2.

5️⃣ Методы классического ML использовали для прогнозирования реакции на терапию. Многофакторная Кокс-регрессия показала, что пациенты с высокой микрогетерогенностью опухоли лучше отвечают на ICI.

6️⃣ Для пространственного моделирования опухоле-иммунных взаимодействий построили графовые модели, показавшие, что у пациентов с высокой микрогетерогенностью CD8+ клетки более активны и находятся в непосредственном контакте с опухолевыми клетками.

Таким образом, сразу несколько методов машинного обучения были задействованы для решения проблемы прогнозирования:
Компьютерное зрение позволило выявить новые структуры на гистологических изображениях.
Кластеризация помогает выявить скрытые закономерности в опухолевой структуре.
Классические ML-методы (например, регрессия) предсказывают клинические исходы.
Нейросети выявляют пространственные взаимоотношения опухолевых и иммунных клеток.

🧬 Эти методы, которые вы также сможете изучить на курсе, позволяют решать реальные медицинские задачи. Освойте востребованные навыки, чтобы внести свой вклад в развитие новых подходов к терапии и диагностике болезней.

#openbio_ml

📌 Машинное обучение в биологии и биомедицине | OpenBio.Edu — подписывайтесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
На наших вебинарах в рамках цикла «Личный путь в сеньора биоинформатика» эксперты были единодушны: хороший специалист по машинному обучению в биомедицине должен разбираться как в предметной области — понимать биологические особенности системы, с которой работает, — так и в глубинном устройстве алгоритмов, которые применяет.

Однако биоинформатика — это очень обширная и многогранная область. Во-первых, легко потеряться в разнообразии направлений внутри неё. Во-вторых, абсолютно всю биологию и все алгоритмы невозможно выучить даже за десятилетия.

Как найти себя в биоинформатике и лучше понять, какие навыки пригодятся для решения разных типов задач?

🔺Разобраться в разных подходах нам помогла Ольга Кардымон, ведущий биоинформатик института AIRI — некоммерческой научной организации, занимающейся разработкой ИИ-решений для медицинских задач.

Научить вас разбираться в особенностях алгоритмов и объектов — главная задача курса «Машинное обучение в биологии и биомедицине»! Подключайтесь, если готовы заложить основы для успешной работы в ML вместе с OpenBio.

🎁 Напоминаем, что еще два дня можно бесплатно получить пробный доступ к курсу!

До 4го марта включительно напишите в комментариях о том, почему вам интересен наш курс и как он пригодится в вашей работе — и мы свяжемся с вами, чтобы открыть доступ! Никогда не поздно присоединиться, ведь даже короткое знакомство с курсом полезнее, чем вообще никакого 😉


🔺 Основные виды работы в биоинформатике — широкими мазками:

1️⃣ «Рутинная» биоинформатика

«В индустрии есть организации, которые нанимают биоинформатиков на какой-то конкретный этап работы. Например, в работе с клиническими NGS-данными есть биоинформатики, которые занимаются исключительно выравниванием на геном, или только детекцией вариантов, есть биоинформатики, которые только анализируют качество секвенирования.
Я знаю множество биоинформатиков, которые специализируются на конкретных задачах и могут заниматься ими всю жизнь. Для такой работы не нужна сильная математика, но такие специалисты отлично знают свои инструменты и как их качественно применять к разным задачам.»

2️⃣ Разработка биоинформатических инструментов

«Если хочется создавать инструменты, то точно надо усилить математику и подтянуть навыки в программировании, а также иметь терпение, чтобы изучать новинки области не только с точки зрения биологии, но и с точки зрения математики и Data Science.»

3️⃣ Анализ научных данных

«Если вы хотите интерпретировать данные, важны усидчивость и понимание молекулярно-биологических процессов. Здесь основные навыки — это владение английским языком, колоссальное желание развиваться в области биоинформатики и усидчивость, особенно на этапе обучения — для изучения разных программ и молекулярной биологии и тестирования различных инструментов под вашу задачу. Это нужно, чтобы ты понимал, для чего ты это делаешь, как это работает.»

4️⃣ Интерпретация клинических данных — особенности

«Необходимо понимание молекулярно-биологических процессов, взаимодействие с врачом, а также эмпатия к пациенту. Я видела истории, когда интерпретатор генетических вариантов не очень понимает, насколько важно семье получить результат в срок, и не просто получить, а быть в нем уверенным на 100% — либо что генетического варианта нет, либо что он есть и имеет определённый класс патогенности. Такие данные нужно отдавать ответственно и понимая, что за твоим результатом стоит конкретная семья, конкретный врач и конкретные медицинские решения.»

➡️ Биоинформатика с применением машинного обучения открывает множество возможностей для самореализации в значимых и захватывающих областях. Пробуйте новое, исследуйте и экспериментируйте — и вы обязательно найдёте сферу, которая вас увлечет и позволит раскрыть ваш потенциал.

А мы позаботимся о том, чтобы у вас были крепкие «харды» на старте! :)

#openbio_ml #openbio_webinar #openbio_interview #openbio_expert

📌 Машинное обучение в биологии и биомедицине | OpenBio.Edu — подписывайтесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
🔭 Всем привет! Мы немного отдохнули после запуска курса, а теперь восстанавливаем активность и продолжаем делиться с вами новостями из мира ML в биологии и биомедицины ☺️

Сегодня подобрали небольшой дайджест событий в сфере биотеха и IT, на которых можно получить полезные знания, познакомиться со специалистами из академии и индустрии и прокачать свои навыки в ML.

1️⃣ 19 марта | Семинар по МЛ в геномике: «Как функциональная геномика может помочь при исследовании эволюции?»

Уже завтра пройдет семинар для тех, кто хочет глубже разобраться в применении машинного обучения в биоинформатике и понять, как его используют в современной генетике. Это возможность дополнительно встретиться со спикером курса «Машинное обучение в биологии и биомедицине» Артёмом Касьяновым! Он расскажет, как современные омиксные технологии — RNA-seq, ChIP-seq, Hi-C — помогают исследовать эволюционные процессы, а также представит подходы, позволяющие анализировать экспрессию генов и выявлять события положительного отбора в популяциях.

2️⃣ 4–24 апреля | Дни компьютерных наук ФКН НИУ ВШЭ

Фестиваль объединяет студентов, преподавателей, исследователей и всех, кто интересуется IT. В программе — лекции, дискуссии, квизы и кинопоказы. Для тех, кто только начинает изучать машинное обучение, особенно полезными будут тренинги по ML и прикладному программированию. Это хорошая возможность не только освоить новые технологии, но и пообщаться с экспертами и представителями IT-компаний.

3️⃣ 16–17 мая | ML-конференция: от обучения до эксплуатации моделей (IML Conf)

Конференция ориентирована на практическое применение машинного обучения в самых разных сферах, включая медицину и биотех. В программе — доклады и мастер-классы по NLP, Computer Vision, Big Data, MLOps и другим ключевым темам. Участники смогут узнать, как организуется полный цикл работы с ML-моделями: от обучения до внедрения в реальный продукт. Для тех, кто только начинает разбираться в этой области, это возможность услышать реальные кейсы и познакомиться с профессиональным сообществом.

4️⃣ 21–23 мая | Саммит разработчиков лекарственных препаратов «Сириус.Биотех»

Саммит посвящен ключевым технологическим платформам разработки лекарств и последним трендам в биофармацевтике. Ведущие эксперты отрасли расскажут о современных подходах к созданию и производству препаратов, а также о возможностях карьерного роста в этой области. Для студентов и молодых ученых это не только шанс получить актуальные знания, но и возможность наладить контакты с потенциальными работодателями и партнерами.

⤵️Прошедшее, но полезное⤵️

5️⃣ IX Всероссийская конференция по ИИ в здравоохранении («ИТМ ИИ»)

Конференция собрала специалистов, работающих с искусственным интеллектом в медицине. В докладах обсуждались реальные кейсы внедрения ML-моделей в клиническую практику в РФ, а также вопросы регулирования и оценки качества ИИ-систем.

Записи докладов с конференции можно найти в свободном доступе во Вконтакте или на сайте ИТМ (нужна регистрация) — если вам любопытно, как именно новые технологии используются для анализа медицинских данных в настоящей врачебной практике, это отличная возможность погрузиться в тему.

#openbio_news

📌 Машинное обучение в биологии и биомедицине | OpenBio.Edu — подписывайтесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍62
Сегодня отмечается Всемирный день воды — событие, привлекающее внимание к проблемам экологии океанов и ледников. Современные технологии сбора данных, включая спутниковые наблюдения, акустические системы и генетический анализ, генерируют огромные массивы информации. Для их обработки используются машинное обучение и искусственный интеллект, которые стали важными инструментами в морской экологии.

➡️ Сегодня рассмотрим, как методы ML помогают анализировать информацию о физических процессах и биоразнообразии мирового океана.

🌊 Применение машинного обучения в морской экологии

🔷 Обработка изображений и видео с помощью сверточных нейросетей (CNNs) позволяет автоматически идентифицировать морские организмы, картировать донные экосистемы и обнаруживать пластиковый мусор. При этом сложность анализа данных возрастает из-за большого разнообразия объектов: для планктона важна точность детекции среди водной толщи, а для анализа бентоса — способность выделять организмы на сложном фоне морского дна.

🔷 Машинное обучение также автоматизирует анализ акустических данных. Поскольку звук проникает сквозь воду лучше, чем свет, он широко используется для подводных измерений. В глубоких нейросетях акустические сигналы часто преобразуются в спектрограммы и анализируются так же, как изображения.

🔷 В области экологической геномики ИИ помогает анализировать данные о ДНК, извлекаемой из морской воды, что позволяет отслеживать состав микробных сообществ. Генетическая информация охватывает целые экосистемы, а современные алгоритмы выявляют таксономические группы и сопоставляют их с географическим расположением, что открывает новые возможности для мониторинга биоразнообразия.

🔷 Спутниковые данные и эхосигналы, обработанные ML-моделями, используются для составления карт биогеографических зон, оценки состояния коралловых рифов и анализа донных осадков.

🔷 В рыболовстве машинное обучение помогает отслеживать популяции рыб и предсказывать их миграцию, сочетая экологические и экономические факторы в предсказательных моделях. Это важно и для отслеживания популяций рыб в природе, и для организации эффективного, но безопасного для экосистемы промышленного рыболовства.

🧊 Задачи гляциологии (науки о ледниках)

🔷 Картирование ледников сталкивается с трудностями из-за изменяющихся климатических условий и различий в данных, полученных с разных спутников. Однако ML-модели, комбинирующие многолетние разнородные данные, позволяют более точно анализировать эволюцию ледников.

🔷 Дифференциация льда и снега, а также моделирование динамики льдов пока находятся на ранней стадии развития в ИИ-исследованиях, но уже сейчас разработанные алгоритмы демонстрируют высокую точность.
Например, ученые Университета Лозанны создали модель глубокого обучения, которая позволила предсказывать толщину ледников с разрешением 300 метров, что в несколько раз превосходит точность предыдущих методов.

Машинное обучение радикально меняет морскую науку, позволяя анализировать огромные массивы данных. К сожалению, чем больше мы узнаем с помощью новых технологий, тем более тревожной становится картина. Анализ с использованием ИИ показывает, что состояние ледников и океанов ухудшается быстрее, чем предполагалось ранее. Человеческая деятельность ускоряет процессы, ранее считавшиеся стабильными. Новые инструменты не только дают нам беспрецедентные возможности оценить масштаб разрушений, но и требуют от нас решительных действий.

#openbio_ml #openbio_science

📌 Машинное обучение в биологии и биомедицине | OpenBio.Edu — подписывайтесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
5🐳3👍1
Методы ML.pdf
568 KB
Всем приятной и продуктивной пятницы! ↗️

Чтобы немного переключиться после насыщенной рабочей недели и одновременно занять ум чем-то полезным, предлагаем вам освежить знания о сфере машинного обучения. Мы подготовили наглядную схему, где собраны самые популярные методы, применяемые в биомедицинских исследованиях.
Схема может быть полезна и как шпаргалка, и как точка старта, если хочется углубиться в тему.

Сколько из них вы уже пробовали на практике? А если МЛ пока не ваш основной инструмент — какие из подходов зацепили или вдохновили?

#openbio_ml

📌 Машинное обучение в биологии и биомедицине | OpenBio.Edu — подписывайтесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
12🔥3
Актуальная подборка вакансий в области биологии и биомедицины с компетенциями в ML:

🦠Биоинформатик (онкология) 
ФГБУ ЦСП ФМБА России в поисках биоинформатиков с опытом в биомедицинских проектах для анализа NGS-данных (геном, транскриптом, метилом) и разработки пайплайнов. Большим преимуществом будет знание ML, системной биологии и наличия дополнительного образования в онкологии/генетике. 

📊 Биостатистик (лаборатория разработки новых методов молекулярной диагностики заболеваний человека)
Центр постгеномных технологий ищет разработчика (биоинформатика/статистика) для анализа ДНК, обработки данных и написания статей с использованием методов ML.

🧬ML/DL Researcher для дизайна белков
Ищут мотивированного специалиста для разработки и применения алгоритмов (AlphaFold, Diffusion-модели и др.), интеграции биоданных, валидации in silico, с уверенным знание ML/DL (генеративные модели, GNN), с опытом работы с белковыми структурами (PDB, Biopython), Python/PyTorch/TensorFlow.

👨💻Руководитель разработки (Tech Lead)
Компания нуждается в руководителе, который будет вести команду разработчиков, проектировать архитектуру (SQL/NoSQL, AI-системы, компьютерное зрение), создавать аналитические сервисы для генетических данных, заниматься код-ревью и менторством.


#openbio_вакансии
👍11🔥32
📰 Возвращаемся с новостями!

Уже заканчивается второй поток курса «Машинное обучение в биологии и биомедицине», а мы готовим для вас насыщенное лето:
🔻 прямые эфиры с новыми "сеньорами" биоинформатиками
🔻 свежие тренды в биотехе и сфере AI
🔻 азы Python и ML для новичков и разборы ключевых терминов
🔻 раскрытие сложных тем в рубрике "вопрос-ответ" от наших экспертов
🔻 подборки вакансий и карьерные советы

Ну что, поехали! 🚀

#openbio_ml #openbio_education #биотех #машинноеобучение
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍32🔥2
Python для биомеда: словари и циклы — ключ к анализу данных

Продолжаем нашу рубрику «азы программирования» с разбором словарей и циклов — core skill инструментов для работы с биомедицинской информацией.

📌 Словари: биоинформатика в виде пар «ключ–значение»

Словарь — это структура данных, где каждому ключу соответствует значение. Это особенно удобно, когда данные не упорядочены, но имеют ярко выраженные идентификаторы.

Словарь с экспрессией генов:
gene_expression = {
'TP53': 3.4,
'BRCA1': 1.8,
'EGFR': 2.7
}

Здесь ключи — названия генов, а значения — их уровень экспрессии (например, log2(TPM+1)).

Когда это полезно?
Быстрый доступ к данным по уникальному идентификатору — например, по имени гена.
Работа с JSON-структурами (часто встречаются в аннотациях генов, результатах API).
Представление биомедицинских таблиц, где строки становятся словарями (например, записи пациента или профили экспрессии).

📌 Циклы: автоматизация анализа

Циклы позволяют выполнять повторяющиеся действия. Это основа для парсинга данных, агрегации результатов, фильтрации по условиям и т.д.

Выводим список интересующих генов:
genes = ['TP53', 'BRCA1', 'EGFR']
for gene in genes:
print(f"Ген: {gene}")


Можно не просто выводить, а сравнивать с контрольными значениями, фильтровать и обрабатывать:
threshold = 2.0
for gene, expr in gene_expression.items():
if expr > threshold:
print(f"{gene} сверхэкспрессирован: {expr}")


📌 Комбинируем словари и циклы: практические примеры

🔸 Пример 1: Анализ мутаций по пациентам
mutations = {
'patient_001': ['TP53', 'EGFR'],
'patient_002': ['BRCA1'],
'patient_003': []
}

for patient_id, mutated_genes in mutations.items():
print(f"{patient_id}: найдено {len(mutated_genes)} мутаций")


🔸 Пример 2: Сравнение экспрессии в норме и опухоли
normal_expr = {'TP53': 1.2, 'BRCA1': 2.1, 'EGFR': 1.9}
tumor_expr = {'TP53': 3.4, 'BRCA1': 1.8, 'EGFR': 2.7}

for gene in normal_expr:
change = tumor_expr[gene] - normal_expr[gene]
print(f"{gene}: изменение экспрессии = {change:+.2f}")


🔸 Пример 3: Агрегация статистики по опухолевым типам
tumor_samples = {
'glioblastoma': ['TP53', 'IDH1', 'EGFR'],
'breast_cancer': ['BRCA1', 'BRCA2', 'TP53'],
'lung_cancer': ['EGFR', 'KRAS']
}

gene_counts = {}
for cancer_type, genes in tumor_samples.items():
for gene in genes:
gene_counts[gene] = gene_counts.get(gene, 0) + 1

print("Гены, встречающиеся чаще всего:")
for gene, count in gene_counts.items():
if count > 1:
print(f"{gene}: {count} типов опухолей")


🔻 Почему владение словарями и циклами критично?

Конструкции for, dict, items, range, enumerate входят в топ-10 самых часто используемых в Python-коде.
Циклы и словари встречаются в более чем 90% Jupyter-ноутбуков, связанных с анализом биомедицинских данных (источники: Kaggle, OpenML, BioPython).
Любая современная библиотека (Pandas, PyTorch, BioPython, Scikit-learn) использует их под капотом или требует при работе с API.

✔️ Посмотреть, как используются словари и циклы в реальных проектах, можно тут и тут.

Попробуйте и вы!

#openbio_python #openbio_ml #openbio_education
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥136👍6🤓1
📰 Исследователи из Массачусетского технологического института и IBM Watson AI Lab представили Llamole — мультимодальную языковую модель (LLM + molecule), которая по простому описанию не только предлагает молекулу с нужными свойствами, но и сразу объясняет, как её синтезировать.

Принцип работы Llamole:
Извлекает ключевые молекулярные параметры (массу, активность, токсичность) из текстового запроса.
Использует графовые модули: один — генерирует структуру молекулы, второй — строит путь её синтеза.
Возвращает не только описание, но и полную ретросинтетическую схему: реакции, реагенты, последовательность шагов.

Система обучена на собственных наборах данных, созданных специально для проекта: они включают сотни тысяч патентованных молекул и сгенерированные AI-описания к ним.

🧫 Авторы статьи сообщают, что успешность ретросинтеза выросла с 5% до 35% благодаря объединению текстовых данных и графовых моделей. В основе планирования — алгоритм поиска, который быстро находит оптимальные пути синтеза.

При этом, в отличие от 14 других моделей, включая очень крупные с 70 миллиардами параметров, Llamole остаётся компактной: «всего» 7 миллиардов параметров, но именно на их основе достигаются лучшие результаты по 12 ключевым метрикам.

🟢 Создатели планируют расширить Llamole: выйти за рамки 10 текущих свойств и применить мультимодальную архитектуру в других задачах — от энергетики до финансов.

🔸 Попробовать скачать себе модельку и поиграться можно тут.

📌 Эксперты OpenBio уже рассказывали, почему сочетание обработки разных типов данных меняет правила игры. Загляните в наш пост с карточками от N+1, где Александр Сарачаков и другие спикеры курса делятся трендами ML в биологии.


✔️ Статья: Multimodal Large Language Models for Inverse Molecular Design with Retrosynthetic Planning

#openbio_news #биотех #наука #openbio_ai
Please open Telegram to view this post
VIEW IN TELEGRAM
15🔥6👍3🤔3
Сегодня в центре внимания — цикл While! 🔁

Это один из самых простых и мощных инструментов для автоматизации повторяющихся задач. Он позволяет выполнять блок кода многократно, пока выполняется определённое условие.

📌 Если вы уже освоили базовую работу с библиотеками NumPy и pandas, научились читать и обрабатывать датасеты, группировать, и визуализировать векторные операции — самое время перейти к управлению потоком выполнения кода. Цикл while — фундаментальная конструкция, которая пригодится в любом проекте.

Например:
ридов_прочитано = 0 # Количество прочитанных фрагментов ДНК
цель_ридов = 1000 # Требуемое количество

while ридов_прочитано < цель_ридов:
print(f"Прочитано {ридов_прочитано} ридов. Ещё собираем...")
ридов_прочитано += 100 # Имитация чтения 100 ридов за шаг


Здесь while проверяет условие ридов прочитано < цель_ридов. Пока оно истинно, выполняется print(count) и увеличивается значение переменной ридов прочитано. Когда ридов прочитано достигнет 1000 или больше — цикл завершится.

📌 Структура цикла while в Python:
while условие:
Тело цикла

Условие — логическое выражение, которое проверяется перед каждой итерацией.
Двоеточие (:) сообщает Python, что далее — блок команд.
Тело цикла — команды с отступом, которые выполняются, пока условие истинно.

While — это цикл с предусловием: сначала проверяется условие, и только если оно истинно — выполняется тело цикла.

📌 Сравнение с оператором if и логические операции

Цикл while напоминает условный оператор if, но с повторением:
if выполняет код один раз, если условие истинно.
while выполняет код многократно, пока условие остаётся истинным.

Оба могут использовать логические операторы and, or, not:
белок_свернут = 0 # Уровень правильной свёртки белка (0-10)
токсичность = True # Моделируем, что белок токсичен на старте

while белок_свернут < 8 and токсичность:
print(f"Свёртка: {белок_свернут}. Белок пока токсичен.")
белок_свернут += 1 # Улучшаем свёртку
if белок_свернут >= 5:
токсичность = False # Допустим, после 5 уровня свёртки токсичность исчезает


Этот цикл будет продолжаться, пока уровень свёртки меньше 8 и белок остаётся токсичным. Когда белок_свернут станет 5, токсичность переключится в False и цикл завершится, даже если свёртка не достигла 8.

📌 Бесконечные циклы

Цикл while может стать бесконечным, если условие всегда истинно:
while True:
print("Ищем идеальную последовательность...")
# Здесь могла бы быть сложная функция анализа


Чтобы остановить такой цикл, используют break:
консенсус_найден = False # Флаг нахождения консенсуса

while True:
показатель_качества = float(input("Введите показатель качества сборки (0.0-1.0): "))
if показатель_качества > 0.95:
print("Отлично! Сборка соответствует стандарту:", показатель_качества)
break # Выходим из цикла, т.к. цель достигнута
else:
print("Качество сборки недостаточно. Попробуйте ещё раз.")

Этот код будет спрашивать показатель качества, пока пользователь не введёт корректное значение выше 0.95.

Всегда следите за условиями цикла и используйте break осознанно, бесконечные циклы могут «повесить» программу.

Цикл while — универсальный инструмент, которым пользуется почти каждый биоинформатик, особенно при парсинге данных, автоматизации рутинных задач и построении пайплайнов. Он позволяет создавать гибкие конструкции и управлять выполнением кода с максимальной точностью.

↗️ Освоив базовые принципы, вы сможете перейти к более сложным паттернам: вложенным циклам, контролю итераций через continue и else, созданию симуляций и генераторов.

🔭 While обязательно пригодится в ваших проектах — от простых до исследовательских. Главное — начать, практиковать и не бояться экспериментов.

#openbio_python #openbio_ml #openbio_education
Please open Telegram to view this post
VIEW IN TELEGRAM
7😍4👍2🔥1🤓1👨‍💻1
Открываем третий сезон цикла лекций «Личный путь в сеньора биоинформатика» встречей с Никитой Ваулиным.

🔬 Никита - биоинформатик и преподаватель программирования для биологов в ВШЭ и Институте биоинформатики, сейчас PhD-студент в группе Игоря Адамейко в Вене, где изучает механизмы принятия клеточных решений (cell fate decisions). Закончил биофизику в питерском Политехе и магистратуру Сколтеха. Фанат Hi-C и 3D-геномики в целом. Мы пригласили Никиту рассказать, как ему дается обучение в Вене и о чем там мечтают биоинформатики.

Начало эфира 25 июня в 19:00 по Мск.

Трансляции проходят в рамках курса «Машинное обучение в биологии и биомедицине» от OpenBio.

До старта программы еще далеко, но уже можно записаться по минимальной цене ↗️


На встрече мы обсудим детали карьерного трека Никиты, лайфхаки поступления на PhD, тренды отрасли и образования в области биоинформатики и многое другое.

✔️ Зарегистрируйтесь, чтобы не пропустить напоминание о прямой трансляции и получить запись встречи.
Задавайте вопросы спикеру в комментариях к этому посту, чтобы мы могли их озвучить.

Увидимся на эфире!

#openbio_career #openbio_webinar #openbio_interview

📌 Машинное обучение в биологии и биомедицине | OpenBio.Edu — подписывайтесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
510👍3👏1
Второй поток курса "Машинное обучение в биологии и биомедине" успешно завершил основную программу и сейчас работает над итоговым соревнованием.

А мы с радостью объявляем набор на осеннюю программу, которая стартует 1️⃣ октября! 🎉

Каждый запуск мы стремимся улучшить эффективность обучения. Главный плюс нашей программы — внушительный ассортимент методов и фокус на двух востребованных направлениях: ML в анализе омиксных данных и Computer Vision в биомедицине.

Курс подойдет:
🔺Биологам, биоинженерам, врачам и специалистам по данным
🔺Научным сотрудникам, аналитикам R&D, руководителям лабораторий
🔺Python-разработчикам, интересующихся задачами биоинформатики и медицины
🔺Студентам старших курсов, планирующих развитие в прикладном ML


Важно базовое владение python, хотя бы библиотеками pandas и numpy — это минимум. Невнезапный факт — чем лучше вы владеете питоном, тем легче вам на курсе.

Что вы получите за 4,5 месяца?
✔️Системное понимание ML в контексте биомедицинских данных
✔️6 практических кейсов для вашего портфолио
✔️Готовые протоколы обработки и реальные датасеты
✔️Уверенность в применении классических методов ML плюс опыт работы с нейросетями с углублением в Computer Vision

Формат обучения и поддержка:
Обучение проходит в гибком формате: смотрите видеолекции, когда удобно, участвуйте в прямых эфирах с преподавателями, а в чатах всегда можно задать вопрос кураторам и наставникам.
Поддержка не заканчивается с курсом — материалы и доступ к сообществу останутся с вами на целый год! 🤝

Наша фишка:
Групповая работа — она поможет вам держать динамику на протяжении всей учебы и подарит отличную компанию для встреч не только на курсе! 🤩


➡️ Узнать подробности и подать заявку на участие по стартовой цене можно по ссылке.

#openbio_ml #openbio_education #машинноеобучение #машинноеобучение #биотех #datascience #биоинформатика

📌 Машинное обучение в биологии и биомедицине | OpenBio.Edu — подписывайтесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
4😍3👍2
Всегда ли шум имеет гауссовское распределение?

Центральная предельная теорема говорит, что если вы суммируете много одинаково распределенных (причем по любому закону) величин, то получаете нормальное распределение. Например, в физической реальности на объект действует много случайных сил (скажем, от броуновского движения молекул и частиц). Их равнодействующая — это как раз такая сумма, поэтому распределена нормально.

Но это не всегда так. В биомедицине встречаются распределения с тяжелыми хвостами, например, распределения Леви или Парето, характерные для редких событий (экстремальных значений).

Почему важно правильно учитывать экстремальные значения? 

Часто это ключевые сигналы в медицине: высокий уровень онкомаркеров → опухоль, повышенный тропонин → инфаркт, аномальные электрокардиограммы → тяжелые нарушения ритма.

Если предположить нормальность ошибок, такие показатели могут восприниматься как выбросы или ошибки измерений, а важные случаи — пропущены.

В биологических системах шум поступает из разных источников: молекулярные флуктуации, технические ошибки измерений, внешние воздействия окружающей среды и многое другое. Каждый источник имеет свою природу и характер распределения ошибок. Например, молекулярный шум часто моделируют как дискретный процесс с определенной вероятностью возникновения события (например, биномиальное или Пуассона), а технический шум — как гауссовский из-за случайных флуктуаций в электронике.

Что делать на практике?

🔷Постройте гистограмму ошибок или остатков. Посмотрите на форму: симметрична? Есть ли тяжелые хвосты? Выбросы?
🔷Проверьте через статистические тесты на нормальность - Шапиро-Уилка, Колмогорова-Смирнова, Андерсона-Дарлинга
🔷Проверьте наличие тяжелых хвостов — экстремальных значений, которые реже встречаются, чем по нормальному закону. Для этого помогут графики квантиль-квантиль (Q-Q plot).
🔷При подозрении на тяжелые хвосты — попробуйте модели с распределениями Леви, Парето, Стьюдента; для выбора оптимальной модели рассмотрите критерии выбора (AIC/BIC).

Предположение о нормальности — лишь приближение, а не догма. Ключ к точной интерпретации данных — понимание природы шума.

Сталкивались ли вы с "тяжелыми хвостами" в ваших биологических данных? Как решали эту проблему? Делитесь своим опытом в комментариях!

В следующий раз поговорим о том, как сделать надежные выводы и избежать переобучения, если данных мало.

#openbio_education

📌 Машинное обучение в биологии и биомедицине | OpenBio.Edu — подписывайтесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
134👍3
📰 Открыта регистрация на OpenBio 2025!

Мы приглашаем всех, кто интересуется актуальными направлениями биоинформатики, биотехнологий и биомедицины, стать участником мероприятия 2025 года (с 23 по 26 сентября)!

Если вы студент, молодой ученый, исследователь или практикующий специалист до 35 лет, готовый поделиться своим опытом и новыми идеями, эта конференция для вас!

Вы сможете представить свои исследования в одной из шести актуальных секций:

🦠 Вирусология

🧪 Биоинформатика

💉 Фундаментальная медицина

🔬 Биотехнология

🧫 Биофизика

🧬 Молекулярная биология

Подробное описание каждой секции вы найдёте ЗДЕСЬ.

Формы участия:
Очное выступление
Онлайн-выступление
Заочное участие

🔺Участие в OpenBioэто шанс заявить о себе в научном сообществе, расширить контакты и получить поддержку ведущих экспертов.

Отобранные тезисы будут опубликованы в сборнике конференции, размещены в научной электронной библиотеке eLIBRARY с индексацией в РИНЦ и присвоением DOI каждому тезису, допущенному до публикации в сборнике.


Хотите быть в центре научных открытий? Подать тезисы для участия в конференции можно до 1 августа 2025 года.

➡️ ПОДАТЬ ТЕЗИСЫ ТУТ
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51😍1
2025/07/14 06:09:38
Back to Top
HTML Embed Code: