кросс-валидация
и бутстрэппинг
, которые помогают лучше использовать доступную информацию и честно оценивать модель.Кросс-валидация
Кросс-валидация
— это метод оценки качества модели, при котором данные делят на несколько частей (фолдов); модель обучают на большинстве частей и тестируют на оставшейся. Этот процесс повторяют так, чтобы каждая часть использовалась в роли тестовой хотя бы один раз. Например, при k
-fold данные разбиваются на k
равных частей, модель обучается на k
-1 частей, на оставшейся части тестируется, и процедура повторяется k
раз.Этот метод использует все данные для обучения и оценки поэтапно, что позволяет эффективно использовать каждый образец, повышая тем самым объективность, что особенно полезно при малых выборках, а также облегчает сравнение моделей и настройку гиперпараметров. Однако он чувствителен к особенностям разбиения и при очень малых объемах (
k
<5) может давать менее надежные результаты.Бутстрэппинг
Бутстрэппинг
— это метод случайной выборки с возвращением. Из исходных данных формируется множество бутстрэп
-выборок одинакового размера равного по размеру исходной выборки с помощью случайного выбора элементов (причем элементы могут и будут повторяться). На каждой такой выборке модель обучается, а её качество оценивается на тех данных, которые не попали в эту выборку (out-of-bag данные).Этот метод позволяет оценить стабильность и доверительные интервалы метрик, что повышает надежность результатов, при этом не требуя строгого разбиения данных, что особенно важно при очень малых выборках. Однако при очень небольшом объеме данных оценки могут быть менее точными, а большое число повторных обучений увеличивает время вычислений, что может стать недостатком при работе с большими наборами данных или при необходимости быстрого получения результатов.
Что выбрать?
Хотите оценить точность модели — используйте
кросс-валидацию
, устойчивость — применяйте бутстрэппинг
. В идеале — комбинируйте оба метода для получения ясного представления о качестве модели.Как выглядит код на практике можно узнать здесь. Узнать больше о
кросс-валидации
и бутстрэппинге
можно здесь и здесь, ну и, конечно, на нашем курсе.#openbio_education #openbio_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10❤3👍2
Поставьте отметку в пяти коротких опросах ниже — это займёт минуту, а нам поможет сделать контент в нашем канале чуть более прицельным!
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤6👍3🐳1
Как вы определили ваш уровень программирования и опыта в Data Science?
Anonymous Poll
36%
Начальный (или почти начальный) — ничего или почти ничего не умею делать с сырыми данными
39%
Новичок — есть опыт обработки данных в R или Python, простые таблички могу посчитать
18%
Средний — уже более 2-3 лет занимаюсь обработкой данных, сделал несколько проектов
7%
Продвинутый — набил руку во многих проектах, занимаюсь углублением знаний
Для каких задач вы примеряете для себя знания по машинному обучению?
Anonymous Poll
31%
Геномика, транскриптомика, эпигеномика
17%
Протеомика и структурная биология
20%
Анализ медицинских изображений и патология
23%
Клинические исследования и персонализированная медицина
44%
Начинаю свой путь в ML / Хочу понять общие принципы применения ML в биологии.
7%
Другое (напишите в комментариях!)
Какие трудности вы чаще всего встречаете, когда пытаетесь применять машинное обучение в своих биологических задачах?
Anonymous Poll
26%
Подготовка и очистка биологических данных — слишком много «шума», пропуски
26%
Выбор правильного ML-алгоритма — много вариантов, не понимаю, что выбрать
26%
Интерпретация результатов модели — как понять, что модель делает и почему
22%
Нехватка вычислительных ресурсов — медленно работает, нет доступа к мощным серверам
28%
Интеграция ML с биологическими знаниями — как связать возможности ML с моей спецификой
20%
Поиск и понимание релевантных инструментов и библиотек
34%
Пока не применяю, но читаю полезные материалы на будущее
3%
Другое (напишите в комментариях!)
❤4👍2👏2
Собрали всё: от NGS и биостатистики до диффузионных моделей и мультимодальных омикс-данных. Позиции открыты — резюме в бой!
Требования: 3+ лет опыта построения и эксплуатации ML-систем: Python 3.*, PyTorch/TF, scikit-learn, NumPy/Pandas. Стек Data Engineering: SQL/NoSQL, Spark или Dask, Airflow/Prefect, REST/gRPC-сервисы. Опыт работы с HPC или облачными GPU-ресурсами, оптимизацией вычислений (CUDA, mixed-precision, distributed training). Глубокие знания статистики, экспериментального дизайна и методов оценки неопределённости. Умение читать и реализовывать state-of-the-art статьи (NeurIPS, ICML, Nature Methods).
Уровень дохода не указан
Требования: уверенные навыки программирования: знание R (Bioconductor), Python (Biopython, Pandas, Numpy); уверенное владение Linux, знание Bash; опыт работы с NGS-данными на уровне разработки биоинформатических пайплайнов анализа данных (геном, транскриптом, метилом, таргетное секвенирование панелей генов); опыт работы с Docker, Git; опыт работы с SQL; знание биомедицинской статистики; опыт научной деятельности не менее 2 лет;
Уровень дохода не указан
Требования: Постдок, Возможны любые специальности в области естественных и медицинских наук
100 - 120 тыс. руб. + надбавки с грантов
Требования: BostonGene ищет CV-инженера для анализа MxIF, H&E, IHC изображений и разработки мультимодальных DL-моделей (на базе diffusion), с соблюдением GCP/GCLP.
Уровень дохода не указан
Требования: BostonGene ищет дата-аналитика для работы с multi-omics (NGS, CyTOF), построения моделей ответа на терапию и анализа биомаркеров в онкоисследованиях
Уровень дохода не указан, но предусмотрена помощь в релокации
#openbio_вакансии
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8👍1🔥1
Уверены, вы уже знакомы с ChatGPT или его аналогами. Готовы обновить знания?
Предлагаем вам🤫 🫠 🤥 😶 !
За 5 дней дадим концентрат методов использования LLM в профессиональной деятельности прицельно для биомеда. Готовьтесь тестить инструменты!
Старт —1️⃣ 4️⃣ июля прямо здесь в нашем телеграм - канале.
Каждый день посвятим разбору практических подходов и покажем как их сразу внедрить в работу:
✔️ разберем, какие LLM полезны в биологии (спойлер: не только ChatGPT)
✔️ сравним модели друг с другом и обсудим практики промт-инжиниринга
✔️ расскажем как учиться с ИИ-ассистентами и выполнять задачи на работе
✔️ ну и, конечно, дадим примеры как это работает у нас :)
🎁 Бонусы для тех, кто дойдет до конца
🔥 До начала — всего 6 дней. Не пропусти! 🔥
📌 Машинное обучение в биологии и биомедицине | OpenBio.Edu — подписывайтесь!
Предлагаем вам
За 5 дней дадим концентрат методов использования LLM в профессиональной деятельности прицельно для биомеда. Готовьтесь тестить инструменты!
Старт —
Каждый день посвятим разбору практических подходов и покажем как их сразу внедрить в работу:
🔥 До начала — всего 6 дней. Не пропусти! 🔥
Please open Telegram to view this post
VIEW IN TELEGRAM
5❤20👍9🔥5
👋 Сегодня погрузимся в мир, где данных слишком много, но информации — мало. Речь о методах понижения размерности — ключевом инструменте в анализе сложных биологических данных, который помогает увидеть главное, отбросив "шум".
Что это и зачем нужно биологу?
Современные биомедицинские исследования часто сталкиваются с огромными объемами данных: например, у пациентов записаны тысячи характеристик — возраст, уровни веществ в крови, генетическая информация и так далее... Это "многомерное" пространство. Понижение размерности помогает "сжать" эти данные, сохранив при этом их наиболее важные свойства, чтобы:
🔺 визуализировать кластеры и группы (которые иначе не увидеть);
🔺 удалить избыточную и зашумлённую информацию;
🔺 ускорить работу алгоритмов машинного обучения.
Но какой метод выбрать?
Смотрите в карусели и делитесь, какие методы понижения размерности вы используете чаще всего в своей работе? Какие "подводные камни" встречали? Поделитесь своим опытом в комментариях! 👇
Еще больше о PCA, t-SNE, UMAP, VAE.
В следующий раз поговорим о том, как с помощью методов аугментации можно создавать дополнительные образцы.
#openbio_education
🔥До старта LLM-спринта осталось 4 дня!🔥
📌 Машинное обучение в биологии и биомедицине | OpenBio.Edu — подписывайтесь!
Что это и зачем нужно биологу?
Современные биомедицинские исследования часто сталкиваются с огромными объемами данных: например, у пациентов записаны тысячи характеристик — возраст, уровни веществ в крови, генетическая информация и так далее... Это "многомерное" пространство. Понижение размерности помогает "сжать" эти данные, сохранив при этом их наиболее важные свойства, чтобы:
Но какой метод выбрать?
Смотрите в карусели и делитесь, какие методы понижения размерности вы используете чаще всего в своей работе? Какие "подводные камни" встречали? Поделитесь своим опытом в комментариях! 👇
Еще больше о PCA, t-SNE, UMAP, VAE.
Кстати, на нашем курсе по машинному обучению мы уделяем несколько семинаров на практику с методами снижения размерности.
В следующий раз поговорим о том, как с помощью методов аугментации можно создавать дополнительные образцы.
#openbio_education
🔥До старта LLM-спринта осталось 4 дня!🔥
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10✍3👍2
Курс вполне оправдал мои ожидания: ко мне как главному редактору Биомолекулы обратились для рекламы еще первого потока, и я сразу подумал, что было бы круто взамен пройти курс самому. Дело в том, что я уже 20 лет занимаюсь структурной биоинформатикой и в принципе много чего знаю и умею, но вот машинное обучение и нейросети как-то оставались у меня за бортом.
После целого семестра очень интенсивных занятий, которые, не скрою, потребовали большого упорства, чтобы просто сделать всё что требовалось (посмотреть все лекции, поприсутствовать на онлайн-семинарах, сделать домашки, созвониться в группах для обсуждения решений, ну и наконец поучаствовать в соревновании на Кагл), я действительно могу сказать, что что-то начал понимать в этой сфере. Разумеется, реальный опыт еще предстоит получить, когда я применю эти знания в своих научных проектах, но теперь я уже по крайней мере буду знать, когда это стоит сделать и с какой стороны подступиться.
Понравилось, что во время курса начало формироваться некоторое сообщество людей, уже имеющих определенный опыт в конкретных сферах биоинформатики, причем не только новичков, но и уже сложившихся специалистов.
Моя благодарность команде за то, что создали этот действительно востребованный своевременный курс, далеко выходящий за рамки стандартных учебных программ: когда я сам учился в университете, методы ML в биологии еще были практически не распространены, но теперь это не так. Здорово, что появилась возможность добрать квалификацию таким образом, ведь вновь отучиться в университете 20 лет спустя уже вряд ли получится)
Также благодарю за возможность поучаствовать в этом курсе и моему сыну, без ложной скромности думаю, что это уникальный случай, когда школьник (сейчас уже выпускник и в скором времени - студент вуза) на равных участвовал во вполне взрослой программе и мог конкурировать с людьми с опытом исследовательской работы.
Если вы тоже задумывались о том, чтобы расширить свои научные горизонты с помощью машинного обучения, будем рады видеть вас среди участников! Возможно, именно ваш опыт и вопросы сделают наше сообщество ещё сильнее.
#openbio_review #openbio_education #openbio_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
5❤6🔥3 2
В программе:
- арсенал LLM для биологии и биомедицины
- стандарты промптинга и способы сравнения моделей между собой
- наши рекомендации по внедрению LLM в учебу, в т.ч. для точечного подтягивания навыков
- схема запуска пошагового диалога с ИИ в ролевых моделях с примерами
- практические задания для отработки новых инструментов, бонусы и многое другое.
Не стесняйтесь дополнять нас в комментариях, мы хотим дать как можно больше знаний для тех, кто работает в биомед секторе и будем рады дополнениям и дискуссиям
До старта осталось менее 24 часов
OpenBio делает тренды доступными для вас
#openbio_education
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍2😍1