Делимся регулярной подборкой вакансий для биологов и медиков с компетенциями в области ML!
Сегодня подобрали несколько позиций, связанных с компьютерным зрением, а также включили в список пару вакансий в США. 🇺🇸
1️⃣ Computer Vision Engineer в платформу «Третье Мнение»
«Третье Мнение» разрабатывает решения на базе ИИ для анализа медицинских изображений и ищет специалиста для создания и оптимизации алгоритмов глубокого обучения в задачах классификации, сегментации и детекции.
Вам предстоит работать с современными моделями, исследовать подходы для работы с шумной разметкой, оптимизировать нейросети и внедрять SOTA-решения. Требуются опыт в Deep Learning, знание PyTorch или TensorFlow, Python, библиотек numpy, scikit-learn, pandas, cv2, базовые навыки работы с Docker, Linux, Git и умение имплементировать научные подходы.
2️⃣ Senior ML и DL разработчик в CVisionLab
Компания, создающая программное обеспечение для компьютерного зрения в области медицинских изображений и других сферах, ищет увлеченного специалиста для работы над задачами медицинского анализа, контроля качества, интеллектуального видеонаблюдения и художественной обработки изображений. Нужны уверенные знания Python, фреймворков глубокого обучения (PyTorch, TensorFlow, MxNet), библиотек numpy, matplotlib, scikit-learn, опыт работы с Unix-системами, знание линейной алгебры и теории вероятностей. Плюсом станет опыт разработки моделей для компьютерного зрения и работы с библиотеками OpenCV и Dlib.
3️⃣ Middle CV Researcher в AIRI (Сильный AI в медицине)
Группа разработки Foundation Models в AIRI, занимающаяся исследованиями медицинских изображений, ищет специалиста для обучения базовых моделей в задачах классификации, сегментации и генерации описаний. Требуется знание PyTorch, опыт в CV и работе с SSL-моделями (DINO, CLIP), а также навыки работы с Visual Language Models. Плюсом будет опыт анализа медицинских изображений, таких как рентгены и КТ.
4️⃣ (Senior) Machine Learning Scientist, Spatial Transcriptomics в Tempus 🇺🇸
Tempus — лидирующий в США разработчик технологий для таргетной онкологии — ищет специалиста для анализа данных пространственной транскриптомики и разработки ML-алгоритмов, интегрирующих мультиомиксные данные. Требуется PhD в биостатистике, статистике или смежных областях, опыт работы с геномными данными, знание ML-алгоритмов и Python. Плюсом будет опыт работы с PyTorch, TensorFlow и Keras!
5️⃣ Летние стажировки в Tempus 🇺🇸
Компания также ведет набор на летние стажировки по разным научным направлениям, среди которых мы хотели выделить клеточную визуализацию и цифровую патологию. Основные требования включают владение Python, опыт работы с ML-фреймворками (TensorFlow или PyTorch), а также интерес к разработке в области биомедицины.
#openbio_вакансии
🔥 До старта🌤 🌥 ☁️ от OpenBio: 4 дня🔥
📌 Машинное обучение в биологии и биомедицине | OpenBio.Edu — подписывайтесь!
Сегодня подобрали несколько позиций, связанных с компьютерным зрением, а также включили в список пару вакансий в США. 🇺🇸
«Третье Мнение» разрабатывает решения на базе ИИ для анализа медицинских изображений и ищет специалиста для создания и оптимизации алгоритмов глубокого обучения в задачах классификации, сегментации и детекции.
Вам предстоит работать с современными моделями, исследовать подходы для работы с шумной разметкой, оптимизировать нейросети и внедрять SOTA-решения. Требуются опыт в Deep Learning, знание PyTorch или TensorFlow, Python, библиотек numpy, scikit-learn, pandas, cv2, базовые навыки работы с Docker, Linux, Git и умение имплементировать научные подходы.
Компания, создающая программное обеспечение для компьютерного зрения в области медицинских изображений и других сферах, ищет увлеченного специалиста для работы над задачами медицинского анализа, контроля качества, интеллектуального видеонаблюдения и художественной обработки изображений. Нужны уверенные знания Python, фреймворков глубокого обучения (PyTorch, TensorFlow, MxNet), библиотек numpy, matplotlib, scikit-learn, опыт работы с Unix-системами, знание линейной алгебры и теории вероятностей. Плюсом станет опыт разработки моделей для компьютерного зрения и работы с библиотеками OpenCV и Dlib.
Группа разработки Foundation Models в AIRI, занимающаяся исследованиями медицинских изображений, ищет специалиста для обучения базовых моделей в задачах классификации, сегментации и генерации описаний. Требуется знание PyTorch, опыт в CV и работе с SSL-моделями (DINO, CLIP), а также навыки работы с Visual Language Models. Плюсом будет опыт анализа медицинских изображений, таких как рентгены и КТ.
Tempus — лидирующий в США разработчик технологий для таргетной онкологии — ищет специалиста для анализа данных пространственной транскриптомики и разработки ML-алгоритмов, интегрирующих мультиомиксные данные. Требуется PhD в биостатистике, статистике или смежных областях, опыт работы с геномными данными, знание ML-алгоритмов и Python. Плюсом будет опыт работы с PyTorch, TensorFlow и Keras!
Компания также ведет набор на летние стажировки по разным научным направлениям, среди которых мы хотели выделить клеточную визуализацию и цифровую патологию. Основные требования включают владение Python, опыт работы с ML-фреймворками (TensorFlow или PyTorch), а также интерес к разработке в области биомедицины.
#openbio_вакансии
🔥 До старта
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍3🐳3🤔2👏1
Плавно переходим к темам четвертого модуля курса «Машинное обучение в биологии и биомедицине». Сегодня кратко познакомимся с омиксными данными — краеугольным камнем современной биомедицины.
Если ваш бэкграунд — в биологии или медицине, то скорее всего вам много раз встречались термины с суффиксом «-омика». Этот суффикс греческого происхождения означает «много» и обозначает исследования, охватывающие целые наборы данных в разных областях.
Какие «омиксы» существуют?
Сегодня активно развиваются исследования в разных областях омиксных технологий. Вот лишь некоторые из них:
1️⃣ Геномика
Геномика изучает полный набор ДНК организма, включая все его гены и некодирующие участки, как правило, с помощью технологии секвенирования нового поколения (NGS). Это помогает изучать генетическую вариабельность и полиморфизмы, а также оценить связь отдельных врожденных и соматических мутаций на развитие болезней.
2️⃣ Транскриптомика
Исследует все молекулы РНК, синтезируемые в клетке. В область интересов входят как кодирующая белки мРНК (матричная РНК), так и некодирующие виды РНК играющие ключевую роль в регуляции генетической активности — например, микроРНК и длинная некодирующая РНК. Транскриптомика изучает, как изменяется экспрессия генов на клеточном или тканевом уровне в ответ на внутренние и внешние воздействия и при разных состояниях.
3️⃣ Протеомика
Протеомика занимается качественным и количественным исследованием белков, которые синтезируются в организме, а также их их взаимодействия и посттрансляционные модификации. Протеомика помогает понять молекулярные механизмы работы клеток и выявить новые биомаркеры заболеваний.
4️⃣ Метаболомика
Изучает метаболиты — малые молекулы, такие как аминокислоты, сахара и жирные кислоты, образующиеся в ходе метаболизма. Это помогает понять, как метаболические пути влияют на физиологические процессы, такие как болезни, диабет и рак. Современные методы метаболомики позволяют исследовать тысячи метаболитов одновременно.
5️⃣ Липидомика
Исследует липиды — молекулы, из которых строится клеточная мембрана. Липиды играют важную роль в межклеточной сигнализации и заболеваниях благодаря участию, таких как сердечно-сосудистые болезни, диабет и нейродегенеративные болезни. Методы липидомики используют высокочувствительные технологии масс-спектрометрии для анализа липидных профилей.
6️⃣ Эпигеномика
Изучает эпигенетические изменения, которые влияют на активность генов без изменения самой последовательности ДНК. Объекты исследования эпигеномики включают метилирование ДНК и модификации гистонов. Эпигеномика помогает понять, как внешние факторы, такие как питание и стресс, могут изменять активность генов и как эти изменения влияют на здоровье человека.
7️⃣ Метагеномика
Если обычной геномики недостаточно — попробуйте метагеномику. Она исследует геномы совокупности микроорганизмов в микробиомах, таких как кишечник, почва или водоемы. Это позволяет анализировать генетическое разнообразие микробных сообществ без необходимости их выделения и культивирования. Метагеномика используется для изучения микробиомов человека и экосистем в рамках медицины и биотехнологии.
Разные области омиксных технологий тесно связаны между собой и дают комплексное представление о биологических системах на молекулярном уровне. Омиксные данные позволяют ученым разгадывать сложные биологические процессы и разрабатывать новые методы диагностики и лечения.
#openbio_ml #openbio_education
🔥 До старта🌤 🌥 ☁️ от OpenBio: 3 дня🔥
📌 Машинное обучение в биологии и биомедицине | OpenBio.Edu — подписывайтесь!
Если ваш бэкграунд — в биологии или медицине, то скорее всего вам много раз встречались термины с суффиксом «-омика». Этот суффикс греческого происхождения означает «много» и обозначает исследования, охватывающие целые наборы данных в разных областях.
Какие «омиксы» существуют?
Сегодня активно развиваются исследования в разных областях омиксных технологий. Вот лишь некоторые из них:
Геномика изучает полный набор ДНК организма, включая все его гены и некодирующие участки, как правило, с помощью технологии секвенирования нового поколения (NGS). Это помогает изучать генетическую вариабельность и полиморфизмы, а также оценить связь отдельных врожденных и соматических мутаций на развитие болезней.
Исследует все молекулы РНК, синтезируемые в клетке. В область интересов входят как кодирующая белки мРНК (матричная РНК), так и некодирующие виды РНК играющие ключевую роль в регуляции генетической активности — например, микроРНК и длинная некодирующая РНК. Транскриптомика изучает, как изменяется экспрессия генов на клеточном или тканевом уровне в ответ на внутренние и внешние воздействия и при разных состояниях.
Протеомика занимается качественным и количественным исследованием белков, которые синтезируются в организме, а также их их взаимодействия и посттрансляционные модификации. Протеомика помогает понять молекулярные механизмы работы клеток и выявить новые биомаркеры заболеваний.
Изучает метаболиты — малые молекулы, такие как аминокислоты, сахара и жирные кислоты, образующиеся в ходе метаболизма. Это помогает понять, как метаболические пути влияют на физиологические процессы, такие как болезни, диабет и рак. Современные методы метаболомики позволяют исследовать тысячи метаболитов одновременно.
Исследует липиды — молекулы, из которых строится клеточная мембрана. Липиды играют важную роль в межклеточной сигнализации и заболеваниях благодаря участию, таких как сердечно-сосудистые болезни, диабет и нейродегенеративные болезни. Методы липидомики используют высокочувствительные технологии масс-спектрометрии для анализа липидных профилей.
Изучает эпигенетические изменения, которые влияют на активность генов без изменения самой последовательности ДНК. Объекты исследования эпигеномики включают метилирование ДНК и модификации гистонов. Эпигеномика помогает понять, как внешние факторы, такие как питание и стресс, могут изменять активность генов и как эти изменения влияют на здоровье человека.
Если обычной геномики недостаточно — попробуйте метагеномику. Она исследует геномы совокупности микроорганизмов в микробиомах, таких как кишечник, почва или водоемы. Это позволяет анализировать генетическое разнообразие микробных сообществ без необходимости их выделения и культивирования. Метагеномика используется для изучения микробиомов человека и экосистем в рамках медицины и биотехнологии.
Разные области омиксных технологий тесно связаны между собой и дают комплексное представление о биологических системах на молекулярном уровне. Омиксные данные позволяют ученым разгадывать сложные биологические процессы и разрабатывать новые методы диагностики и лечения.
Омиксные технологии входят в 4 модуль курса «Машинное обучение в биологии и биомедицине».
Приходите на программу, чтобы получить глубокое понимание темы и уверенную базу.
А сделать первый шаг в изучении мультиомиксных данных вы сможете на бесплатном ML Bootcamp от OpenBio, который состоится на канале проекта с 3 по 9 февраля.
#openbio_ml #openbio_education
🔥 До старта
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍13🔥6❤4👏3👾2
🔥 ML Bootcamp от OpenBio – стартуем завтра! 🔥
Мы подготовили мощную неделю, которая прокачает ваши навыки в машинном обучении, позволит заглянуть в программу курса «Машинное обучение в биологии и биомедицине» и даст шанс заполучить скидку до 30% на участие в нем.
И все это — прямо здесь, в этом канале, в открытом доступе для всех наших подписчиков!
Итак, с 3 по 9 февраля вас ждет:
🚀 3-7 февраля: 5 дней хардкора.
Каждый день — новый пост по теме из программы основного курса «Машинное обучение в биологии и биомедицине». Комбо из видео-лекции, теории и практической части. Выполняйте задания внимательно – эти вопросы попадут в итоговый тест.
🎯 8 февраля: итоговое тестирование.
Тест, который не только проверит ваши знания, но и даст возможность получить скидку до 30% на курс! Чем больше правильных ответов – тем больше скидка. Проверять ответы будут методисты нашего курса, так что халявы не будет😈.
🔥 9 февраля: день инсайтов и подведения итогов.
12:00 (МСК) – Карьерный вебинар «Прожарка вакансий»
Честный разбор свежих вакансий в биотехе от экспертов Натальи Мнафки и Даниила Игумнова.
➡️ Необходима предварительная регистрация.
18:00 (МСК) – Публикация разбора теста + подведение итогов
Мы опубликуем разбор вопросов тестирования и, конечно, подарим всем участникам ML Bootcamp подарки.
💡 Как взять максимум от ML Bootcamp?
✔️ Смотрите лекции
✔️ Решайте задачи
✔️ Проходите финальное тестирование
✔️ Получите скидку на обучение на основном курсе!
Это не просто интенсив — это возможность сделать первый шаг в Data Science, познакомиться с темами курса «Машинное обучение в биологии и биомедицине» и получить весомую скидку на обучение!
🚀 Готовы? Тогда сохраняйте расписание выше⬆️ , пристегивайте ремни и ждите первый пост в этом канале уже завтра!
#openbio_ML_Bootcamp
#openbio_ml #openbio_education
🔥 До старта🌤 🌥 ☁️ от OpenBio: менее 24 часов 🔥
Машинное обучение в биологии и биомедицине | OpenBio.Edu — подписывайтесь!
Мы подготовили мощную неделю, которая прокачает ваши навыки в машинном обучении, позволит заглянуть в программу курса «Машинное обучение в биологии и биомедицине» и даст шанс заполучить скидку до 30% на участие в нем.
И все это — прямо здесь, в этом канале, в открытом доступе для всех наших подписчиков!
Итак, с 3 по 9 февраля вас ждет:
🚀 3-7 февраля: 5 дней хардкора.
Каждый день — новый пост по теме из программы основного курса «Машинное обучение в биологии и биомедицине». Комбо из видео-лекции, теории и практической части. Выполняйте задания внимательно – эти вопросы попадут в итоговый тест.
🎯 8 февраля: итоговое тестирование.
Тест, который не только проверит ваши знания, но и даст возможность получить скидку до 30% на курс! Чем больше правильных ответов – тем больше скидка. Проверять ответы будут методисты нашего курса, так что халявы не будет😈.
🔥 9 февраля: день инсайтов и подведения итогов.
12:00 (МСК) – Карьерный вебинар «Прожарка вакансий»
Честный разбор свежих вакансий в биотехе от экспертов Натальи Мнафки и Даниила Игумнова.
Хотите, чтобы разобрали именно вашу вакансию?
Регистрируйтесь на вебинар и присылайте ссылку – прокомментируем в прямом эфире.
18:00 (МСК) – Публикация разбора теста + подведение итогов
Мы опубликуем разбор вопросов тестирования и, конечно, подарим всем участникам ML Bootcamp подарки.
💡 Как взять максимум от ML Bootcamp?
Это не просто интенсив — это возможность сделать первый шаг в Data Science, познакомиться с темами курса «Машинное обучение в биологии и биомедицине» и получить весомую скидку на обучение!
🚀 Готовы? Тогда сохраняйте расписание выше
#openbio_ML_Bootcamp
#openbio_ml #openbio_education
🔥 До старта
Машинное обучение в биологии и биомедицине | OpenBio.Edu — подписывайтесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍16🔥6❤4😍4🤔1
Media is too big
VIEW IN TELEGRAM
Добро пожаловать на 1️⃣ день ML Bootcamp от OpenBio! Готовы повеселиться? 😈
Начинаем интенсив с темы из первого модуля курса «Машинное обучение в биологии и биомедицине»: сегодня изучим метрики качества для моделей регрессии.
В прикрепленном видео наш преподаватель Илья Воронцов с помощью иллюстраций объяснит, что такое среднеквадратичное отклонение, коэффициент детерминации R2, и как они считаются.
А теперь теория!
1️⃣ Среднеквадратичное отклонение (Root Mean Squared Error, RMSE)
Основной объем информации об RMSE мы оставили в видео, а здесь соберем основные тезисы:
➖ RMSE — квадратный корень из среднего квадрата отклонений.
➖ MSE — среднее арифметическое квадратов разностей между истинными и предсказанными значениями.
➖ RMSE измеряется в тех же единицах, что и целевой признак, в отличие от MSE.
2️⃣ Коэффициент детерминации, или R2
Отражает долю объясненной дисперсии от общей дисперсии по выборке. Чем ближе значение R2 к единице, тем успешнее модель объясняет вариацию в данных.
Модель «правильно объяснила» вариацию, если предсказанные значения близки к истинным в тренировочной выборке.
Представим, что мы строим модель для предсказания уровня холестерина в крови у пациентов.
🔹 Общая дисперсия
Мера разброса уровней холестерина между пациентами.
Считается как сумма квадратов разности между истинными и средним значениями целевого параметра.
🔹 Объясненная дисперсия
Допустим, мы предполагаем, что диета и физическая активность могут быть причинами различий в уровнях холестерина, и строим по ним модель.
Объясненная дисперсия показывает, какая часть вариации данных действительно зависит от выбранных параметров – диеты и активности.
Расчет: разница между предсказанными и средним значениями целевого параметра:
🔹 Необъясненная дисперсия
В реальности другие факторы, не учтенные текущей моделью, тоже могут влиять на уровень холестерина. Вся часть вариаций, которую модель не объясняет, называется необъясненной дисперсией.
Расчет: разница между истинными и предсказанными значениями целевого параметра.
🔻 Формула для R2:
R2 = 1 − (Необъясненная дисперсия/Общая дисперсия)
Если у модели R2 = 0.8, это значит, что 80% вариации в уровнях холестерина действительно можно объяснить диетой и активностью. Если R2 = 0.2, то диета и активность объясняет только 20% вариаций: возможно, стоит пересмотреть гипотезы или добавить другие факторы.
🔥 Время практики!
Ниже — код для расчета R2 в Python.
🔹 Задание: Запустите его и проверьте, какие значения дисперсии и R2 получатся.
➡️ У вас есть время подумать над ответом до конца недели. Эта задача войдет в итоговое тестирование, которое мы опубликуем 8 февраля.
Сегодня мы разобрали две важнейшие метрики качества моделей регрессии. И это — только разминка!
Завтра переходим ко второму модулю, посвященному кластеризации. 🔥
#openbio_ML_Bootcamp
🔥 ML Bootcamp от OpenBio: день 1 🔥
Машинное обучение в биологии и биомедицине | OpenBio.Edu — подписывайтесь!
Начинаем интенсив с темы из первого модуля курса «Машинное обучение в биологии и биомедицине»: сегодня изучим метрики качества для моделей регрессии.
🔥 ML Bootcamp — отличный трамплин в мир машинного обучения. После такого разогрева вы точно будете готовы пройти курс «Машинное обучение в биологии и биомедицине», стартующий уже 25 февраля!
В прикрепленном видео наш преподаватель Илья Воронцов с помощью иллюстраций объяснит, что такое среднеквадратичное отклонение, коэффициент детерминации R2, и как они считаются.
А теперь теория!
Основной объем информации об RMSE мы оставили в видео, а здесь соберем основные тезисы:
Отражает долю объясненной дисперсии от общей дисперсии по выборке. Чем ближе значение R2 к единице, тем успешнее модель объясняет вариацию в данных.
Модель «правильно объяснила» вариацию, если предсказанные значения близки к истинным в тренировочной выборке.
Представим, что мы строим модель для предсказания уровня холестерина в крови у пациентов.
Мера разброса уровней холестерина между пациентами.
Считается как сумма квадратов разности между истинными и средним значениями целевого параметра.
Допустим, мы предполагаем, что диета и физическая активность могут быть причинами различий в уровнях холестерина, и строим по ним модель.
Объясненная дисперсия показывает, какая часть вариации данных действительно зависит от выбранных параметров – диеты и активности.
Расчет: разница между предсказанными и средним значениями целевого параметра:
В реальности другие факторы, не учтенные текущей моделью, тоже могут влиять на уровень холестерина. Вся часть вариаций, которую модель не объясняет, называется необъясненной дисперсией.
Расчет: разница между истинными и предсказанными значениями целевого параметра.
R2 = 1 − (Необъясненная дисперсия/Общая дисперсия)
Если у модели R2 = 0.8, это значит, что 80% вариации в уровнях холестерина действительно можно объяснить диетой и активностью. Если R2 = 0.2, то диета и активность объясняет только 20% вариаций: возможно, стоит пересмотреть гипотезы или добавить другие факторы.
Ниже — код для расчета R2 в Python.
import pandas as pd
import numpy as np
from sklearn.metrics import r2_score
data = {
"Пациент": [1, 2, 3, 4, 5],
"y_true": [220, 200, 240, 180, 220], # Истинные значения уровня холестерина
"y_pred": [215, 205, 230, 190, 210], # Предсказанные значения
"y_mean": [212, 212, 212, 212, 212], # Среднее значение истинных данных
}
df = pd.DataFrame(data)
# Расчет общей дисперсии
sst = np.sum((df["y_true"] - df["y_mean"]) ** 2)
# Расчет объясненной дисперсии
sse = np.sum((df["y_pred"] - df["y_mean"]) ** 2)
# Расчет необъясненной дисперсии
ssr = np.sum((df["y_true"] - df["y_pred"]) ** 2)
# Расчет R2 по формуле
r2_formula = 1 - (ssr / sst)
# Расчет R2 командой из sklearn
r2_sklearn = r2_score(df["y_true"], df["y_pred"])
# Результаты
print(f"\nОбщая дисперсия: {sst}")
print(f"Объясненная дисперсия: {sse}")
print(f"Необъясненная дисперсия: {ssr}")
print(f"\nR2 по формуле: {r2_formula:.4f}")
print(f"R2 по sklearn: {r2_sklearn:.4f}")
Сегодня мы разобрали две важнейшие метрики качества моделей регрессии. И это — только разминка!
Завтра переходим ко второму модулю, посвященному кластеризации. 🔥
#openbio_ML_Bootcamp
🔥 ML Bootcamp от OpenBio: день 1 🔥
Машинное обучение в биологии и биомедицине | OpenBio.Edu — подписывайтесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
5🔥25👍11👏5❤4🤔2🐳2🤓2👨💻1
Media is too big
VIEW IN TELEGRAM
Второй день 🌤 🌥 ☁️ от OpenBio — поехали! 🔥
Сегодня говорим о кластеризации и знакомимся с самым базовым методом для этой задачи — алгоритмом k-means.
🔹 Кластеризация — задача разделения набора данных на группы так, чтобы объекты внутри одного кластера были как можно более схожи между собой, а объекты из разных кластеров — как можно более различны.
Как и в задаче классификации с помощью регрессии, в результате кластеризации каждой точке присваивается метка, однако при кластеризации нет заранее известных «правильных ответов» для разметки, так как это задача машинного обучения без учителя.
🔹 Один из самых простых и часто используемых методов кластеризации — алгоритм k-means. Его задача — найти координаты центров определенных областей данных.
Алгоритм состоит из чередующихся шагов:
1️⃣ Инициализация центров кластеров. Алгоритм выбирает k случайных точек из данных, которые становятся центрами кластеров.
2️⃣ Присваивание точек кластеру. Каждая точка данных присваивается ближайшему кластеру путем расчета расстояния до выбранной точки центра.
3️⃣ Пересчёт центров кластеров. На основании того, как распределились точки по кластерам, центры пересчитываются как среднее значение всех точек, вошедших в кластер. На этом этапе подбирается и устанавливается более подходящий центр для кластера.
Шаги 2 и 3 повторяются. Алгоритм завершает работу, когда координаты центров и распределение точек по кластерам больше не изменяются.
Ограничения метода k-means
🔷 Алгоритм k-means предполагает, что все кластеры имеют простую форму и примерно одинаковые размеры. Лучше всего будут выделяться кластеры на таких данных, где распределение точек в одном кластере симметрично, равномерно, и примерно напоминать круг. «Неправильные» формы групп данных, отражающие более сложные взаимосвязи между точками, могут плохо подвергаться кластеризации.
🔷 Результат работы k-means сильно зависит от того, как выбраны точки центров кластеров в первой итерации. Так как это случайный процесс, иногда первичные точки могут попасть в один кластер или между кластерам, что может привести к неэффективному разделению данных.
Для решения проблемы случайного выбора центров, разрабатывают различные алгоритмы-инициализаторы, которые помогают произвольно задать точки.
🔷 Один из самых сложных аспектов работы с k-means — это выбор оптимального количества кластеров, то есть центров. Количество центров задает пользователь перед стартом алгоритма — это один из основных способов повлиять на работу k-means, наряду с инициализацией центров.
Таким образом, k-means хорошо работает в случаях, когда данные хорошо разделены и имеют похожие размеры и формы кластеров. В случае более сложных данных может потребоваться использование других методов кластеризации, например, DBSCAN или иерархической кластеризации.
➡️ Сохраните свой ответ и присылайте его нам в день тестирования в форме, которую мы опубликуем 8 февраля!
Завтра переходим к третьему модулю, посвященному нейросетям. 🔥
#openbio_ML_Bootcamp
🔥 ML Bootcamp от OpenBio: день 2 🔥
Машинное обучение в биологии и биомедицине | OpenBio.Edu — подписывайтесь!
Сегодня говорим о кластеризации и знакомимся с самым базовым методом для этой задачи — алгоритмом k-means.
Как и в задаче классификации с помощью регрессии, в результате кластеризации каждой точке присваивается метка, однако при кластеризации нет заранее известных «правильных ответов» для разметки, так как это задача машинного обучения без учителя.
Алгоритм состоит из чередующихся шагов:
Шаги 2 и 3 повторяются. Алгоритм завершает работу, когда координаты центров и распределение точек по кластерам больше не изменяются.
❔ В прикрепленном фрагменте лекции из курса «Машинное обучение в биологии и биомедицине» Артем Касьянов наглядно объясняет принципы работы k-means на графиках. Обязательно ознакомьтесь!
Ограничения метода k-means
Для решения проблемы случайного выбора центров, разрабатывают различные алгоритмы-инициализаторы, которые помогают произвольно задать точки.
Таким образом, k-means хорошо работает в случаях, когда данные хорошо разделены и имеют похожие размеры и формы кластеров. В случае более сложных данных может потребоваться использование других методов кластеризации, например, DBSCAN или иерархической кластеризации.
📍 Об этих методах и о том, как с ними работать, говорим на курсе «Машинное обучение в биологии и биомедицине». Старт нового потока уже скоро — 25 февраля!
🔥 Проверьте себя!
Выберите верные утверждения о принципах работы алгоритма k-means:🔲 На вход алгоритм принимает набор точек данных и количество центров.🔲 Он распределяет данные по кластерам на основании заранее заданных меток классов.🔲 Первым шагом алгоритм задает центры кластеров, и они остаются неизменными до конца его работы.🔲 Задача алгоритма — минимизировать расстояние от точек из набора данных до центров кластеров.🔲 Алгоритм может работать с любым количеством кластеров без их предварительного задания.🔲 Алгоритм k-means устойчив к выбросам данных (аутлаерам).
Завтра переходим к третьему модулю, посвященному нейросетям. 🔥
#openbio_ML_Bootcamp
🔥 ML Bootcamp от OpenBio: день 2 🔥
Машинное обучение в биологии и биомедицине | OpenBio.Edu — подписывайтесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
5🔥14❤6👍5👏2😍2
Media is too big
VIEW IN TELEGRAM
На очереди – фрагмент третьего модуля курса, в котором речь пойдет о нейросетях. Сегодня подробно говорим о сверточных нейросетях и принципах их работы.
Ключевые термины CNN:
❔ Подробнее о расчетах в процессе свертки расскажет в прикрепленном видео Александр Сарачаков — преподаватель курса «Машинное обучение в биологии и биомедицине» и специалист по компьютерному зрению в биомедицине. Обязательно посмотрите, чтобы решить задачу, которую даем ниже! 😉
Цветное изображение имеет ширину, высоту и глубину, которая определяется количеством цветовых каналов. Например, RGB изображение размером 600х600 будет иметь размер 600х600х3. Чтобы обеспечить работу со всеми цветовыми каналами, измерения ядра должны быть такими же: в нашем примере и ядро, и получившаяся в результате свертки карта признаков будет также иметь глубину 3.
Как работают сверточные слои?
Сверточные нейросети состоят из многих сверточных слоев, наложенных друг на друга. Каждый следующий слой извлекает все более сложные и абстрактные признаки из исходного изображения или из карты признаков, полученной предыдущим слоем.
📌 Научитесь строить собственные сверточные нейросети на курсе «Машинное обучение в биологии и биомедицине». Вас ждет еще больше знаний о нейронных сетях компьютерном зрении, а главное — применение новых инструментов на реальных биомедицинских кейсах. Старт курса — 25 февраля!
🔥 Задача на закрепление!
Ощутите себя машиной и попробуйте сделать свертку самостоятельно :) Ваша задача — обнаружить диагональную линию на фрагменте изображения, который мы представим следующей матрицей:
1 1 1 1 1
1 2 2 2 1
1 2 3 2 1
1 2 2 2 1
1 1 1 1 1
Используйте ядро свертки 3×3:
-1 0 1
0 0 0
1 0 -1➗ Выполните свертку матрицы с шагом 1. (Подсказка — должна получиться новая матрица размером 3х3)➗ Запишите результат, разделяя числа в одном ряду матрицы запятыми, а ряды — точкой с запятой. Например, ядро из условия задачи запишем так: -1, 0, 1; 0, 0, 0; 1, 0, -1.
#openbio_ML_Bootcamp
🔥 ML Bootcamp от OpenBio: день 3 🔥
Машинное обучение в биологии и биомедицине | OpenBio.Edu — подписывайтесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍7🔥5❤4⚡1
Media is too big
VIEW IN TELEGRAM
Не расслабляемся — сегодня четвертый день 🌤 🌥 ☁️ от OpenBio и новый фрагмент модуля курса «Машинное обучение в биологии и биомедицине»! 💪🏻🔥
Тема дня — интеграция мультиомиксных данных. В биомедицине анализ отдельных типов данных (геномики, транскриптомики, протеомики и др.) даёт лишь фрагмент информации о биологических процессах. Интеграция разнородных данных позволяет глубже понять механизмы заболеваний, выявить скрытые биомаркеры и разработать персонализированные подходы к терапии.
🔹 MOFA (Multi-Omics Factor Analysis) — это статистический инструмент для факторного анализа мультиомиксных данных. Основная задача MOFA — выделение латентных факторов (скрытых переменных), которые объясняют общую структуру в разнородных наборах данных.
➕ Латентный фактор — это не наблюдаемая напрямую комплексная переменная, которая объясняет общие вариации в нескольких типах омиксных данных
Латентные факторы отражают общие закономерности в наблюдаемых данных. Они могут представлять биологические процессы, такие как воспаление или активность клеточных сигнальных путей, а также характеризовать подтипы заболеваний.
Преимущества MOFA:
➕ Интеграция разнородных данных без сложной предобработки
➕ Работа с пропущенными значениями — MOFA умеет импутировать («дополнять») недостающие данные
➕ Алгоритмы MOFA хорошо масштабируются и позволяют эффективно работать с большими наборами биомедицинских данных
MOFA также предлагает набор встроенных аналитических инструментов для упрощения жизни исследователей:
➖ Импутация пропущенных данных помогает аналитически дополнить недостающие значения на основании латентных факторов.
➖ Визуализация. Да, MOFA сама умеет строить графики.
К возможностям визуализации MOFA входят тепловые карты, линейные графики для оценки роли факторов в разных временных точках, разные виды графиков распределений и не только.
➖ Определение значимых компонентов. MOFA автоматически выделяет факторы, которые сильнее всего влияют на свойства исследуемой системы.
➖ Классификация образцов разделяет данные на группы (например, подтипы заболевания).
➖ Анализ вклада разных «омиксов». MOFA позволяет оценить, какой тип данных вносит наибольший вклад в каждый из латентных факторов.
➖ Аннотация биологических путей. MOFA связывает найденные факторы с биологическими и клиническими феноменами.
Ответы можно отправить в специальную форму в день тестирования — а до него осталось всего 2 дня!
#openbio_ML_Bootcamp
🔥 ML Bootcamp от OpenBio: день 4 🔥
Машинное обучение в биологии и биомедицине | OpenBio.Edu — подписывайтесь!
Тема дня — интеграция мультиомиксных данных. В биомедицине анализ отдельных типов данных (геномики, транскриптомики, протеомики и др.) даёт лишь фрагмент информации о биологических процессах. Интеграция разнородных данных позволяет глубже понять механизмы заболеваний, выявить скрытые биомаркеры и разработать персонализированные подходы к терапии.
Латентные факторы отражают общие закономерности в наблюдаемых данных. Они могут представлять биологические процессы, такие как воспаление или активность клеточных сигнальных путей, а также характеризовать подтипы заболеваний.
❔ Сегодня эксперт-биоинформатик Артем Касьянов во фрагменте четвертого модуля курса объяснит основные функции и преимущества MOFA и дополнит все наглядными иллюстрациями.
Преимущества MOFA:
MOFA также предлагает набор встроенных аналитических инструментов для упрощения жизни исследователей:
К возможностям визуализации MOFA входят тепловые карты, линейные графики для оценки роли факторов в разных временных точках, разные виды графиков распределений и не только.
➡️ Если вы работаете с мультиомиксными данными, то MOFA — инструмент, которым точно стоит овладеть. Это важный шаг к решению задач современной науки, и этот шаг вы можете сделать вместе с OpenBio на курсе «Машинное обучение в биологии и биомедицине». Начало курса — 25 февраля!
🔥 Домашнее задание!🔺 Так как латентные факторы могут показаться сложной концепцией, остановимся на них подробнее. Обдумайте следующие утверждения и выделите среди них верные.🔲 Скрытые факторы, выделенные из мультиомиксных данных, объясняют закономерности только в рамках одного исследования, но не подходят для обобщения на другие данные.🔲 MOFA использует факторизацию матриц для выделения скрытых факторов.🔲 Каждый скрытый фактор в MOFA может включать компоненты из нескольких видов омиксных данных.🔲 Каждый выявленный скрытый фактор в MOFA обязательно представляет собой известный биологический процесс и всегда имеет прямую и линейную зависимость с клиническими характеристиками пациентов.🔲 Скрытые факторы — это не измеряемые напрямую переменные, которые описывают главные источники дисперсии в мультиомиксных данных.🔲 Внутри скрытых факторов можно выделить отдельные компоненты, которые имеют различные веса в зависимости от их вклада в фактор.🔲 Один скрытый фактор всегда представлен только одним типом омиксных данных (например, только транскриптомными измерениями).
Ответы можно отправить в специальную форму в день тестирования — а до него осталось всего 2 дня!
#openbio_ML_Bootcamp
🔥 ML Bootcamp от OpenBio: день 4 🔥
Машинное обучение в биологии и биомедицине | OpenBio.Edu — подписывайтесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
5🔥7👍6👏4⚡1
🔥 Финальный рывок: готовимся к карьерному вебинару! 🔥
Теоретический блок ML Bootcamp от OpenBio близится к завершению — уже завтра финальный день. Дальше нас ждет важный этап:
8 февраля — финальное тестирование
9 февраля — карьерный вебинар «Прожарка вакансий»!
💡 Что будет на вебинаре?
Три эксперта: Екатерина Титова, Даниил Игумнов и Наталья Мнафки прожарят актуальные вакансии из сферы биотеха в прямом эфире и разберут:
➕ основные требования к кандидатам;
➕ навыки, необходимые для успешного продвижения;
➕ возможные подводные камни на пути начинающего специалиста, и как их обойти.
Ждем вас 9 февраля в 12:00 по мск
Подробнее о спикерах:
Екатерина Титова — HR-консультант, рекрутер в сфере биотехнологий, искусственного интеллекта, IT и фармацевтики, ex BostonGene, ex J&J, 12+ лет в HR.
Даниил Игумнов — биоинформатик, data scientist, researcher в Gero. Ex Vivan Therapeutics, ex Armenian Bioinformatics Institute.
Наталья Мнафки — продюсер и методолог программы «Машинное обучение в биологии и биомедицине», эксперт по карьерным трекам в биотехе, 13+ лет в индустрии.
До встречи!
#openbio_ML_Bootcamp
🔥 ML Bootcamp от OpenBio: день 4 🔥
Машинное обучение в биологии и биомедицине | OpenBio.Edu — подписывайтесь!
Теоретический блок ML Bootcamp от OpenBio близится к завершению — уже завтра финальный день. Дальше нас ждет важный этап:
8 февраля — финальное тестирование
9 февраля — карьерный вебинар «Прожарка вакансий»!
💡 Что будет на вебинаре?
Три эксперта: Екатерина Титова, Даниил Игумнов и Наталья Мнафки прожарят актуальные вакансии из сферы биотеха в прямом эфире и разберут:
Ждем вас 9 февраля в 12:00 по мск
➡️ Зарегистрируйтесь, чтобы получить ссылку на эфир.
Подробнее о спикерах:
Екатерина Титова — HR-консультант, рекрутер в сфере биотехнологий, искусственного интеллекта, IT и фармацевтики, ex BostonGene, ex J&J, 12+ лет в HR.
Даниил Игумнов — биоинформатик, data scientist, researcher в Gero. Ex Vivan Therapeutics, ex Armenian Bioinformatics Institute.
Наталья Мнафки — продюсер и методолог программы «Машинное обучение в биологии и биомедицине», эксперт по карьерным трекам в биотехе, 13+ лет в индустрии.
Хотите, чтобы разобрали именно вашу вакансию?
Присылайте ссылку в форме — разберем ваш запрос в прямом эфире! 🔥
До встречи!
#openbio_ML_Bootcamp
🔥 ML Bootcamp от OpenBio: день 4 🔥
Машинное обучение в биологии и биомедицине | OpenBio.Edu — подписывайтесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
6❤5👍4🔥3⚡2👾1
Media is too big
VIEW IN TELEGRAM
Финишная прямая — добро пожаловать на пятый день 🌤 🌥 ☁️ от OpenBio! 🔥
NumPy — основная библиотека для научных вычислений в Python, созданная для работы с многомерными массивами и матрицами. Это делает ее еще и хорошим инструментом для обработки изображений — ведь картинку можно представить как двумерный или многомерный массив пикселей, к которым можно применить вычислительные методы из этой библиотеки.
С помощью NumPy можно выполнять базовые операции с изображениями, например:
➖ Обрезка и повороты изображения
➖ Изменение яркости и контрастности
➖ Инвертирование цветов (негатив)
➖ Перевод в черно-белую цветовую схему
➖ Манипуляции с отдельными пикселями
➖ Наложение масок
OpenCV (Open Source Computer Vision Library) — это библиотека с открытым исходным кодом, которая предназначена для обработки изображений и видео, а также решения задач компьютерного зрения. OpenCV предоставляет готовые алгоритмы для анализа изображений и видео, включая фильтрацию, преобразования, сегментацию, распознавание объектов и многое другое.
В отличие от NumPy, OpenCV работает с более высокоуровневыми абстракциями, что позволяет быстро решать более сложные задачи такие как обнаружение контуров, обработка видеопотоков или распознавание лиц. Эта библиотека оптимизирована для работы с большими объемами данных и хорошо подходит для реальных приложений.
Базовый набор инструментов OpenCV
Владение следующими методами, уже встроенными в OpenCV, открывает достаточно широкие возможности для анализа изображений даже без использования нейронных сетей.
🔷 Сегментация изображений:
➖ Пороговая и адаптивная пороговая сегментация
➖ Метод водораздела для разделения плотно расположенных объектов
➖ Кластеризация k-means для сегментации по интенсивности
🔷 Поиск контуров:
➖ Нахождение контуров для выделения границ объектов
➖ Измерение параметров контуров (длины, площади и др.)
🔷 Улучшение изображений:
➖ Фильтрация и подавление шума
➖ Увеличение контраста с помощью CLAHE для улучшения деталей
🔷 Морфологические операции:
Эрозия, дилатация и др.
В итоге, NumPy дает возможности для базовых операций с изображениями и работы с массивами данных, а OpenCV предоставляет продвинутые инструменты для решения сложных задач компьютерного зрения. Эти библиотеки часто используются в тандеме для разработки приложений в области машинного обучения и компьютерного зрения.
➡️ Уже завтра, 8 февраля вы снова встретитесь с этой задачей в итоговом тестировании! Еще есть время подумать или погуглить 😉
#openbio_ML_Bootcamp
🔥 ML Bootcamp от OpenBio: день 5 🔥
Машинное обучение в биологии и биомедицине | OpenBio.Edu — подписывайтесь!
❔ Пятый модуль курса «Машинное обучение в биологии и биомедицине» полностью посвящен компьютерному зрению. Сегодня делимся фрагментом курса, в котором Александр Сарачаков расскажет о применениях уже знакомого нам NumPy для работы с графикой и о библиотеке OpenCV, которая предоставляет широкий функционал для обработки и анализа биомедицинских изображений.
NumPy — основная библиотека для научных вычислений в Python, созданная для работы с многомерными массивами и матрицами. Это делает ее еще и хорошим инструментом для обработки изображений — ведь картинку можно представить как двумерный или многомерный массив пикселей, к которым можно применить вычислительные методы из этой библиотеки.
С помощью NumPy можно выполнять базовые операции с изображениями, например:
OpenCV (Open Source Computer Vision Library) — это библиотека с открытым исходным кодом, которая предназначена для обработки изображений и видео, а также решения задач компьютерного зрения. OpenCV предоставляет готовые алгоритмы для анализа изображений и видео, включая фильтрацию, преобразования, сегментацию, распознавание объектов и многое другое.
В отличие от NumPy, OpenCV работает с более высокоуровневыми абстракциями, что позволяет быстро решать более сложные задачи такие как обнаружение контуров, обработка видеопотоков или распознавание лиц. Эта библиотека оптимизирована для работы с большими объемами данных и хорошо подходит для реальных приложений.
Базовый набор инструментов OpenCV
Владение следующими методами, уже встроенными в OpenCV, открывает достаточно широкие возможности для анализа изображений даже без использования нейронных сетей.
Эрозия, дилатация и др.
В итоге, NumPy дает возможности для базовых операций с изображениями и работы с массивами данных, а OpenCV предоставляет продвинутые инструменты для решения сложных задач компьютерного зрения. Эти библиотеки часто используются в тандеме для разработки приложений в области машинного обучения и компьютерного зрения.
🔥 Время поразмышлять!
Ниже мы привели фрагмент кода, в котором будет произведена некоторая манипуляция с изображением в NumPy.
Задание: изучите код и попробуйте догадаться, что это за манипуляция (подсказка:она есть в списке перечисленных базовых действий выше в посте )
import numpy as np
import cv2
# Загружаем изображение
image = cv2.imread("image.jpg")
# Загадочная манипуляция!
new_image = 255 - image
# Показываем результат
cv2.imshow("New image", new_image)
cv2.waitKey(0)
cv2.destroyAllWindows()
#openbio_ML_Bootcamp
🔥 ML Bootcamp от OpenBio: день 5 🔥
Машинное обучение в биологии и биомедицине | OpenBio.Edu — подписывайтесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍6🔥6❤4👏1
🔥А вот и финал интенсива ML Bootcamp от OpenBio!🔥
ПО ССЫЛКЕ — итоговое тестирование из шести вопросов.
🔸 Первые пять вопросов теста вы уже видели в нашем канале.
Надеемся, у вас было достаточно времени, чтобы поразмыслить над ними.😉
Ответьте на них и получите скидку 20%, независимо от правильности решений, ведь ошибки — тоже важный элемент успешного обучения.
🔸 Вопрос №6 — творческий, обобщающий все темы интенсива.
У него нет верного или неверного решения, дайте волю мысли и фантазии! Развернуто ответив на это задание, вы получите дополнительные 5%.
На этом этапе вы сможете получить скидку в 25%!
🔸 Хотите больше? Дерзайте!
Те, кто ответит правильно на первые 5 вопросов, и даст развернутый ответ на вопрос №6, получат скидку 30% на обучение на курсе!😱
⏳Ответы принимаются до 9 февраля 23:59 по мск.
3, 2, 1, тест!
Желаем удачи.🍀
#openbio_ML_Bootcamp
🔥 ML Bootcamp от OpenBio: день 6 🔥
Машинное обучение в биологии и биомедицине | OpenBio.Edu — подписывайтесь!
ПО ССЫЛКЕ — итоговое тестирование из шести вопросов.
Тестирование — это закрепление полученных на интенсиве знаний, а также уникальная возможность получить скидку до 30% на обучение на курсе «Машинное обучение в биологии и биомедицине»!
Надеемся, у вас было достаточно времени, чтобы поразмыслить над ними.😉
Ответьте на них и получите скидку 20%, независимо от правильности решений, ведь ошибки — тоже важный элемент успешного обучения.
У него нет верного или неверного решения, дайте волю мысли и фантазии! Развернуто ответив на это задание, вы получите дополнительные 5%.
На этом этапе вы сможете получить скидку в 25%!
Те, кто ответит правильно на первые 5 вопросов, и даст развернутый ответ на вопрос №6, получат скидку 30% на обучение на курсе!😱
После завершения приема ответов, методисты курса проверят присланные решения, а менеджеры — лично направят промокод на скидку каждому участнику тестирования.
⏳Ответы принимаются до 9 февраля 23:59 по мск.
3, 2, 1, тест!
Желаем удачи.
#openbio_ML_Bootcamp
🔥 ML Bootcamp от OpenBio: день 6 🔥
Машинное обучение в биологии и биомедицине | OpenBio.Edu — подписывайтесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
5🔥5❤4👏4
Всем доброго дня и продуктивного воскресенья! ☀️
Через 15 минут начинаем вебинар, на котором специалисты индустрии Екатерина Тихонова, Даниил Игумнов и Наталия Мнафки пройдутся критическими взглядами по актуальным вакансиям для ML-специалистов.
➡️ Ссылка для подключения, если вы не успели зарегистрироваться: https://vkvideo.ru/video-227160227_456239028
Сегодня разбираем следующие вакансии и делимся ими с вами, чтобы вы могли покрутить их в руках в режиме реального времени, пока коллеги в эфире обсуждают плюсы и минусы.
1️⃣ DS-Биоинформатик (Middle) в компании Кситест
Кситест — первый в России сервис для геномной селекции сельскохозяйственных животных, ищет специалиста для разработки и внедрения ML-моделей, анализа данных генотипирования и автоматизации селекционных решений.
➖ Требуются уверенные навыки программирования на Python и SQL, понимание математической статистики и теории вероятностей, а также опыт работы с биоинформатическими пакетами. Знание популяционной генетики будет преимуществом.
➖ Компания предлагает работу в офисе в центре Москвы с возможностью удаленной работы, гибкий график и конкурентную зарплату. Процесс отбора включает выполнение тестового задания и финальное собеседование.
2️⃣ ML/DL-специалист в Лабораторию ИИ (биоинформатика и медицина, МГУ)
Лаборатория ИИ МГУ ищет специалиста по машинному обучению для работы над проектами в области дизайна белков, анализа научных публикаций и исследований транскриптомных данных. Требуются знания Python, PyTorch и опыт работы с глубоким обучением. Приветствуется опыт работы с биологическими данными, большими языковыми моделями (Llama, Mistral и др.), а также участие в соревнованиях и публикации по ML/DL.
3️⃣ Исследователь в области NLP/Биоинформатики в команду фармакологии (Sber AI Lab)
Лаборатория ИИ Сбера ищет исследователя с глубокими знаниями в биоинформатике и машинном обучении для работы над новыми AI-решениями в биоинформатике. Команда занимается долгосрочными наукоемкими проектами, направленными на создание инструментов и методов для дизайна белковых молекул и генерации малых химических молекул.
➖ Важными требованиями являются опыт работы с Python и библиотеками PyTorch, NumPy, Pandas, SciPy, а также знакомство с DevOps-инструментами (bash, git, DVC).
➖ Приветствуется опыт в области drug design, знание алгоритмов машинного обучения и глубокого обучения, а также опыт применения архитектуры transformers для задач биоинформатики.
➖ Также важны знания в области биоинформатики, включая работу с инструментами вроде AlphaFold, Blast, молекулярной динамики, и понимание биологических баз данных, таких как PDB и UNIPROT.
4️⃣ Middle/Senior Computer Vision Engineer в компанию «платформа Третье Мнение»
«Третье Мнение» разрабатывает решения на базе ИИ для анализа медицинских изображений и ищет специалиста для создания и оптимизации алгоритмов глубокого обучения в задачах классификации, сегментации и детекции.
➖ Вам предстоит работать с современными моделями, исследовать подходы для работы с шумной разметкой, оптимизировать нейросети и внедрять SOTA-решения.
➖ Требуются опыт в Deep Learning (1–6 лет в зависимости от уровня), знание PyTorch или TensorFlow, Python, библиотек numpy, scikit-learn, pandas, cv2, базовые навыки работы с Docker, Linux, Git и умение имплементировать научные подходы. Плюсом будет опыт работы с медицинскими данными и навыки в области Domain Adaptation
5️⃣ ML-специалист в стартап (медицинские изображения)
Небольшая команда стартапа разрабатывает продукт для автоматизации анализа медицинских изображений и ищет специалиста по ML.
➖ Требуются знания компьютерного зрения, PyTorch или TensorFlow, а также интерес к медицинским данным.
➖ Пока зарплата не предусмотрена, но при привлечении инвестиций будет офер с оплатой. Отличная возможность получить коммерческий опыт и поработать над значимым продуктом.
#openbio_webinar #openbio_expert #openbio_вакансии #openbio_ML_Bootcamp
🔥 ML Bootcamp от OpenBio: день 7 🔥
Машинное обучение в биологии и биомедицине | OpenBio.Edu — подписывайтесь!
Через 15 минут начинаем вебинар, на котором специалисты индустрии Екатерина Тихонова, Даниил Игумнов и Наталия Мнафки пройдутся критическими взглядами по актуальным вакансиям для ML-специалистов.
Сегодня разбираем следующие вакансии и делимся ими с вами, чтобы вы могли покрутить их в руках в режиме реального времени, пока коллеги в эфире обсуждают плюсы и минусы.
Кситест — первый в России сервис для геномной селекции сельскохозяйственных животных, ищет специалиста для разработки и внедрения ML-моделей, анализа данных генотипирования и автоматизации селекционных решений.
Лаборатория ИИ МГУ ищет специалиста по машинному обучению для работы над проектами в области дизайна белков, анализа научных публикаций и исследований транскриптомных данных. Требуются знания Python, PyTorch и опыт работы с глубоким обучением. Приветствуется опыт работы с биологическими данными, большими языковыми моделями (Llama, Mistral и др.), а также участие в соревнованиях и публикации по ML/DL.
Лаборатория ИИ Сбера ищет исследователя с глубокими знаниями в биоинформатике и машинном обучении для работы над новыми AI-решениями в биоинформатике. Команда занимается долгосрочными наукоемкими проектами, направленными на создание инструментов и методов для дизайна белковых молекул и генерации малых химических молекул.
«Третье Мнение» разрабатывает решения на базе ИИ для анализа медицинских изображений и ищет специалиста для создания и оптимизации алгоритмов глубокого обучения в задачах классификации, сегментации и детекции.
Небольшая команда стартапа разрабатывает продукт для автоматизации анализа медицинских изображений и ищет специалиста по ML.
#openbio_webinar #openbio_expert #openbio_вакансии #openbio_ML_Bootcamp
🔥 ML Bootcamp от OpenBio: день 7 🔥
Машинное обучение в биологии и биомедицине | OpenBio.Edu — подписывайтесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍5🤓3
Друзья, 🌤 🌥 ☁️ близится к завершению.
Остаются считанные часы, чтобы выполнить итоговое тестирование, сегодня в 23:59 форма будет закрыта.⏱
А уже завтра с утра мы опубликуем разбор ответов и расскажем о подарках для всех участников ML Bootcamp от OpenBio.
До встречи завтра!
#openbio_ML_Bootcamp
🔥 ML Bootcamp от OpenBio: день 7 🔥
Машинное обучение в биологии и биомедицине | OpenBio.Edu — подписывайтесь!
Остаются считанные часы, чтобы выполнить итоговое тестирование, сегодня в 23:59 форма будет закрыта.
Успейте использовать возможность получить скидку до 30% на курс «Машинное обучение в биологии и биомедицине» — ответы на тест принимаются до конца дня.
А уже завтра с утра мы опубликуем разбор ответов и расскажем о подарках для всех участников ML Bootcamp от OpenBio.
До встречи завтра!
#openbio_ML_Bootcamp
🔥 ML Bootcamp от OpenBio: день 7 🔥
Машинное обучение в биологии и биомедицине | OpenBio.Edu — подписывайтесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👾3
🔥 ML Bootcamp от OpenBio официально завершен! 🔥
За эту насыщенную неделю мы затронули пять тем в рамках каждого из пяти модулей курса «Машинное обучение в биологии и биомедицине». Надеемся, что вы смогли познакомиться с форматом курса и его преподавателями поближе, почерпнуть для себя полезные знания, и убедились, что ML стоит подробного изучения 😉
➡️ А теперь — правильные ответы на тестирование, чтобы вы смогли проверить себя, и, конечно, подарки!
6️⃣ Последний вопрос был творческим, поэтому мы не можем привести правильный ответ, но приглашаем вас в чат канала для обсуждения, если в ходе выполнения у вас возникли вопросы и идеи! ❔
🥳 Поздравляем всех, кто принимал участие в буткэмпе! 🥳
Наши кураторы уже проверили отправленные тесты. Сегодня в течение дня менеджеры курса свяжутся с авторами ответов и пришлют в личные сообщения персональную скидку.
А теперь про подарки для участников ML Bootcamp! 🎁
➖ Темп ML Bootcamp был весьма интенсивным, и конечно на полном курсе «Машинное обучение в биологии и биомедицине» у вас будет больше времени для освоения материала.
Промокод активен до 14.02 включительно.
➖ А чтобы получить еще больше инструментов для изучения мира машинного обучения, дарим вам гайд со списком литературы и ресурсов по изучению ML.
Переходите по ссылке, чтобы скачать файл.
#openbio_полезное #openbio_ML #openbio_дарит_подарки
📌 Машинное обучение в биологии и биомедицине | OpenBio.Edu — подписывайтесь!
За эту насыщенную неделю мы затронули пять тем в рамках каждого из пяти модулей курса «Машинное обучение в биологии и биомедицине». Надеемся, что вы смогли познакомиться с форматом курса и его преподавателями поближе, почерпнуть для себя полезные знания, и убедились, что ML стоит подробного изучения 😉
1️⃣ Задача: рассчитать дисперсии и коэффициент детерминации R2 для тренировочных данных.
Ответы:
Общая дисперсия: 2080
Объясненная дисперсия: 870
Необъясненная дисперсия: 350
R2: 0.8317
2️⃣ Задача: выберите верные утверждения о принципах работы алгоритма k-means
Ответы:✔️ На вход алгоритм принимает набор точек данных и количество центров.❎ Он распределяет данные по кластерам на основании заранее заданных меток классов.❎ Первым шагом алгоритм задает центры кластеров, и они остаются неизменными до конца его работы.✔️ Задача алгоритма — минимизировать расстояние от точек из набора данных до центров кластеров.❎ Алгоритм может работать с любым количеством кластеров без их предварительного задания.✔️ Алгоритм k-means устойчив к выбросам данных (аутлаерам).
3️⃣ Задача: выполните свертку матрицы
Ответ:
-2 0 2
0 0 0
2 0 -2
4️⃣ Задача: выберите верные утверждения о латентных факторах, получаемых из мультиомиксных данных с помощью алгоритма MOFA
Ответы:❎ Скрытые факторы, выделенные из мультиомиксных данных, объясняют закономерности только в рамках одного исследования, но не подходят для обобщения на другие данные.✔️ MOFA использует факторизацию матриц для выделения скрытых факторов.✔️ Каждый скрытый фактор в MOFA может включать компоненты из нескольких видов омиксных данных.❎ Каждый выявленный скрытый фактор в MOFA обязательно представляет собой известный биологический процесс и всегда имеет прямую и линейную зависимость с клиническими характеристиками пациентов.✔️ Скрытые факторы — это не измеряемые напрямую переменные, которые описывают главные источники дисперсии в мультиомиксных данных.✔️ Внутри скрытых факторов можно выделить отдельные компоненты, которые имеют различные веса в зависимости от их вклада в фактор.❎ Один скрытый фактор всегда представлен только одним типом омиксных данных (например, только транскриптомными измерениями).
5️⃣ Задача: догадайтесь, что это за операция над изображением с помощью NumPy:
new_image = 255 - image
Ответ: инвертирование цветов.
🥳 Поздравляем всех, кто принимал участие в буткэмпе! 🥳
Наши кураторы уже проверили отправленные тесты. Сегодня в течение дня менеджеры курса свяжутся с авторами ответов и пришлют в личные сообщения персональную скидку.
А теперь про подарки для участников ML Bootcamp! 🎁
Приглашаем вас погрузиться в тему ML в более комфортом и управляемом ритме со скидкой 15% по промокоду BOOTCAMP. Ввести промокод вы сможете после оформления заказа, на странице с оплатой.
Промокод активен до 14.02 включительно.
Переходите по ссылке, чтобы скачать файл.
#openbio_полезное #openbio_ML #openbio_дарит_подарки
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥4👏3⚡1
Завершаем второй сезон цикла лекций «Личный путь в сеньора биоинформатика» встречей с Ольгой Кардымон!
🧬 Ольга — биолог, биоинформатик, специализирующийся на применении языковых моделей в геномике и протеомике, руководитель группы «Биоинформатика» в Институте искусственного интеллекта AIRI.
Не упустите возможность задать вопросы спикеру в прямом эфире!
Встречаемся 18 февраля в 19:00 по Мск.
На встрече мы обсудим детали карьерного трека спикера, лайфхаки трудоустройства, экспертное мнение по трендам отрасли, обзор «поляны» мира ML в биоинформатике и многое другое.
✔️ Зарегистрируйтесь, чтобы получить ссылку на эфир.
❔ Задавайте вопросы спикеру в комментариях к этому посту, чтобы они точно были озвучены.
Увидимся на эфире!
#openbio_career #openbio_webinar #openbio_interview #openbio_expert
До старта курса:1️⃣ 4️⃣ дней
📌 Машинное обучение в биологии и биомедицине | OpenBio.Edu — подписывайтесь!
Не упустите возможность задать вопросы спикеру в прямом эфире!
Встречаемся 18 февраля в 19:00 по Мск.
Трансляции проходят в рамках курса «Машинное обучение в биологии и биомедицине» от OpenBio.
До старта программы осталось всего 2 недели, а уже 13 февраля стоимость участия вырастет.↗️
Оставьте заявку на консультацию, и мы предоставим вам демодоступ к курсу на 3 дня, чтобы вы могли изучить структуру курса и функционал платформы.
На встрече мы обсудим детали карьерного трека спикера, лайфхаки трудоустройства, экспертное мнение по трендам отрасли, обзор «поляны» мира ML в биоинформатике и многое другое.
Увидимся на эфире!
#openbio_career #openbio_webinar #openbio_interview #openbio_expert
До старта курса:
Please open Telegram to view this post
VIEW IN TELEGRAM
5❤9👍6🔥5
9 участников поделились своими впечатлениями о материалах курса, работе преподавателей и общем ходе обучения.
Ваши истории помогут новым студентам лучше понять, чего ожидать от курса, и, возможно, станут источником вдохновения для новых достижений.
Если вы тоже задумываетесь о погружении в сферу машинного обучения, опыт коллег может стать отличным ориентиром на этом пути! 🚀✨
Тем более что до повышения цен на курс остался всего 1 день, уже завтра стоимость участия вырастет.
Оставьте заявку на консультацию, и мы предоставим вам демодоступ к курсу на 3 дня, чтобы вы могли изучить структуру курса и функционал платформы.
#openbio_отзывы
До старта курса:
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7😍4🔥3👍1