Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
44 - Telegram Web
Telegram Web
🔥 Свежая подборка вакансий и стажировок для биологов и биомедиков с компетенциями в области ML. Успейте отправить резюме, пока они не ушли в архив.

Data Scientist в Сбер
Нужен человек, который будет работать над развитием существующих и созданием новых сервисов, выведением их на цифровые поверхности и улучшением клиентского опыта в здравоохранении.

Стажер ML/DL в центр медицины Sber AI Lab
Предлагается заняться построением таксономии медицинских изображений и подготовкой Q&A задачи для включения в медицинский бенчмарк. Желание освоить ML-алгоритмы приветствуется.

Руководитель продукта в Инвитро
Нужно проработать архитектуру и интеграцию CDP с существующими решениями и запустить процесс допродаж по треку здоровья. Знания AI, ML, BigData, LLM, Generative AI обязательны.

ML/AI специалист на стажировку
Sr.Director Data Science в GLUE, ex-Novartis Анна Костикова ищет в команду ML/AI специалиста, который хочет перейти в отрасль Al for drug discovery (разработка лекарств).

#openbio_вакансии
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🔥3
С развитием технологий AI биологи и биомедики все чаще обращаются к методам ML для оптимизации исследований. Эффективный анализ данных требует использования специализированных библиотек для обработки и интерпретации информации.

В вакансиях по ML примерно в 50% случаях в требованиях указывают знание библиотек. Самая популярная Scikit-learn, далее идут Numpy, SciPy, Pandas и Matplotlib практически без отрыва. Расскажем про них чуть подробнее.

1️⃣ Scikit-learn (Sklearn)
Эта библиотека включает в себя алгоритмы для классификации, регрессии, кластеризации и уменьшение размерности.

2️⃣ Numpy
Эта библиотека – основа для научных вычислений в Python. Она поддерживает работу с многомерными массивами и матрицами. А также включает в себя большое количество математических функций для выполнения операций над этими массивами.
*️⃣Следите за серией постов о Numpy в нашем телеграм-канале по хештегу #openbio_numpy

3️⃣ SciPy
Строится на основе Numpy и предназначена для глубоких и сложных научных вычислений, анализа данных и построения графиков.

4️⃣ Pandas
Нужна для обработки и анализа структурированных табличных данных. С её помощью можно фильтровать, сортировать, агрегировать и преобразовывать данные, а также интегрироваться с источниками для чтения и записи.

5️⃣ Matplotlib
Используют для визуализации данных любой сложности. Библиотека позволяет создавать разные виды графиков: линейные, круговые диаграммы, построчные гистограммы, – а также комбинировать их в зависимости от задач.

Берите на вооружение и изучайте точечно – при работе с данными точно пригодится!

#openbio_python
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥2
⚡️ До повышения цены на курс «Машинное обучение в биологии и биомедицине» осталось меньше 24 часов!

Программа спроектирована таким образом, чтобы вы могли освоить самые популярные задачи в ML в области биологии и биомедицины. Однако даже их можно будет экстраполировать на смежные задачи. Например, для модуля 5 по Computer Vision в медицинском секторе это могут быть:

1️⃣ Автоматическая обработка изображений с медицинскими данными пациентов.
Это могут быть данные различной модальности, представляющиеся в виде изображений:
▪️ Данные лучевой диагностики (разнообразные рентгены, КТ, МРТ),
▪️ Записи (гастро)колоноскопии и подобных эндоскопических исследований,
▪️ Фото/видео пациента, полученные в рамках телемедицины. Методы компьютерного зрения тут могут быть применены для разработки систем поддержки принятия врачебных решений (СППВР).

2️⃣ Автоматизация обработки лабораторных исследований
▪️ Анализ крови,
▪️ Обработка гистологических данных, в том числе и работа со слайдами, окрашенными при помощи H&E или в рамках мультиплексной иммунофлюоресценции (MxIF),
▪️ Обработка изображений спектров, полученных методами MALDI-TOF, с времяпролетных газовых хромато-масс-спектрометров и подобной лабораторной техники. В рамках этого направления можно автоматизировать рутинные задачи по поиску и подсчету числа клеток на изображениях, автоматизировать определение типов тканей, решать задачи поиска раковых клеток на изображении.

3️⃣ Видео аналитика для медицинских учреждений и производства.
В рамках этого подхода решаются задачи мониторинга безопасности пациентов и контроля качества оказания медицинского ухода, а также контроля качества и безопасности на производстве.

и другие.

🔣 Записаться на консультацию и зафиксировать текущую стоимость участия можно на сайте edu.openbio.ru/mlforbiomed

#openbio_ML
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥3🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
Открываем и сохраняем файлы в pandas (и интегрируем его с Excel)
Это второй пост из серии про pandas.

Pandas идеально подходит для работы с табличными данными - он способен открывать файлы Excel и проводить внутри преобразования. Более того, сохранить датафрейм тоже можно в файл Excel. Это делает удобной интеграцию pandas с офисным пакетом: результаты можно сразу красиво оформить для выступления на конференции или передачи коллегам, которые занимаются только “мокрой” биологией и не работают с инструментами data science.

Давайте посмотрим как это делается. Если мы импортировали pandas под именем pd:
import pandas as pd


то считать фрейм данных из файла Excel можно следующим образом:
df = pd.read_excel(”your_excel_file.xlsx”)


Эта строчка создаст фрейм данных df и перенесёт в него данные из файла.

‼️ Так как в Python нет процедуры объявления переменных в явном виде и типизация динамическая, помните, что метод pd.read_excel всегда возвращает фрейм данных. И любая переменная, в которую записывается результат его работы, сама становится фреймом данных.

По умолчанию метод pd.read_excel считывает данные, начиная с ячейки A1 слева направо сверху вниз. Если они расположены иначе, необходимо “навести” его на таблицу с данными:

✔️ пропустить заданное число строк перед таблицей параметром skiprows;
✔️ захватить нужные столбцы параметром usecols.

Предположим, что импортируемая таблица занимает в файле Excel ячейки C2:F6. Тогда pandas для её считывания должен перескочить одну строку и использовать столбцы C:F. Давайте ещё предположим, что в файле несколько листов, а эта таблица располагается на рабочем листе с названием “Sales” — его можно указать в параметре sheet_name. В итоге получится команда:
df = pd.read_excel(”your_excel_file.xlsx”, sheet_name=”Sales”, skiprows=1, usecols=”C:F”) 


Допустим, расчёты завершены, и хорошо бы сохранить получившуюся таблицу в файл Excel. Если ваш фрейм данных называется df, то метод df.to_excel позволит это сделать легко и быстро:
df.to_excel(”your_resulting_file.xlsx”)


Функционал pandas по работе с файлами Excel очень широк — он может производить чтение с нескольких рабочих листов за один раз, запись на несколько листов, выполнять большой спектр расчётов и строить (с помощью библиотеки Matplotlib) графики, которые не умеет строить Excel. О некоторых из этих функций мы расскажем в следующих постах. А интеграцию pandas с Excel можно подробнее изучить по книге:
📓 Зумштейн Ф. Python для Excel: Пер. с англ. — СПб.: БХВ-Петербург, 2023 – 336 с., ил.

#openbio_pandas
🔥3👍2
В предыдущем посте мы рассказывали, как наладить интеграцию pandas и Excel. В основном она рассчитана на тех пользователей, которые хранят данные и работают с ними на локальном компьютере. Но у нас есть хорошие новости для тех, кто предпочитает облачные сервисы компании Google.

22 июля этого года Google анонсировала возможность работы с Google Таблицами прямо в интерактивном блокноте Google Colab – с последующим импортом их в качестве фреймов данных pandas. Для этого надо импортировать модуль sheets из библиотеки google.colab:
from google.colab import sheets


Далее нужно создать объект InteractiveSheet() из этого модуля. Он создаётся простым упоминанием (помните, что явного объявления переменных нет?)
sh = sheets.InteractiveSheet()


При выполнении в первый раз может появиться окно запроса доступа: приложению Colaboratory Runtimes необходим доступ к вашему Google Диску. Авторизуйте его и продолжите работать.

Если у Colaboratory Runtimes уже есть все разрешения, то в следующей ячейке появится пустой интерактивный рабочий лист Google Таблиц (см. рисунок). Это и есть InteractiveSheet(). Зайдя в свой аккаунт Google Таблиц, вы увидите копию этого листа там – Colab установил связь с аккаунтом Google Таблиц и теперь может выполнять действия от имени пользователя.

Интерактивную таблицу можно заполнить данными вручную или путём копирования-вставки из другой таблицы, стандартными комбинациями клавиш.

Чтобы превратить эту таблицу во фрейм данных df, напишите в следующей ячейке кода команду:
df = sh.as_df()


‼️ Помните, что функция as_df объекта InteractiveSheet тоже всегда возвращает фрейм данных!

Проконтролировать правильность импорта можно, просто набрав в следующей ячейке кода имя фрейма данных
df

и запустив её на выполнение. Если программа не выдала ошибку, а перед вами появилась ваша же таблица, но красиво отформатированная в формате HTML – значит, всё прошло успешно.

Удачной всем работы в облаке!

#openbio_pandas
👍3🔥3🤔1
А что, собственно, делают с машинным обучением в биомедицине?

Специально не тренированному биологу или врачу иногда сложно разобраться со всеми методами машинного обучения (МО) и придумать, как применить их в работе. И это не смотря на то, что они стали неотъемлемой частью биологических и медицинских исследований. Сегодня мы расскажем, чем полезно МО и в каких сферах оно чаще применяется.
 
Главная задача МО в биомедицине – находить закономерности в данных. А основное преимущество – быстро анализировать большие объемы информации, без которых не обходится ни одна область современной науки.
 
Закономерности применяются для двух базовых задач:
🔮 Для предсказаний. На основании обнаруженных взаимосвязей элементов системы, можно предположить, как будут вести себя ее другие элементы. В медицине горячей темой является разработка предикторов в онкологии. Благодаря МО по комплексу клинических и молекулярных параметров можно предсказать риски метастазирования, трансформации опухоли или смерти.
🕵🏻‍♂️ Для получения новой информации о сложных системах. В биологии, применение кластеризации помогает выделить внутри гетерогенных систем значимые подгруппы, что имеет и фундаментальное, и прикладное значение.
 
В каких областях используется МО:
🧬 Геномика. Использует МО для обнаружения и классификации альтераций в геноме, а также для исследования структуры генома.
🧫 Протеомика. Предсказать трехмерную структуру белка на основании аминокислотной последовательности? Запросто!
🩻 Диагностика. С помощью компьютерного зрения уже анализируются медицинские изображения (например, МРТ) и срезы тканей.
💊 Разработка лекарств. Включает, например, поиск мишеней для терапии, предсказание молекулярной структуры нового препарата, оценку ответа на него и поиск биомаркеров.
 
И этот список далеко не исчерпывающий. В следующих постах мы подробно расскажем об особенностях применения методов МО в этих и других сферах. Не пропустите! 📣👀
👍4🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
В прошлых постах мы рассказали, как в pandas можно работать с электронными таблицами. Но что делать, если осваивать такой функционал сложно и страшно? Для начала можно работать с файлами CSV — в анализе данных и биоинформатике чаще всего используют их. Методы pd.read_csv и df.to_csv похожи на аналогичные методы для Excel, но имеют меньше параметров, потому что сам формат проще.

✔️ Открытие файла CSV:
df = pd.read_csv(”my_csv_file.csv”)


✔️ Сохранение фрейма данных в файл csv:
df.to_csv(”my_resulting_file.csv”)


В биоинформатике можно годами работать в pandas только с форматом CSV. Методы работы с файлами Excel пока используются относительно редко, но с распространением Python и методов data science они будут становиться всё актуальнее.

CSV может также выручить, когда используется “альтернативный” софт для электронных таблиц, в котором поддержка файлов XSLX реализована не в полной мере, например, OpenOffice/LibreOffice (а в Linux – любимой операционной системе биоинформатиков — по умолчанию используются именно они).

Формат файлов ODS не открывается в pandas без использования дополнительных библиотек (как-нибудь расскажем и о них), и сохранение в него также невозможно. Формат CSV может послужить удобным мостиком — любое приложение электронных таблиц умеет его импортировать и сохранять в него данные. Если сохранить данные в файл CSV в pandas, то затем можно его импортировать в таблицу OpenOffice Calc, сохранить её в формате ODS и продолжить работу уже в офисных программах.

📌 В одном из следующих постов мы также расскажем, как интегрировать pandas и базы данных SQL — ещё один рабочий инструмент аналитиков данных. Не переключайтесь!

#openbio_pandas
👍3🔥1
✉️ Подборка свежих вакансий для биологов и биомедиков в России и за рубежом. Везде требуются компетенции в области ML. Отправляйте резюме, пока они не ушли в архив.

🇷🇺 Старший эксперт по работе с данными в сфере маркетинга и продаж в Bayer
Сотрудник будет отвечать за ключевые аспекты цикла моделирования данных. А также заниматься разработкой и оптимизацией моделей машинного обучения в различных контекстах, в том числе данных о пациентах.

🇷🇺 Аналитик данных в Центр внедрения «Протек»
Предстоит заниматься разработкой и поддержкой моделей работы с данными в области крупной фармдистрибуции: логистика, Workforce Management, ценообразование, формирование клиентского предложения, управление ТЗ.

🇬🇪 T-shaped специалист по данным/медицина ТРТ (Грузия)
Ищут талантливого и мотивированного специалиста по медицинским данным. Что нужно делать: работать с большими языковыми моделями, применять классические методы ML к медицинским данным, а также разрабатывать и оптимизировать приложения на основе искусственного интеллекта.

🇺🇸 Штатный специалист по обработке данных в Abbott (США)
Нужен специалист, который хочет применить свои технические знания и опыт в сфере медицины и улучшить жизнь людей с диабетом. Кандидат будет отвечать за сбор, очистку, обработку и анализ больших данных.

#openbio_вакансии
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥2
Как нейронные сети ищут новое применение лекарственным препаратам? 💊👀

Начнем обсуждать применение машинного обучения (МО) в конкретных научных областях. Первая на очереди – разработка лекарственных препаратов.

Переиспользование одобренных препаратов – задача в этой области, интерес к которой с 2020 года подстегнул ускоренный поиск лечения COVID-19. Переиспользование подразумевает применение одобренных средств для лечения новых болезней, для которых препарат раньше не тестировался.

Так как тестирование безопасности и эффективности лекарств требует многомиллионных финансовых затрат, выбор соединений-кандидатов с помощью нейросетей уже используется в фарминдустрии для ускорения и удешевления доклинических исследований.

Пример применения МО для этой задачи – исследование Yella J.K. & Jegga A.G., 2022. На базе PyTorch авторы создали модель для предсказания пар “диагноз-лекарство” на основании химических структур препаратов и молекулярных основ диагнозов, полученных из 6 баз данных, и применили графовую нейронную сеть с мультиклассовой классификацией. По параметрам качества AUPR, AUROC и F1 новая модель превзошла 4 другие модели, разработанные для той же задачи.

Особенность, которая отличает модель авторов, это использование механизма внимания (attention mechanism) — технологии в машинном обучении, которая дает моделям выделять схожие связи между узлами входных данных и игнорировать другие, тем самым улучшая предсказание.

Принципы механизма внимания:
🔸При агрегации соседних узлов графа каждому элементу входных данных присваиваются веса, которые количественно отражают вклад элемента в текущее предсказание.
🔸Таким образом, механизм внимания интерпретирует контекстуальную информацию для улучшения понимания входных данных.

Благодаря многоплановому механизму внимания в этом исследовании модель сравнивает информацию не только внутри одной базы данных, как делали модели сравнения, но и между разнородными базами данных, что позволило на 20% повысить точность предсказания.

Учитывая объем разнородной информации, с которым приходится работать в биологии и медицине, такой подход предполагает повышенную надежность.
А для чего вы бы применили механизм внимания в своем исследовании?

Ссылка на исследование: Yella JK, Jegga AG. MGATRx: Discovering Drug Repositioning Candidates Using Multi-View Graph Attention. IEEE/ACM Trans Comput Biol Bioinform. 2022;19(5):2596-2604. doi:10.1109/TCBB.2021.3082466

#openbio_technology
👍4🔥1
Ключ к замку, замок к ключу: анализ антител и их мишеней с помощью машинного обучения 🧩

Продолжаем разбирать приложения машинного обучения для разработки лекарств. Сегодня поговорим о терапевтических антителах.

Антитела – белковые молекулы, синтезируемые В-клетками иммунной системы для борьбы с патогенами. Терапевтические антитела применяют для лечения болезней, в том числе рака. 
Антитела специфично связываются с антигенами благодаря коротким аминокислотным участкам, называемым паратопами, которые распознают соответствующие эпитопы – короткие участки на антигене. Структуры белков в области взаимодействия эпитопа и паратопа – критический фактор, определяющий эффективность связывания и функциональность антитела.

Знание структуры эпитопа и паратопа дает возможность отобрать антитела и антигены с потенциалом для дальнейшей разработки. Здесь в игру и вступает машинное обучение. 🦸🏻‍♂️
На примере исследования Pittala S. & Bailey-Kellogg C. (2020) рассмотрим, как для подбора эпитопов и паратопов используют графовые сверточные нейронные сети.
 
  🔹 Белок (например, антиген) представляют в виде графа: аминокислоты становятся узлами, а связи между ними – ребрами графа. 
  🔹 После этого проводится свертка графа так же, как это было бы сделано с изображением: модель поэтапно проходит по каждому узлу графа и оценивает соседние с ним узлы и связи между ними (аналогично пикселям изображения). 
  🔹 На основании того, контактирует ли данная аминокислота с антителом в результате предсказания, модель ставит вердикт – условно 1 или 0. 
  🔹 И здесь не обошлось без механизма внимания (см. предыдущий пост). Авторы новой модели добавили слой внимания, оценивающий 3D структуры белков по аннотируемым базам данных. Так, модель строит предсказание не только по аминокислотной последовательности, но и по оценке доступности аминокислот для связывания.
  🔹 В результате модель выдает последовательность аминокислот антигена, с которым свяжется антитело.

Разработка антител с помощью машинного обучения становится дешевле и быстрее классических методов определения структуры белка и уже находит путь в индустрию: в 2023 году как минимум три крупнейшие биотехнологические компании (Abbvie, Astra Zeneca и Sanofi) инвестировали сотни миллионов долларов в программы по дизайну терапевтических антител с помощью машинного обучения, а количество публикаций в этой области выросло в три раза за последние 5 лет и, вероятно, интерес продолжит расти в ближайшие годы.

Продолжаем внимательно следить за развитием области. А в следующих постах углубимся в тему сверточных нейросетей в медицине!

#openbio_technology
👍5🔥2
В data science часто используется массовое автоматизированное скачивание данных с Интернета, называемое веб-скрейпингом. Недавно Nvidia скачала с видеохостинга YouTube видеоконтент, по продолжительности эквивалентный 80 годам жизни. Помимо YouTube, пострадал также Netflix.

Обе платформы имеют технологические ограничения, блокирующие частые или неавторизованные запросы — что является распространённой практикой в борьбе с чрезмерным скрейпингом. Nvidia для обхода блокировок использовала виртуальные машины и многофункциональное приложение для скачивания видео с различных хостингов yt-dlp, работающее в интерфейсе командной строки.

Такой большой объём видеоконтента необходим компании Nvidia для обучения генератора виртуальных миров Omniverse, искусственного интеллекта беспилотных автомобилей и создания технологии digital human. Компания заявляет, что авторские права защищают только конечное произведение, а его выкопировка в составе большого массива данных для обучения искусственного интеллекта — это “добросовестное использование” (”fair use”). Но YouTube и Netflix заявили, что с “добросовестностью” использования никак не согласны. А видеоблогер Дэвид Миллетт даже подал судебный иск против компании Nvidia, обвинив её в незаконном использовании его видеоконтента. Юридическое издание Legal Dive сообщает об аналогичном судебным иске Миллетта против компании OpenAI. Она предположительно использовала видеоконтент для обучения языковых моделей.

В своём комментарии изданию Legal Dive компания Nvidia продолжает настаивать на своей невиновности:

“Мы уважаем права всех авторов контента и уверены, что работаем в полном соответствии с буквой и духом закона”


Ждем итогов судебного процесса, который может стать одним из поворотных моментов в истории этики и законодательного регулирования искусственного интеллекта, и, конечно, результатов по обучению ИИ-систем на очень больших данных тоже 🍿.
👍4🔥1
Всегда интересно, как оно, когда ты уже востребованный специалист, тебя ждут и тут, и там, и за границей, и в универе, и в компании работать зовут.

OpenBio запускает серию бесплатных вебинаров в рамках курса "Машинное обучение в биология и биомедицине" про личный путь своих экспертов.

На вебинарах вы из первых уст узнаете, как начать заниматься машинным обучением, что нужно знать, чему учиться, как попасть в крутую компанию или найти работу за границей, в общем, как выглядят примеры реальных карьерных треков и как их можно сократить.

Уже 5 сентября в 19:00 по мск мы проведем первый вебинар с Артемом Касьяновым, PhD, 13 лет в преподавании биоинформатики, алгоритмов в области популяционной генетики, транскриптомики, геномики и методах ML, Assistant Researcher в BIOPOLIS, CiBio, Portugal.

Приглашаем вас на встречу- разговор, где в неформально дружеском формате можно будет послушать опыт спикера курса и задать волнующие вопросы.

Регистрация на вебинар «Личный путь в сеньора биоинформатика»: https://clck.ru/3Cvif6


#openbio_webinar
#openbio_interview #openbio_expert
5🔥5👍4😍1
Куда сходить? 🧬📊

Подборка конференций, симпозиумов и форумов в России, посвященных искусственному интеллекту, машинному обучению, биотехнологии и биомедицине. Некоторые уже совсем скоро, не пропустите!

📈 STARTUP VILLAGE 2024
5 – 7 сентября 2024
На конференции будут представлены новости развития информационных технологий в бизнесе и индустрии, в том числе в области применения ИИ в медицине.

👨🏼‍💻 AISUMMIT – Искусственный интеллект для бизнеса
11 – 13 сентября 2024
На мероприятии собираются ведущие представители цифровой экономики, включая крупный и средний бизнес, стартапы, и научные круги. Здесь обсуждается будущее технологий ИИ, их влияние на экономику, медицину и общество.

🧬 OpenBio 2024
24 – 27 сентября 2024
OpenBio – уникальная площадка для молодых ученых и специалистов в области биомедицины, молекулярной биологии, биоинформатики и машинного обучения. Конференция включает экспертные дискуссии, круглые столы и мастер-классы, где участники смогут представить свои разработки и услышать лекции от ведущих ученых. OpenBio способствует открытому диалогу о новейших достижениях в биомедицине и применении машинного обучения в науках о жизни.

🩻 Цифроайтимед
26 сентября 2024
Саммит на базе Сеченовского университета, посвященный цифровой медицине и информационным технологиям в здравоохранении.

👾 Ai Conf 2024
26 – 27 сентября 2024
Прикладная конференция по Data Science, на которой представители топовых российских компаний, внедряющих ИИ, расскажут о новшествах и перспективах использования ИИ в индустрии.

🔬 ИТМ 2024
10 – 11 октября 2024
Конгресс по Информационным Технологиям в Медицине – крупнейшее ежегодное тематическое мероприятие в России, Восточной Европе и Средней Азии, охватывающее темы разработки и внедрения прикладных ИТ-решений, методологии практического использования передовых научных моделей и их нормативного обеспечения.

🧬 POSTGENOME 2024
29 октября – 2 ноября 2024
Международная конференция, посвященная изучению генома и протеома. Специальные секции будут посвящены биоинформатике, искусственному интеллекту в биологии, и омиксным технологиям.
1👍2🔥2
Рекомендуем канал Significo-АМГ для тех, кто хочет знать все о современной медицине, генетике и научной клинической базе.

Самые свежие новости про медицину и науку

Разборы клинических задач, правовых проблем и психологических кейсов во врачебной практике

Опросы и интервью с экспертами на актуальные темы

Даже если вы ничего не знаете про генетику, из этого канала точно почерпнете много интересного 🧐
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🔥1🤔1
Сверточная нейронная сеть (convolutional neural network, CNN) – алгоритм глубокого обучения, предназначенный для анализа визуальных данных, использующий операции свертки для извлечения признаков и выявления закономерностей в изображениях.

▫️ CNN состоит из нескольких слоев, обнаруживающих особенности входного изображения. Сложность сети варьируется от десятков до тысяч слоев, где каждый следующий слой строится на выходных данных предыдущего.
▫️ Свертка – процесс сканирования входного изображения фильтрами. Фильтр это числовая матрица, которая с заданным шагом сканирует изображение и вычисляет скалярное произведение между значениями фильтра и пикселей.
▫️ Числовые значения фильтров определяются элементами, которые данный фильтр распознает. Начальные фильтры настроены на выявление главных характеристик изображения, такие как края и углы, а следующие объединяют эти признаки для распознавания сложных паттернов.
▫️ Так как фильтры имеют меньший размер, чем изображение, размерность выдаваемой на выходе матрицы также снижается. Таким образом, сеть уменьшает пространственные размеры карт признаков.

Архитектура CNN включает три главные группы слоев:

1️⃣ Сверточный слой (convolution layer) – базовый строительный блок CNN, где происходят вычисления. Этот слой сканирует изображение набором фильтров, что преобразует изображение в набор карт признаков.

2️⃣ Слой объединения (pooling layer) дополнительно уменьшает размерность путем уменьшения количества пикселей в изображении, таким образом снижая количество параметров и вычислений и ускоряя работу модели.

3️⃣ Полностью связанные слои (fully connected layers) в конце сети соединяют каждый нейрон предыдущих слоев с каждым нейроном текущего слоя. Они принимают выходные данные из объединяющих слоев и обрабатывают их для окончательной классификации объекта на основании извлеченных признаков.

💡👩‍🎓 На нашем курсе по Машинному Обучению в Биологии и Биомедицине компьютерному зрению будет посвящен отдельный модуль, в ходе которого освоим техническую сторону анализа изображений. Присоединяйтесь!
А в следующих постах приведем примеры успешного применения CNN в клинике.

#openbio_technology #computer_vision #СNN
1👍2🤓2
Встреча с Артемом Касьяновым уже началась, мы обсуждаем карьерный трек в биоинформатики и тренды индустрии. Присоединяйтесь!
🔥2
О тренировочных датасетах для практики в компьютерном зрении 👨🏼‍💻👾

Компьютерное зрение решает серьезные медицинские задачи в области онкологии, хирургии, разработки лекарств. Но перед тем как приступить к развитию передовых технологий, важно на чем-то потренироваться. Где найти подходящий материал?

На помощь приходит база Kaggle, содержащая материалы для практики анализа данных и разработки машинного обучения.
Сегодня покажем несколько датасетов для тренировки компьютерного зрения, работая с которыми можно дополнительно отточить навыки после прохождения курса!

1️⃣ Medical MNIST
59 тысяч радиологических медицинских изображений, разделенных на 6 классов. Включает снимки брюшной и грудной полостей, груди, головы, сканы легких.

2️⃣ Bone Break Classification Image Dataset
Набор для обучения моделей, способных классифицировать переломы костей по рентгеновским снимкам. Набор данных охватывает 10 классов переломов.

3️⃣ Breast Cancer Cell Segmentation
Гистопатологические изображения тканей, окрашенных гематоксилином и эозином, которые используются для обнаружения клеток рака молочной железы.

4️⃣ Computed Tomography (CT) of the Brain
Набор данных состоит из снимков мозга с опухолью или аневризмой. Каждый скан представляет собой детальное изображение мозга пациента, полученное с помощью компьютерной томографии.

5️⃣ Chest X-ray
Насыщенный датасет, включающий изображения легких, подверженных 17 типам поражений: от переломов костей до инфекционных заболеваний.

6️⃣ CVC-ClinicDB
Набор колоноскопических снимков для обнаружения полипов. Набор содержит контрольные размеченные изображения.

7️⃣ Heart MRI Image DataSet
Библиотека из 30(!) датасетов с изображениями сердца, полученными с помощью КТ и МРТ.

8️⃣ Parasite Dataset
Набор из 34 тысяч изображений паразитов и нормальных клеток крови (эритроцитов и лейкоцитов) при увеличении в 400 или 1000 раз.

А если сегодня у вас нет настроения смотреть на фотографии опухолей и паразитов, почему бы не отвлечься на что-то более приятное? 😉

9️⃣ Pizza or Not Pizza?
Изображения пиццы и не пиццы. Теперь вам никогда не подсунут сметанник обманом.

🔟 Dog VS Cat
Любопытный факт: в 2007 году распознавание кошек и собак было капчей (Asirra CAPTCHA), позволяющей отличить настоящих пользователей сайтов от ботов. Однако в том же году модели МО смогли решить эту проблему с точностью 82%, а на соревнованиях Kaggle по МО в 2013 победитель повысил точность модели до 98.9%. С тех пор картинки кошек и собак – классический учебный материал в компьютерном зрении.

👨🏻‍🎓 Надеемся, эта подборка поможет закрепить знания, полученные на курсе!

#openbio_practice #computer_vision
🤓5👍3🤔1
📌 Приглашаем вас на вторую онлайн-встречу из серии "Личный путь в сеньора биоинформатика", 12 сентября в 19.00 по мск.

Эксперт -  Илья Воронцов,   10 лет преподает компьютерные науки, машинное обучение и анализ данных. Data-исследователь, программист,  занимается биоинформатикой в области транскрипционной регуляции в ИОГен РАН с 2011 г. Alma mater: МФТИ

Трансляции проходят в рамках курса "Машинное обучение  в биологии и биомедицине" от OpenBio, который стартует 1 октября.

На встрече будут обсуждать детали карьерного трека спикера курса, лайфхаки трудоустройства, экспертное мнение по трендам отрасли, обзор "поляны" мира ML  в биоинформатике и многое другое.

Встреча пройдет в формате разговора, где в неформально дружеском форме можно будет задать волнующие вас вопросы и подчерпнуть опыт спикеров.

Сюда вы можете написать свои вопросы, чтобы они точно попали в эфир!
Зарегистрироваться и получить приглашение на эфир можно здесь.

P.S. Тем, кто записывался на первую встречу, уже отправлена ссылка на запись в личный кабинет!

#openbio_webinar
#openbio_interview #openbio_expert
5😍3
Достижения компьютерного зрения в медицине 🩻🔍

Чтобы подытожить тему анализа изображений с помощью машинного обучения, предлагаем ознакомиться с примерами решений на основе компьютерного зрения, которые уже применяются в индустрии и клинике.

🇷🇺 Коммерческие проекты в России:

🔸 Диагностика патологии плода по УЗИ
Яндекс и Школа Анализа Данных разработали нейросеть для внутриутробной диагностики расщепления позвоночника у плода. Эта технология дает возможность выявлять патологии по УЗИ на ранних сроках, чтобы предотвратить инвалидность у новорожденных.

🔸 “Третье Мнение”
Компания предоставляет спектр ИИ сервисов для анализа изображений в радиологии, офтальмологии, стоматологии и лабораторной диагностике. Также “Третье Мнение” разрабатывает систему мониторинга пациентов для больниц, в которой ИИ визуально распознает ситуации, когда пациенту нужна помощь медперсонала.

🔸 “IRA Labs”
Продукты для исследования рентгенологических изображений ускоряют процесс анализа снимков за счет автоматического расчета сложных индексов и распознавания главных и сопутствующих патологий.

🔸 “Цельс”
“Цельс” стал первым сервисом, перешедшим к промышленной эксплуатации в области маммографии, флюорографии, КТ лёгких и мозга. Пилотные проекты по внедрению решений “Цельса” в клиническую практику проведены в 13 регионах России, в 3 регионах эти продукты используются уже сегодня.

🌎 Международный опыт:

🔸 "IDx-DR" от Healthvisors
ПО на основе компьютерного зрения, которое обнаруживает и автоматически диагностирует ранние признаки диабетической ретинопатии с помощью изображений сетчатки.

🔸 “PathAI”
Компания предлагает набор инструментов для выявления патологий на уровне ткани. Алгоритмы умеют не только классифицировать структуры, но и оценивать иммунную инфильтрацию и исследовать клинически значимые биомаркеры на срезах тканей.

🔸 Эндоскопический модуль Medtronic GI Genius
Компания предлагает решение для раннего обнаружения признаков колоректального рака. Модуль автоматически включается, когда полип оказывается в поле зрения эндоскопа, и автоматически проводит оптическую диагностику.

🔸 Создание медицинских изображений от NVIDIA
NVIDIA разработала ИИ-платформу, создающую искусственное медицинское изображение, что дает получать референсные материалы для редких болезней, где не хватает реальных снимков для тренировки диагностических моделей.

Уверены, что вы сможете применить навыки, полученные на курсе, в столь же успешных проектах! 💪🏻


#openbio_technology #openbio_case
👍5🤓1
Мы продолжаем разговор о функциях библиотеки numpy — одной из самых базовых библиотек Python, содержащей объекты и операции линейной алгебры.

Из всех операций, который можно осуществлять с использованием библиотеки numpy, отдельного внимания заслуживают операции умножения векторов и матриц. Дело в том, что большинство остальных операций над векторами и матрицами понятны интуитивно, а вот умножение вектора на вектор и матрицы на матрицу выглядит на первый взгляд неожиданно.

В то же время многие базовые понятия и методы машинного обучения требуют понимания этих операций. Без точечного умножения векторов, например, нельзя реализовать математическую операцию свёртки — и свёрточные нейросети, используемые в компьютерном зрении и даже в первой версии AlphaFold. А простейшая линейная регрессия требует матричного умножения: для двух переменных можно записать всё без него, но для множественной линейной регрессии без матриц уже не обойтись.

Конечно, обычно операции с векторами матрицами выполняются “под капотом” библиотек более высокого уровня типа pandas и sklearn. Но знание способа их реализации в numpy тоже полезно. Умение реализовать функции для машинного обучения “с нуля” пригодится для разработки своего математического аппарата (в биоинформатике это бывает нужно часто) или реализации кода на другом языке. Например, на R. Итак — умножаем векторы и матрицы в numpy!

Точечное (скалярное) произведение векторов — это произведение векторов, выраженное одним числом, показывающим связь между ними. Чтобы найти его, нужно поэлементно перемножить оба вектора и найти сумму элементов получившегося вектора.

Пример: [1 11 6 4] • [22 3 5 4] = 22 + 33 + 30 + 16 = 101

Точечное произведение векторов непосредственно используется в операции стандартного умножения матриц, которая сводится к точечному умножению строк на столбцы (строки с столбцы матрицы рассматриваются как векторы).

При стандартном умножении матриц коммутативный закон не выполняется — то есть порядок множителей имеет значение, и перемена множителей местами меняет произведение. При этом умножить друг на друга можно не любые матрицы: число столбцов в первом множителе должно быть равно число строк во втором множителе. Произведение будет представлять собой матрицу, в которой строк будет столько же, сколько в первом множителе, а столбцов — столько же, сколько во втором. При этом каждый *(i,j)*-й элемент матрицы-произведения будет представлять собой точечное произведение *i*-й строки первого множителя и *j*-го столбца второго множителя.

💡Самое интересное, что в numpy обе операции — точечное умножение векторов и стандартное умножение матриц — обеспечиваются одной функцией np.dot(a,b). Если a и b — векторы, то numpy вернёт их точечное произведение, если матрицы — то их стандартное произведение.

import numpy as np
c = np.dot(a,b)


Это имеет математический смысл: при точечном умножении векторов numpy просто рассматривает первый вектор как единственную строку матрицы, а второй — как единственный столбец другой матрицы. И получается “матрица” из 1️⃣ элемента — то есть просто скаляр, как и должно быть при точечном умножении векторов. Такой вот частный случай.

Стандартное произведение матриц позволяет “закодировать” в одной матрице все связи между всеми элементами двух матриц — множителей. Именно поэтому такая операция незаменима в статистике и машинном обучении. Например, частные случаи умножения двух матриц приводят к широко используемым в статистике ковариационным матрицам и матрицам перестановок, к которым мы ещё вернёмся в следующих постах 🔜.

А если вы дочитали этот пост до конца и ещё что-то при этом поняли — то шансы освоить машинное обучение у вас уже неплохие. Оставайтесь с нами!

Остальные части нашего введения в numpy можно найти по хэштегу #openbio_numpy
👍5🤓1
2025/07/09 14:46:47
Back to Top
HTML Embed Code: