А что, собственно, делают с машинным обучением в биомедицине?
Специально не тренированному биологу или врачу иногда сложно разобраться со всеми методами машинного обучения (МО) и придумать, как применить их в работе. И это не смотря на то, что они стали неотъемлемой частью биологических и медицинских исследований. Сегодня мы расскажем, чем полезно МО и в каких сферах оно чаще применяется.
Главная задача МО в биомедицине – находить закономерности в данных. А основное преимущество – быстро анализировать большие объемы информации, без которых не обходится ни одна область современной науки.
Закономерности применяются для двух базовых задач:
🔮 Для предсказаний. На основании обнаруженных взаимосвязей элементов системы, можно предположить, как будут вести себя ее другие элементы. В медицине горячей темой является разработка предикторов в онкологии. Благодаря МО по комплексу клинических и молекулярных параметров можно предсказать риски метастазирования, трансформации опухоли или смерти.
🕵🏻♂️ Для получения новой информации о сложных системах. В биологии, применение кластеризации помогает выделить внутри гетерогенных систем значимые подгруппы, что имеет и фундаментальное, и прикладное значение.
В каких областях используется МО:
🧬 Геномика. Использует МО для обнаружения и классификации альтераций в геноме, а также для исследования структуры генома.
🧫 Протеомика. Предсказать трехмерную структуру белка на основании аминокислотной последовательности? Запросто!
🩻 Диагностика. С помощью компьютерного зрения уже анализируются медицинские изображения (например, МРТ) и срезы тканей.
💊 Разработка лекарств. Включает, например, поиск мишеней для терапии, предсказание молекулярной структуры нового препарата, оценку ответа на него и поиск биомаркеров.
И этот список далеко не исчерпывающий. В следующих постах мы подробно расскажем об особенностях применения методов МО в этих и других сферах. Не пропустите! 📣👀
Специально не тренированному биологу или врачу иногда сложно разобраться со всеми методами машинного обучения (МО) и придумать, как применить их в работе. И это не смотря на то, что они стали неотъемлемой частью биологических и медицинских исследований. Сегодня мы расскажем, чем полезно МО и в каких сферах оно чаще применяется.
Главная задача МО в биомедицине – находить закономерности в данных. А основное преимущество – быстро анализировать большие объемы информации, без которых не обходится ни одна область современной науки.
Закономерности применяются для двух базовых задач:
🔮 Для предсказаний. На основании обнаруженных взаимосвязей элементов системы, можно предположить, как будут вести себя ее другие элементы. В медицине горячей темой является разработка предикторов в онкологии. Благодаря МО по комплексу клинических и молекулярных параметров можно предсказать риски метастазирования, трансформации опухоли или смерти.
🕵🏻♂️ Для получения новой информации о сложных системах. В биологии, применение кластеризации помогает выделить внутри гетерогенных систем значимые подгруппы, что имеет и фундаментальное, и прикладное значение.
В каких областях используется МО:
🧬 Геномика. Использует МО для обнаружения и классификации альтераций в геноме, а также для исследования структуры генома.
🧫 Протеомика. Предсказать трехмерную структуру белка на основании аминокислотной последовательности? Запросто!
🩻 Диагностика. С помощью компьютерного зрения уже анализируются медицинские изображения (например, МРТ) и срезы тканей.
💊 Разработка лекарств. Включает, например, поиск мишеней для терапии, предсказание молекулярной структуры нового препарата, оценку ответа на него и поиск биомаркеров.
И этот список далеко не исчерпывающий. В следующих постах мы подробно расскажем об особенностях применения методов МО в этих и других сферах. Не пропустите! 📣👀
👍4🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
В прошлых постах мы рассказали, как в pandas можно работать с электронными таблицами. Но что делать, если осваивать такой функционал сложно и страшно? Для начала можно работать с файлами CSV — в анализе данных и биоинформатике чаще всего используют их. Методы pd.read_csv и df.to_csv похожи на аналогичные методы для Excel, но имеют меньше параметров, потому что сам формат проще.
✔️ Открытие файла CSV:
✔️ Сохранение фрейма данных в файл csv:
В биоинформатике можно годами работать в pandas только с форматом CSV. Методы работы с файлами Excel пока используются относительно редко, но с распространением Python и методов data science они будут становиться всё актуальнее.
CSV может также выручить, когда используется “альтернативный” софт для электронных таблиц, в котором поддержка файлов XSLX реализована не в полной мере, например, OpenOffice/LibreOffice (а в Linux – любимой операционной системе биоинформатиков — по умолчанию используются именно они).
Формат файлов ODS не открывается в pandas без использования дополнительных библиотек (как-нибудь расскажем и о них), и сохранение в него также невозможно. Формат CSV может послужить удобным мостиком — любое приложение электронных таблиц умеет его импортировать и сохранять в него данные. Если сохранить данные в файл CSV в pandas, то затем можно его импортировать в таблицу OpenOffice Calc, сохранить её в формате ODS и продолжить работу уже в офисных программах.
📌 В одном из следующих постов мы также расскажем, как интегрировать pandas и базы данных SQL — ещё один рабочий инструмент аналитиков данных. Не переключайтесь!
#openbio_pandas
✔️ Открытие файла CSV:
df = pd.read_csv(”my_csv_file.csv”)
✔️ Сохранение фрейма данных в файл csv:
df.to_csv(”my_resulting_file.csv”)
В биоинформатике можно годами работать в pandas только с форматом CSV. Методы работы с файлами Excel пока используются относительно редко, но с распространением Python и методов data science они будут становиться всё актуальнее.
CSV может также выручить, когда используется “альтернативный” софт для электронных таблиц, в котором поддержка файлов XSLX реализована не в полной мере, например, OpenOffice/LibreOffice (а в Linux – любимой операционной системе биоинформатиков — по умолчанию используются именно они).
Формат файлов ODS не открывается в pandas без использования дополнительных библиотек (как-нибудь расскажем и о них), и сохранение в него также невозможно. Формат CSV может послужить удобным мостиком — любое приложение электронных таблиц умеет его импортировать и сохранять в него данные. Если сохранить данные в файл CSV в pandas, то затем можно его импортировать в таблицу OpenOffice Calc, сохранить её в формате ODS и продолжить работу уже в офисных программах.
📌 В одном из следующих постов мы также расскажем, как интегрировать pandas и базы данных SQL — ещё один рабочий инструмент аналитиков данных. Не переключайтесь!
#openbio_pandas
👍3🔥1
🇷🇺 Старший эксперт по работе с данными в сфере маркетинга и продаж в Bayer
Сотрудник будет отвечать за ключевые аспекты цикла моделирования данных. А также заниматься разработкой и оптимизацией моделей машинного обучения в различных контекстах, в том числе данных о пациентах.
🇷🇺 Аналитик данных в Центр внедрения «Протек»
Предстоит заниматься разработкой и поддержкой моделей работы с данными в области крупной фармдистрибуции: логистика, Workforce Management, ценообразование, формирование клиентского предложения, управление ТЗ.
🇬🇪 T-shaped специалист по данным/медицина ТРТ (Грузия)
Ищут талантливого и мотивированного специалиста по медицинским данным. Что нужно делать: работать с большими языковыми моделями, применять классические методы ML к медицинским данным, а также разрабатывать и оптимизировать приложения на основе искусственного интеллекта.
🇺🇸 Штатный специалист по обработке данных в Abbott (США)
Нужен специалист, который хочет применить свои технические знания и опыт в сфере медицины и улучшить жизнь людей с диабетом. Кандидат будет отвечать за сбор, очистку, обработку и анализ больших данных.
#openbio_вакансии
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥2
Как нейронные сети ищут новое применение лекарственным препаратам? 💊👀
Начнем обсуждать применение машинного обучения (МО) в конкретных научных областях. Первая на очереди – разработка лекарственных препаратов.
Переиспользование одобренных препаратов – задача в этой области, интерес к которой с 2020 года подстегнул ускоренный поиск лечения COVID-19. Переиспользование подразумевает применение одобренных средств для лечения новых болезней, для которых препарат раньше не тестировался.
Так как тестирование безопасности и эффективности лекарств требует многомиллионных финансовых затрат, выбор соединений-кандидатов с помощью нейросетей уже используется в фарминдустрии для ускорения и удешевления доклинических исследований.
Пример применения МО для этой задачи – исследование Yella J.K. & Jegga A.G., 2022. На базе PyTorch авторы создали модель для предсказания пар “диагноз-лекарство” на основании химических структур препаратов и молекулярных основ диагнозов, полученных из 6 баз данных, и применили графовую нейронную сеть с мультиклассовой классификацией. По параметрам качества AUPR, AUROC и F1 новая модель превзошла 4 другие модели, разработанные для той же задачи.
Особенность, которая отличает модель авторов, это использование механизма внимания (attention mechanism) — технологии в машинном обучении, которая дает моделям выделять схожие связи между узлами входных данных и игнорировать другие, тем самым улучшая предсказание.
Принципы механизма внимания:
🔸При агрегации соседних узлов графа каждому элементу входных данных присваиваются веса, которые количественно отражают вклад элемента в текущее предсказание.
🔸Таким образом, механизм внимания интерпретирует контекстуальную информацию для улучшения понимания входных данных.
Благодаря многоплановому механизму внимания в этом исследовании модель сравнивает информацию не только внутри одной базы данных, как делали модели сравнения, но и между разнородными базами данных, что позволило на 20% повысить точность предсказания.
Учитывая объем разнородной информации, с которым приходится работать в биологии и медицине, такой подход предполагает повышенную надежность.
А для чего вы бы применили механизм внимания в своем исследовании?
Ссылка на исследование: Yella JK, Jegga AG. MGATRx: Discovering Drug Repositioning Candidates Using Multi-View Graph Attention. IEEE/ACM Trans Comput Biol Bioinform. 2022;19(5):2596-2604. doi:10.1109/TCBB.2021.3082466
#openbio_technology
Начнем обсуждать применение машинного обучения (МО) в конкретных научных областях. Первая на очереди – разработка лекарственных препаратов.
Переиспользование одобренных препаратов – задача в этой области, интерес к которой с 2020 года подстегнул ускоренный поиск лечения COVID-19. Переиспользование подразумевает применение одобренных средств для лечения новых болезней, для которых препарат раньше не тестировался.
Так как тестирование безопасности и эффективности лекарств требует многомиллионных финансовых затрат, выбор соединений-кандидатов с помощью нейросетей уже используется в фарминдустрии для ускорения и удешевления доклинических исследований.
Пример применения МО для этой задачи – исследование Yella J.K. & Jegga A.G., 2022. На базе PyTorch авторы создали модель для предсказания пар “диагноз-лекарство” на основании химических структур препаратов и молекулярных основ диагнозов, полученных из 6 баз данных, и применили графовую нейронную сеть с мультиклассовой классификацией. По параметрам качества AUPR, AUROC и F1 новая модель превзошла 4 другие модели, разработанные для той же задачи.
Особенность, которая отличает модель авторов, это использование механизма внимания (attention mechanism) — технологии в машинном обучении, которая дает моделям выделять схожие связи между узлами входных данных и игнорировать другие, тем самым улучшая предсказание.
Принципы механизма внимания:
🔸При агрегации соседних узлов графа каждому элементу входных данных присваиваются веса, которые количественно отражают вклад элемента в текущее предсказание.
🔸Таким образом, механизм внимания интерпретирует контекстуальную информацию для улучшения понимания входных данных.
Благодаря многоплановому механизму внимания в этом исследовании модель сравнивает информацию не только внутри одной базы данных, как делали модели сравнения, но и между разнородными базами данных, что позволило на 20% повысить точность предсказания.
Учитывая объем разнородной информации, с которым приходится работать в биологии и медицине, такой подход предполагает повышенную надежность.
А для чего вы бы применили механизм внимания в своем исследовании?
Ссылка на исследование: Yella JK, Jegga AG. MGATRx: Discovering Drug Repositioning Candidates Using Multi-View Graph Attention. IEEE/ACM Trans Comput Biol Bioinform. 2022;19(5):2596-2604. doi:10.1109/TCBB.2021.3082466
#openbio_technology
👍4🔥1
Ключ к замку, замок к ключу: анализ антител и их мишеней с помощью машинного обучения 🧩
Продолжаем разбирать приложения машинного обучения для разработки лекарств. Сегодня поговорим о терапевтических антителах.
Антитела – белковые молекулы, синтезируемые В-клетками иммунной системы для борьбы с патогенами. Терапевтические антитела применяют для лечения болезней, в том числе рака.
Антитела специфично связываются с антигенами благодаря коротким аминокислотным участкам, называемым паратопами, которые распознают соответствующие эпитопы – короткие участки на антигене. Структуры белков в области взаимодействия эпитопа и паратопа – критический фактор, определяющий эффективность связывания и функциональность антитела.
Знание структуры эпитопа и паратопа дает возможность отобрать антитела и антигены с потенциалом для дальнейшей разработки. Здесь в игру и вступает машинное обучение. 🦸🏻♂️
На примере исследования Pittala S. & Bailey-Kellogg C. (2020) рассмотрим, как для подбора эпитопов и паратопов используют графовые сверточные нейронные сети.
🔹 Белок (например, антиген) представляют в виде графа: аминокислоты становятся узлами, а связи между ними – ребрами графа.
🔹 После этого проводится свертка графа так же, как это было бы сделано с изображением: модель поэтапно проходит по каждому узлу графа и оценивает соседние с ним узлы и связи между ними (аналогично пикселям изображения).
🔹 На основании того, контактирует ли данная аминокислота с антителом в результате предсказания, модель ставит вердикт – условно 1 или 0.
🔹 И здесь не обошлось без механизма внимания (см. предыдущий пост). Авторы новой модели добавили слой внимания, оценивающий 3D структуры белков по аннотируемым базам данных. Так, модель строит предсказание не только по аминокислотной последовательности, но и по оценке доступности аминокислот для связывания.
🔹 В результате модель выдает последовательность аминокислот антигена, с которым свяжется антитело.
Разработка антител с помощью машинного обучения становится дешевле и быстрее классических методов определения структуры белка и уже находит путь в индустрию: в 2023 году как минимум три крупнейшие биотехнологические компании (Abbvie, Astra Zeneca и Sanofi) инвестировали сотни миллионов долларов в программы по дизайну терапевтических антител с помощью машинного обучения, а количество публикаций в этой области выросло в три раза за последние 5 лет и, вероятно, интерес продолжит расти в ближайшие годы.
Продолжаем внимательно следить за развитием области. А в следующих постах углубимся в тему сверточных нейросетей в медицине!
#openbio_technology
Продолжаем разбирать приложения машинного обучения для разработки лекарств. Сегодня поговорим о терапевтических антителах.
Антитела – белковые молекулы, синтезируемые В-клетками иммунной системы для борьбы с патогенами. Терапевтические антитела применяют для лечения болезней, в том числе рака.
Антитела специфично связываются с антигенами благодаря коротким аминокислотным участкам, называемым паратопами, которые распознают соответствующие эпитопы – короткие участки на антигене. Структуры белков в области взаимодействия эпитопа и паратопа – критический фактор, определяющий эффективность связывания и функциональность антитела.
Знание структуры эпитопа и паратопа дает возможность отобрать антитела и антигены с потенциалом для дальнейшей разработки. Здесь в игру и вступает машинное обучение. 🦸🏻♂️
На примере исследования Pittala S. & Bailey-Kellogg C. (2020) рассмотрим, как для подбора эпитопов и паратопов используют графовые сверточные нейронные сети.
🔹 Белок (например, антиген) представляют в виде графа: аминокислоты становятся узлами, а связи между ними – ребрами графа.
🔹 После этого проводится свертка графа так же, как это было бы сделано с изображением: модель поэтапно проходит по каждому узлу графа и оценивает соседние с ним узлы и связи между ними (аналогично пикселям изображения).
🔹 На основании того, контактирует ли данная аминокислота с антителом в результате предсказания, модель ставит вердикт – условно 1 или 0.
🔹 И здесь не обошлось без механизма внимания (см. предыдущий пост). Авторы новой модели добавили слой внимания, оценивающий 3D структуры белков по аннотируемым базам данных. Так, модель строит предсказание не только по аминокислотной последовательности, но и по оценке доступности аминокислот для связывания.
🔹 В результате модель выдает последовательность аминокислот антигена, с которым свяжется антитело.
Разработка антител с помощью машинного обучения становится дешевле и быстрее классических методов определения структуры белка и уже находит путь в индустрию: в 2023 году как минимум три крупнейшие биотехнологические компании (Abbvie, Astra Zeneca и Sanofi) инвестировали сотни миллионов долларов в программы по дизайну терапевтических антител с помощью машинного обучения, а количество публикаций в этой области выросло в три раза за последние 5 лет и, вероятно, интерес продолжит расти в ближайшие годы.
Продолжаем внимательно следить за развитием области. А в следующих постах углубимся в тему сверточных нейросетей в медицине!
#openbio_technology
👍5🔥2
В data science часто используется массовое автоматизированное скачивание данных с Интернета, называемое веб-скрейпингом. Недавно Nvidia скачала с видеохостинга YouTube видеоконтент, по продолжительности эквивалентный 80 годам жизни. Помимо YouTube, пострадал также Netflix.
Обе платформы имеют технологические ограничения, блокирующие частые или неавторизованные запросы — что является распространённой практикой в борьбе с чрезмерным скрейпингом. Nvidia для обхода блокировок использовала виртуальные машины и многофункциональное приложение для скачивания видео с различных хостингов yt-dlp, работающее в интерфейсе командной строки.
Такой большой объём видеоконтента необходим компании Nvidia для обучения генератора виртуальных миров Omniverse, искусственного интеллекта беспилотных автомобилей и создания технологии digital human. Компания заявляет, что авторские права защищают только конечное произведение, а его выкопировка в составе большого массива данных для обучения искусственного интеллекта — это “добросовестное использование” (”fair use”). Но YouTube и Netflix заявили, что с “добросовестностью” использования никак не согласны. А видеоблогер Дэвид Миллетт даже подал судебный иск против компании Nvidia, обвинив её в незаконном использовании его видеоконтента. Юридическое издание Legal Dive сообщает об аналогичном судебным иске Миллетта против компании OpenAI. Она предположительно использовала видеоконтент для обучения языковых моделей.
В своём комментарии изданию Legal Dive компания Nvidia продолжает настаивать на своей невиновности:
“Мы уважаем права всех авторов контента и уверены, что работаем в полном соответствии с буквой и духом закона”
Ждем итогов судебного процесса, который может стать одним из поворотных моментов в истории этики и законодательного регулирования искусственного интеллекта, и, конечно, результатов по обучению ИИ-систем на очень больших данных тоже 🍿.
Обе платформы имеют технологические ограничения, блокирующие частые или неавторизованные запросы — что является распространённой практикой в борьбе с чрезмерным скрейпингом. Nvidia для обхода блокировок использовала виртуальные машины и многофункциональное приложение для скачивания видео с различных хостингов yt-dlp, работающее в интерфейсе командной строки.
Такой большой объём видеоконтента необходим компании Nvidia для обучения генератора виртуальных миров Omniverse, искусственного интеллекта беспилотных автомобилей и создания технологии digital human. Компания заявляет, что авторские права защищают только конечное произведение, а его выкопировка в составе большого массива данных для обучения искусственного интеллекта — это “добросовестное использование” (”fair use”). Но YouTube и Netflix заявили, что с “добросовестностью” использования никак не согласны. А видеоблогер Дэвид Миллетт даже подал судебный иск против компании Nvidia, обвинив её в незаконном использовании его видеоконтента. Юридическое издание Legal Dive сообщает об аналогичном судебным иске Миллетта против компании OpenAI. Она предположительно использовала видеоконтент для обучения языковых моделей.
В своём комментарии изданию Legal Dive компания Nvidia продолжает настаивать на своей невиновности:
“Мы уважаем права всех авторов контента и уверены, что работаем в полном соответствии с буквой и духом закона”
Ждем итогов судебного процесса, который может стать одним из поворотных моментов в истории этики и законодательного регулирования искусственного интеллекта, и, конечно, результатов по обучению ИИ-систем на очень больших данных тоже 🍿.
👍4🔥1
Всегда интересно, как оно, когда ты уже востребованный специалист, тебя ждут и тут, и там, и за границей, и в универе, и в компании работать зовут.
OpenBio запускает серию бесплатных вебинаров в рамках курса "Машинное обучение в биология и биомедицине" про личный путь своих экспертов.
На вебинарах вы из первых уст узнаете, как начать заниматься машинным обучением, что нужно знать, чему учиться, как попасть в крутую компанию или найти работу за границей, в общем, как выглядят примеры реальных карьерных треков и как их можно сократить.
Уже 5 сентября в 19:00 по мск мы проведем первый вебинар с Артемом Касьяновым, PhD, 13 лет в преподавании биоинформатики, алгоритмов в области популяционной генетики, транскриптомики, геномики и методах ML, Assistant Researcher в BIOPOLIS, CiBio, Portugal.
Приглашаем вас на встречу- разговор, где в неформально дружеском формате можно будет послушать опыт спикера курса и задать волнующие вопросы.
Регистрация на вебинар «Личный путь в сеньора биоинформатика»: https://clck.ru/3Cvif6
#openbio_webinar
#openbio_interview #openbio_expert
OpenBio запускает серию бесплатных вебинаров в рамках курса "Машинное обучение в биология и биомедицине" про личный путь своих экспертов.
На вебинарах вы из первых уст узнаете, как начать заниматься машинным обучением, что нужно знать, чему учиться, как попасть в крутую компанию или найти работу за границей, в общем, как выглядят примеры реальных карьерных треков и как их можно сократить.
Уже 5 сентября в 19:00 по мск мы проведем первый вебинар с Артемом Касьяновым, PhD, 13 лет в преподавании биоинформатики, алгоритмов в области популяционной генетики, транскриптомики, геномики и методах ML, Assistant Researcher в BIOPOLIS, CiBio, Portugal.
Приглашаем вас на встречу- разговор, где в неформально дружеском формате можно будет послушать опыт спикера курса и задать волнующие вопросы.
Регистрация на вебинар «Личный путь в сеньора биоинформатика»: https://clck.ru/3Cvif6
#openbio_webinar
#openbio_interview #openbio_expert
5🔥5👍4😍1
Куда сходить? 🧬📊
Подборка конференций, симпозиумов и форумов в России, посвященных искусственному интеллекту, машинному обучению, биотехнологии и биомедицине. Некоторые уже совсем скоро, не пропустите!
📈 STARTUP VILLAGE 2024
5 – 7 сентября 2024
На конференции будут представлены новости развития информационных технологий в бизнесе и индустрии, в том числе в области применения ИИ в медицине.
👨🏼💻 AISUMMIT – Искусственный интеллект для бизнеса
11 – 13 сентября 2024
На мероприятии собираются ведущие представители цифровой экономики, включая крупный и средний бизнес, стартапы, и научные круги. Здесь обсуждается будущее технологий ИИ, их влияние на экономику, медицину и общество.
🧬 OpenBio 2024
24 – 27 сентября 2024
OpenBio – уникальная площадка для молодых ученых и специалистов в области биомедицины, молекулярной биологии, биоинформатики и машинного обучения. Конференция включает экспертные дискуссии, круглые столы и мастер-классы, где участники смогут представить свои разработки и услышать лекции от ведущих ученых. OpenBio способствует открытому диалогу о новейших достижениях в биомедицине и применении машинного обучения в науках о жизни.
🩻 Цифроайтимед
26 сентября 2024
Саммит на базе Сеченовского университета, посвященный цифровой медицине и информационным технологиям в здравоохранении.
👾 Ai Conf 2024
26 – 27 сентября 2024
Прикладная конференция по Data Science, на которой представители топовых российских компаний, внедряющих ИИ, расскажут о новшествах и перспективах использования ИИ в индустрии.
🔬 ИТМ 2024
10 – 11 октября 2024
Конгресс по Информационным Технологиям в Медицине – крупнейшее ежегодное тематическое мероприятие в России, Восточной Европе и Средней Азии, охватывающее темы разработки и внедрения прикладных ИТ-решений, методологии практического использования передовых научных моделей и их нормативного обеспечения.
🧬 POSTGENOME 2024
29 октября – 2 ноября 2024
Международная конференция, посвященная изучению генома и протеома. Специальные секции будут посвящены биоинформатике, искусственному интеллекту в биологии, и омиксным технологиям.
Подборка конференций, симпозиумов и форумов в России, посвященных искусственному интеллекту, машинному обучению, биотехнологии и биомедицине. Некоторые уже совсем скоро, не пропустите!
📈 STARTUP VILLAGE 2024
5 – 7 сентября 2024
На конференции будут представлены новости развития информационных технологий в бизнесе и индустрии, в том числе в области применения ИИ в медицине.
👨🏼💻 AISUMMIT – Искусственный интеллект для бизнеса
11 – 13 сентября 2024
На мероприятии собираются ведущие представители цифровой экономики, включая крупный и средний бизнес, стартапы, и научные круги. Здесь обсуждается будущее технологий ИИ, их влияние на экономику, медицину и общество.
🧬 OpenBio 2024
24 – 27 сентября 2024
OpenBio – уникальная площадка для молодых ученых и специалистов в области биомедицины, молекулярной биологии, биоинформатики и машинного обучения. Конференция включает экспертные дискуссии, круглые столы и мастер-классы, где участники смогут представить свои разработки и услышать лекции от ведущих ученых. OpenBio способствует открытому диалогу о новейших достижениях в биомедицине и применении машинного обучения в науках о жизни.
🩻 Цифроайтимед
26 сентября 2024
Саммит на базе Сеченовского университета, посвященный цифровой медицине и информационным технологиям в здравоохранении.
👾 Ai Conf 2024
26 – 27 сентября 2024
Прикладная конференция по Data Science, на которой представители топовых российских компаний, внедряющих ИИ, расскажут о новшествах и перспективах использования ИИ в индустрии.
🔬 ИТМ 2024
10 – 11 октября 2024
Конгресс по Информационным Технологиям в Медицине – крупнейшее ежегодное тематическое мероприятие в России, Восточной Европе и Средней Азии, охватывающее темы разработки и внедрения прикладных ИТ-решений, методологии практического использования передовых научных моделей и их нормативного обеспечения.
🧬 POSTGENOME 2024
29 октября – 2 ноября 2024
Международная конференция, посвященная изучению генома и протеома. Специальные секции будут посвящены биоинформатике, искусственному интеллекту в биологии, и омиксным технологиям.
1👍2🔥2
Рекомендуем канал Significo-АМГ для тех, кто хочет знать все о современной медицине, генетике и научной клинической базе.
✅ Самые свежие новости про медицину и науку
✅ Разборы клинических задач, правовых проблем и психологических кейсов во врачебной практике
✅ Опросы и интервью с экспертами на актуальные темы
Даже если вы ничего не знаете про генетику, из этого канала точно почерпнете много интересного🧐
Даже если вы ничего не знаете про генетику, из этого канала точно почерпнете много интересного
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Significo-АМГ
О генетике и не только:
⚡️Клинические и юридические кейсы
⚡️Научно-практические мероприятия для врачей
⚡️Медицинские новости
⚡️Клинические рекомендации – из первых рук
Сотрудничество, обратная связь, предложить кейс для разбора: @significo_feedback_bot
⚡️Клинические и юридические кейсы
⚡️Научно-практические мероприятия для врачей
⚡️Медицинские новости
⚡️Клинические рекомендации – из первых рук
Сотрудничество, обратная связь, предложить кейс для разбора: @significo_feedback_bot
👍2🔥1🤔1
Сверточная нейронная сеть (convolutional neural network, CNN) – алгоритм глубокого обучения, предназначенный для анализа визуальных данных, использующий операции свертки для извлечения признаков и выявления закономерностей в изображениях.
▫️ CNN состоит из нескольких слоев, обнаруживающих особенности входного изображения. Сложность сети варьируется от десятков до тысяч слоев, где каждый следующий слой строится на выходных данных предыдущего.
▫️ Свертка – процесс сканирования входного изображения фильтрами. Фильтр это числовая матрица, которая с заданным шагом сканирует изображение и вычисляет скалярное произведение между значениями фильтра и пикселей.
▫️ Числовые значения фильтров определяются элементами, которые данный фильтр распознает. Начальные фильтры настроены на выявление главных характеристик изображения, такие как края и углы, а следующие объединяют эти признаки для распознавания сложных паттернов.
▫️ Так как фильтры имеют меньший размер, чем изображение, размерность выдаваемой на выходе матрицы также снижается. Таким образом, сеть уменьшает пространственные размеры карт признаков.
Архитектура CNN включает три главные группы слоев:
1️⃣ Сверточный слой (convolution layer) – базовый строительный блок CNN, где происходят вычисления. Этот слой сканирует изображение набором фильтров, что преобразует изображение в набор карт признаков.
2️⃣ Слой объединения (pooling layer) дополнительно уменьшает размерность путем уменьшения количества пикселей в изображении, таким образом снижая количество параметров и вычислений и ускоряя работу модели.
3️⃣ Полностью связанные слои (fully connected layers) в конце сети соединяют каждый нейрон предыдущих слоев с каждым нейроном текущего слоя. Они принимают выходные данные из объединяющих слоев и обрабатывают их для окончательной классификации объекта на основании извлеченных признаков.
💡👩🎓 На нашем курсе по Машинному Обучению в Биологии и Биомедицине компьютерному зрению будет посвящен отдельный модуль, в ходе которого освоим техническую сторону анализа изображений. Присоединяйтесь!
А в следующих постах приведем примеры успешного применения CNN в клинике.
#openbio_technology #computer_vision #СNN
▫️ CNN состоит из нескольких слоев, обнаруживающих особенности входного изображения. Сложность сети варьируется от десятков до тысяч слоев, где каждый следующий слой строится на выходных данных предыдущего.
▫️ Свертка – процесс сканирования входного изображения фильтрами. Фильтр это числовая матрица, которая с заданным шагом сканирует изображение и вычисляет скалярное произведение между значениями фильтра и пикселей.
▫️ Числовые значения фильтров определяются элементами, которые данный фильтр распознает. Начальные фильтры настроены на выявление главных характеристик изображения, такие как края и углы, а следующие объединяют эти признаки для распознавания сложных паттернов.
▫️ Так как фильтры имеют меньший размер, чем изображение, размерность выдаваемой на выходе матрицы также снижается. Таким образом, сеть уменьшает пространственные размеры карт признаков.
Архитектура CNN включает три главные группы слоев:
1️⃣ Сверточный слой (convolution layer) – базовый строительный блок CNN, где происходят вычисления. Этот слой сканирует изображение набором фильтров, что преобразует изображение в набор карт признаков.
2️⃣ Слой объединения (pooling layer) дополнительно уменьшает размерность путем уменьшения количества пикселей в изображении, таким образом снижая количество параметров и вычислений и ускоряя работу модели.
3️⃣ Полностью связанные слои (fully connected layers) в конце сети соединяют каждый нейрон предыдущих слоев с каждым нейроном текущего слоя. Они принимают выходные данные из объединяющих слоев и обрабатывают их для окончательной классификации объекта на основании извлеченных признаков.
💡👩🎓 На нашем курсе по Машинному Обучению в Биологии и Биомедицине компьютерному зрению будет посвящен отдельный модуль, в ходе которого освоим техническую сторону анализа изображений. Присоединяйтесь!
А в следующих постах приведем примеры успешного применения CNN в клинике.
#openbio_technology #computer_vision #СNN
1👍2🤓2
Встреча с Артемом Касьяновым уже началась, мы обсуждаем карьерный трек в биоинформатики и тренды индустрии. Присоединяйтесь!
🔥2
О тренировочных датасетах для практики в компьютерном зрении 👨🏼💻👾
Компьютерное зрение решает серьезные медицинские задачи в области онкологии, хирургии, разработки лекарств. Но перед тем как приступить к развитию передовых технологий, важно на чем-то потренироваться. Где найти подходящий материал?
На помощь приходит база Kaggle, содержащая материалы для практики анализа данных и разработки машинного обучения.
Сегодня покажем несколько датасетов для тренировки компьютерного зрения, работая с которыми можно дополнительно отточить навыки после прохождения курса!
1️⃣ Medical MNIST
59 тысяч радиологических медицинских изображений, разделенных на 6 классов. Включает снимки брюшной и грудной полостей, груди, головы, сканы легких.
2️⃣ Bone Break Classification Image Dataset
Набор для обучения моделей, способных классифицировать переломы костей по рентгеновским снимкам. Набор данных охватывает 10 классов переломов.
3️⃣ Breast Cancer Cell Segmentation
Гистопатологические изображения тканей, окрашенных гематоксилином и эозином, которые используются для обнаружения клеток рака молочной железы.
4️⃣ Computed Tomography (CT) of the Brain
Набор данных состоит из снимков мозга с опухолью или аневризмой. Каждый скан представляет собой детальное изображение мозга пациента, полученное с помощью компьютерной томографии.
5️⃣ Chest X-ray
Насыщенный датасет, включающий изображения легких, подверженных 17 типам поражений: от переломов костей до инфекционных заболеваний.
6️⃣ CVC-ClinicDB
Набор колоноскопических снимков для обнаружения полипов. Набор содержит контрольные размеченные изображения.
7️⃣ Heart MRI Image DataSet
Библиотека из 30(!) датасетов с изображениями сердца, полученными с помощью КТ и МРТ.
8️⃣ Parasite Dataset
Набор из 34 тысяч изображений паразитов и нормальных клеток крови (эритроцитов и лейкоцитов) при увеличении в 400 или 1000 раз.
А если сегодня у вас нет настроения смотреть на фотографии опухолей и паразитов, почему бы не отвлечься на что-то более приятное? 😉
9️⃣ Pizza or Not Pizza?
Изображения пиццы и не пиццы. Теперь вам никогда не подсунут сметанник обманом.
🔟 Dog VS Cat
Любопытный факт: в 2007 году распознавание кошек и собак было капчей (Asirra CAPTCHA), позволяющей отличить настоящих пользователей сайтов от ботов. Однако в том же году модели МО смогли решить эту проблему с точностью 82%, а на соревнованиях Kaggle по МО в 2013 победитель повысил точность модели до 98.9%. С тех пор картинки кошек и собак – классический учебный материал в компьютерном зрении.
👨🏻🎓 Надеемся, эта подборка поможет закрепить знания, полученные на курсе!
#openbio_practice #computer_vision
Компьютерное зрение решает серьезные медицинские задачи в области онкологии, хирургии, разработки лекарств. Но перед тем как приступить к развитию передовых технологий, важно на чем-то потренироваться. Где найти подходящий материал?
На помощь приходит база Kaggle, содержащая материалы для практики анализа данных и разработки машинного обучения.
Сегодня покажем несколько датасетов для тренировки компьютерного зрения, работая с которыми можно дополнительно отточить навыки после прохождения курса!
1️⃣ Medical MNIST
59 тысяч радиологических медицинских изображений, разделенных на 6 классов. Включает снимки брюшной и грудной полостей, груди, головы, сканы легких.
2️⃣ Bone Break Classification Image Dataset
Набор для обучения моделей, способных классифицировать переломы костей по рентгеновским снимкам. Набор данных охватывает 10 классов переломов.
3️⃣ Breast Cancer Cell Segmentation
Гистопатологические изображения тканей, окрашенных гематоксилином и эозином, которые используются для обнаружения клеток рака молочной железы.
4️⃣ Computed Tomography (CT) of the Brain
Набор данных состоит из снимков мозга с опухолью или аневризмой. Каждый скан представляет собой детальное изображение мозга пациента, полученное с помощью компьютерной томографии.
5️⃣ Chest X-ray
Насыщенный датасет, включающий изображения легких, подверженных 17 типам поражений: от переломов костей до инфекционных заболеваний.
6️⃣ CVC-ClinicDB
Набор колоноскопических снимков для обнаружения полипов. Набор содержит контрольные размеченные изображения.
7️⃣ Heart MRI Image DataSet
Библиотека из 30(!) датасетов с изображениями сердца, полученными с помощью КТ и МРТ.
8️⃣ Parasite Dataset
Набор из 34 тысяч изображений паразитов и нормальных клеток крови (эритроцитов и лейкоцитов) при увеличении в 400 или 1000 раз.
А если сегодня у вас нет настроения смотреть на фотографии опухолей и паразитов, почему бы не отвлечься на что-то более приятное? 😉
9️⃣ Pizza or Not Pizza?
Изображения пиццы и не пиццы. Теперь вам никогда не подсунут сметанник обманом.
🔟 Dog VS Cat
Любопытный факт: в 2007 году распознавание кошек и собак было капчей (Asirra CAPTCHA), позволяющей отличить настоящих пользователей сайтов от ботов. Однако в том же году модели МО смогли решить эту проблему с точностью 82%, а на соревнованиях Kaggle по МО в 2013 победитель повысил точность модели до 98.9%. С тех пор картинки кошек и собак – классический учебный материал в компьютерном зрении.
👨🏻🎓 Надеемся, эта подборка поможет закрепить знания, полученные на курсе!
#openbio_practice #computer_vision
🤓5👍3🤔1
📌 Приглашаем вас на вторую онлайн-встречу из серии "Личный путь в сеньора биоинформатика", 12 сентября в 19.00 по мск.
Эксперт - Илья Воронцов, 10 лет преподает компьютерные науки, машинное обучение и анализ данных. Data-исследователь, программист, занимается биоинформатикой в области транскрипционной регуляции в ИОГен РАН с 2011 г. Alma mater: МФТИ
Трансляции проходят в рамках курса "Машинное обучение в биологии и биомедицине" от OpenBio, который стартует 1 октября.
На встрече будут обсуждать детали карьерного трека спикера курса, лайфхаки трудоустройства, экспертное мнение по трендам отрасли, обзор "поляны" мира ML в биоинформатике и многое другое.
Встреча пройдет в формате разговора, где в неформально дружеском форме можно будет задать волнующие вас вопросы и подчерпнуть опыт спикеров.
Сюда вы можете написать свои вопросы, чтобы они точно попали в эфир!
Зарегистрироваться и получить приглашение на эфир можно здесь.
P.S. Тем, кто записывался на первую встречу, уже отправлена ссылка на запись в личный кабинет!
#openbio_webinar
#openbio_interview #openbio_expert
Эксперт - Илья Воронцов, 10 лет преподает компьютерные науки, машинное обучение и анализ данных. Data-исследователь, программист, занимается биоинформатикой в области транскрипционной регуляции в ИОГен РАН с 2011 г. Alma mater: МФТИ
Трансляции проходят в рамках курса "Машинное обучение в биологии и биомедицине" от OpenBio, который стартует 1 октября.
На встрече будут обсуждать детали карьерного трека спикера курса, лайфхаки трудоустройства, экспертное мнение по трендам отрасли, обзор "поляны" мира ML в биоинформатике и многое другое.
Встреча пройдет в формате разговора, где в неформально дружеском форме можно будет задать волнующие вас вопросы и подчерпнуть опыт спикеров.
Сюда вы можете написать свои вопросы, чтобы они точно попали в эфир!
Зарегистрироваться и получить приглашение на эфир можно здесь.
P.S. Тем, кто записывался на первую встречу, уже отправлена ссылка на запись в личный кабинет!
#openbio_webinar
#openbio_interview #openbio_expert
5😍3
Достижения компьютерного зрения в медицине 🩻🔍
Чтобы подытожить тему анализа изображений с помощью машинного обучения, предлагаем ознакомиться с примерами решений на основе компьютерного зрения, которые уже применяются в индустрии и клинике.
🇷🇺 Коммерческие проекты в России:
🔸 Диагностика патологии плода по УЗИ
Яндекс и Школа Анализа Данных разработали нейросеть для внутриутробной диагностики расщепления позвоночника у плода. Эта технология дает возможность выявлять патологии по УЗИ на ранних сроках, чтобы предотвратить инвалидность у новорожденных.
🔸 “Третье Мнение”
Компания предоставляет спектр ИИ сервисов для анализа изображений в радиологии, офтальмологии, стоматологии и лабораторной диагностике. Также “Третье Мнение” разрабатывает систему мониторинга пациентов для больниц, в которой ИИ визуально распознает ситуации, когда пациенту нужна помощь медперсонала.
🔸 “IRA Labs”
Продукты для исследования рентгенологических изображений ускоряют процесс анализа снимков за счет автоматического расчета сложных индексов и распознавания главных и сопутствующих патологий.
🔸 “Цельс”
“Цельс” стал первым сервисом, перешедшим к промышленной эксплуатации в области маммографии, флюорографии, КТ лёгких и мозга. Пилотные проекты по внедрению решений “Цельса” в клиническую практику проведены в 13 регионах России, в 3 регионах эти продукты используются уже сегодня.
🌎 Международный опыт:
🔸 "IDx-DR" от Healthvisors
ПО на основе компьютерного зрения, которое обнаруживает и автоматически диагностирует ранние признаки диабетической ретинопатии с помощью изображений сетчатки.
🔸 “PathAI”
Компания предлагает набор инструментов для выявления патологий на уровне ткани. Алгоритмы умеют не только классифицировать структуры, но и оценивать иммунную инфильтрацию и исследовать клинически значимые биомаркеры на срезах тканей.
🔸 Эндоскопический модуль Medtronic GI Genius™
Компания предлагает решение для раннего обнаружения признаков колоректального рака. Модуль автоматически включается, когда полип оказывается в поле зрения эндоскопа, и автоматически проводит оптическую диагностику.
🔸 Создание медицинских изображений от NVIDIA
NVIDIA разработала ИИ-платформу, создающую искусственное медицинское изображение, что дает получать референсные материалы для редких болезней, где не хватает реальных снимков для тренировки диагностических моделей.
Уверены, что вы сможете применить навыки, полученные на курсе, в столь же успешных проектах! 💪🏻
#openbio_technology #openbio_case
Чтобы подытожить тему анализа изображений с помощью машинного обучения, предлагаем ознакомиться с примерами решений на основе компьютерного зрения, которые уже применяются в индустрии и клинике.
🇷🇺 Коммерческие проекты в России:
🔸 Диагностика патологии плода по УЗИ
Яндекс и Школа Анализа Данных разработали нейросеть для внутриутробной диагностики расщепления позвоночника у плода. Эта технология дает возможность выявлять патологии по УЗИ на ранних сроках, чтобы предотвратить инвалидность у новорожденных.
🔸 “Третье Мнение”
Компания предоставляет спектр ИИ сервисов для анализа изображений в радиологии, офтальмологии, стоматологии и лабораторной диагностике. Также “Третье Мнение” разрабатывает систему мониторинга пациентов для больниц, в которой ИИ визуально распознает ситуации, когда пациенту нужна помощь медперсонала.
🔸 “IRA Labs”
Продукты для исследования рентгенологических изображений ускоряют процесс анализа снимков за счет автоматического расчета сложных индексов и распознавания главных и сопутствующих патологий.
🔸 “Цельс”
“Цельс” стал первым сервисом, перешедшим к промышленной эксплуатации в области маммографии, флюорографии, КТ лёгких и мозга. Пилотные проекты по внедрению решений “Цельса” в клиническую практику проведены в 13 регионах России, в 3 регионах эти продукты используются уже сегодня.
🌎 Международный опыт:
🔸 "IDx-DR" от Healthvisors
ПО на основе компьютерного зрения, которое обнаруживает и автоматически диагностирует ранние признаки диабетической ретинопатии с помощью изображений сетчатки.
🔸 “PathAI”
Компания предлагает набор инструментов для выявления патологий на уровне ткани. Алгоритмы умеют не только классифицировать структуры, но и оценивать иммунную инфильтрацию и исследовать клинически значимые биомаркеры на срезах тканей.
🔸 Эндоскопический модуль Medtronic GI Genius™
Компания предлагает решение для раннего обнаружения признаков колоректального рака. Модуль автоматически включается, когда полип оказывается в поле зрения эндоскопа, и автоматически проводит оптическую диагностику.
🔸 Создание медицинских изображений от NVIDIA
NVIDIA разработала ИИ-платформу, создающую искусственное медицинское изображение, что дает получать референсные материалы для редких болезней, где не хватает реальных снимков для тренировки диагностических моделей.
Уверены, что вы сможете применить навыки, полученные на курсе, в столь же успешных проектах! 💪🏻
#openbio_technology #openbio_case
👍5🤓1
Мы продолжаем разговор о функциях библиотеки numpy — одной из самых базовых библиотек Python, содержащей объекты и операции линейной алгебры.
Из всех операций, который можно осуществлять с использованием библиотеки numpy, отдельного внимания заслуживают операции умножения векторов и матриц. Дело в том, что большинство остальных операций над векторами и матрицами понятны интуитивно, а вот умножение вектора на вектор и матрицы на матрицу выглядит на первый взгляд неожиданно.
В то же время многие базовые понятия и методы машинного обучения требуют понимания этих операций. Без точечного умножения векторов, например, нельзя реализовать математическую операцию свёртки — и свёрточные нейросети, используемые в компьютерном зрении и даже в первой версии AlphaFold. А простейшая линейная регрессия требует матричного умножения: для двух переменных можно записать всё без него, но для множественной линейной регрессии без матриц уже не обойтись.
Конечно, обычно операции с векторами матрицами выполняются “под капотом” библиотек более высокого уровня типа pandas и sklearn. Но знание способа их реализации в numpy тоже полезно. Умение реализовать функции для машинного обучения “с нуля” пригодится для разработки своего математического аппарата (в биоинформатике это бывает нужно часто) или реализации кода на другом языке. Например, на R. Итак — умножаем векторы и матрицы в numpy!
Точечное (скалярное) произведение векторов — это произведение векторов, выраженное одним числом, показывающим связь между ними. Чтобы найти его, нужно поэлементно перемножить оба вектора и найти сумму элементов получившегося вектора.
Пример: [1 11 6 4] • [22 3 5 4] = 22 + 33 + 30 + 16 = 101
Точечное произведение векторов непосредственно используется в операции стандартного умножения матриц, которая сводится к точечному умножению строк на столбцы (строки с столбцы матрицы рассматриваются как векторы).
При стандартном умножении матриц коммутативный закон не выполняется — то есть порядок множителей имеет значение, и перемена множителей местами меняет произведение. При этом умножить друг на друга можно не любые матрицы: число столбцов в первом множителе должно быть равно число строк во втором множителе. Произведение будет представлять собой матрицу, в которой строк будет столько же, сколько в первом множителе, а столбцов — столько же, сколько во втором. При этом каждый *(i,j)*-й элемент матрицы-произведения будет представлять собой точечное произведение *i*-й строки первого множителя и *j*-го столбца второго множителя.
💡Самое интересное, что в numpy обе операции — точечное умножение векторов и стандартное умножение матриц — обеспечиваются одной функцией np.dot(a,b). Если a и b — векторы, то numpy вернёт их точечное произведение, если матрицы — то их стандартное произведение.
Это имеет математический смысл: при точечном умножении векторов numpy просто рассматривает первый вектор как единственную строку матрицы, а второй — как единственный столбец другой матрицы. И получается “матрица” из 1️⃣ элемента — то есть просто скаляр, как и должно быть при точечном умножении векторов. Такой вот частный случай.
Стандартное произведение матриц позволяет “закодировать” в одной матрице все связи между всеми элементами двух матриц — множителей. Именно поэтому такая операция незаменима в статистике и машинном обучении. Например, частные случаи умножения двух матриц приводят к широко используемым в статистике ковариационным матрицам и матрицам перестановок, к которым мы ещё вернёмся в следующих постах 🔜.
А если вы дочитали этот пост до конца и ещё что-то при этом поняли — то шансы освоить машинное обучение у вас уже неплохие. Оставайтесь с нами!
Остальные части нашего введения в numpy можно найти по хэштегу #openbio_numpy
Из всех операций, который можно осуществлять с использованием библиотеки numpy, отдельного внимания заслуживают операции умножения векторов и матриц. Дело в том, что большинство остальных операций над векторами и матрицами понятны интуитивно, а вот умножение вектора на вектор и матрицы на матрицу выглядит на первый взгляд неожиданно.
В то же время многие базовые понятия и методы машинного обучения требуют понимания этих операций. Без точечного умножения векторов, например, нельзя реализовать математическую операцию свёртки — и свёрточные нейросети, используемые в компьютерном зрении и даже в первой версии AlphaFold. А простейшая линейная регрессия требует матричного умножения: для двух переменных можно записать всё без него, но для множественной линейной регрессии без матриц уже не обойтись.
Конечно, обычно операции с векторами матрицами выполняются “под капотом” библиотек более высокого уровня типа pandas и sklearn. Но знание способа их реализации в numpy тоже полезно. Умение реализовать функции для машинного обучения “с нуля” пригодится для разработки своего математического аппарата (в биоинформатике это бывает нужно часто) или реализации кода на другом языке. Например, на R. Итак — умножаем векторы и матрицы в numpy!
Точечное (скалярное) произведение векторов — это произведение векторов, выраженное одним числом, показывающим связь между ними. Чтобы найти его, нужно поэлементно перемножить оба вектора и найти сумму элементов получившегося вектора.
Пример: [1 11 6 4] • [22 3 5 4] = 22 + 33 + 30 + 16 = 101
Точечное произведение векторов непосредственно используется в операции стандартного умножения матриц, которая сводится к точечному умножению строк на столбцы (строки с столбцы матрицы рассматриваются как векторы).
При стандартном умножении матриц коммутативный закон не выполняется — то есть порядок множителей имеет значение, и перемена множителей местами меняет произведение. При этом умножить друг на друга можно не любые матрицы: число столбцов в первом множителе должно быть равно число строк во втором множителе. Произведение будет представлять собой матрицу, в которой строк будет столько же, сколько в первом множителе, а столбцов — столько же, сколько во втором. При этом каждый *(i,j)*-й элемент матрицы-произведения будет представлять собой точечное произведение *i*-й строки первого множителя и *j*-го столбца второго множителя.
💡Самое интересное, что в numpy обе операции — точечное умножение векторов и стандартное умножение матриц — обеспечиваются одной функцией np.dot(a,b). Если a и b — векторы, то numpy вернёт их точечное произведение, если матрицы — то их стандартное произведение.
import numpy as np
c = np.dot(a,b)
Это имеет математический смысл: при точечном умножении векторов numpy просто рассматривает первый вектор как единственную строку матрицы, а второй — как единственный столбец другой матрицы. И получается “матрица” из 1️⃣ элемента — то есть просто скаляр, как и должно быть при точечном умножении векторов. Такой вот частный случай.
Стандартное произведение матриц позволяет “закодировать” в одной матрице все связи между всеми элементами двух матриц — множителей. Именно поэтому такая операция незаменима в статистике и машинном обучении. Например, частные случаи умножения двух матриц приводят к широко используемым в статистике ковариационным матрицам и матрицам перестановок, к которым мы ещё вернёмся в следующих постах 🔜.
А если вы дочитали этот пост до конца и ещё что-то при этом поняли — то шансы освоить машинное обучение у вас уже неплохие. Оставайтесь с нами!
Остальные части нашего введения в numpy можно найти по хэштегу #openbio_numpy
👍5🤓1
🎤👤 Сегодня делимся фрагментом интервью с биоинформатиком Артемом Касьяновым – спикером курса OpenBio по машинному обучению в биологии и биомедицине. Артем рассказал о своем карьерном пути в сфере биоинформатики и машинного обучения.
— Где ты работаешь сейчас и как ты пришел к этому?
— Сейчас я работаю в Португалии в двух позициях: в центре биоразнообразия как assistant researcher и в компании Quantori в позиции старшего биоинформатика и Data Scientist – там я работаю с различными фармацевтическими и биомедицинскими компаниями. Я прошел собеседование в Quantori после того, как друзья из России сообщили мне о вакансии – классическая история. Мне нужен был опыт, и в начале 2022 года я хотел изменений, поэтому решил уехать. Сначала я переехал в Армению, а затем в Португалию.
В Португалии вакансия в научном институте появилась рядом с моим местом жительства. Я изучил группу, подготовил мотивационное письмо и подал заявку. Удалось устроиться – это действительно большой успех, ведь быстро найти работу в академической сфере сложно.
— У тебя 15 лет опыта в индустрии и 13 лет преподавания. Вероятно, у тебя очень грамотное CV и мотивационное письмо.
— Да, у меня большой опыт с множеством проектов. Если бы я вывалил все свои работы, они могли бы не найти ничего релевантного. Например, я долго занимался растениями, но группа, куда я подавал заявку, специализируется на популяционной генетике человека. Поэтому я адаптировал свое CV под их запросы — это очень важно!
— Какими проектами ты занимаешься?
— В академической среде я занимался популяционной генетикой человека в Южной Африке. Использовал классические методы, например, программу Plink для анализа данных методом главных компонентов. Это позволяет понять, как люди из разных мест соотносятся друг с другом и выявить миграционные процессы. Также я работал с методами GWAS, которые помогают определить, какие участки генома связаны с заболеваниями. Еще один популярный метод – Admixture: он позволяет определить, из каких предков популяций состоит изучаемый геном.
В Quantori у меня больше разнообразных проектов. В последнее время заказчики активно применяют методы машинного обучения, так как фармацевтическая отрасль генерирует огромные объемы данных и ищет методы для их анализа. Компании стремятся разработать быстрые методы, которые помогут выявить новые лекарства.
— Как ты стал биоинформатиком?
— Я никогда не интересовался биологией и в школе увлекался историей. Когда поступал в ВУЗ, я выбрал технический университет, так как любил математику. Однако вскоре понял, что инженерная специальность мне не интересна, и после четвертого курса я перешел в магистратуру на ВМК. Тогда я всё ещё не хотел заниматься биологией, но ситуация изменилась, когда у жены диагностировали болезнь Крона. Я начал изучать эту тему – это и пробудило мой интерес к биологии.
***
Полную версию интервью скоро опубликуем, а посмотреть видео-вариант можно через личный кабинет у нас на платформе.
🔊А сегодня ждем вас на второй встрече с Ильей Воронцовым в 19.00 по мск - регистрация и ссылка на эфир здесь.
#openbio_interview #openbio_expert
— Где ты работаешь сейчас и как ты пришел к этому?
— Сейчас я работаю в Португалии в двух позициях: в центре биоразнообразия как assistant researcher и в компании Quantori в позиции старшего биоинформатика и Data Scientist – там я работаю с различными фармацевтическими и биомедицинскими компаниями. Я прошел собеседование в Quantori после того, как друзья из России сообщили мне о вакансии – классическая история. Мне нужен был опыт, и в начале 2022 года я хотел изменений, поэтому решил уехать. Сначала я переехал в Армению, а затем в Португалию.
В Португалии вакансия в научном институте появилась рядом с моим местом жительства. Я изучил группу, подготовил мотивационное письмо и подал заявку. Удалось устроиться – это действительно большой успех, ведь быстро найти работу в академической сфере сложно.
— У тебя 15 лет опыта в индустрии и 13 лет преподавания. Вероятно, у тебя очень грамотное CV и мотивационное письмо.
— Да, у меня большой опыт с множеством проектов. Если бы я вывалил все свои работы, они могли бы не найти ничего релевантного. Например, я долго занимался растениями, но группа, куда я подавал заявку, специализируется на популяционной генетике человека. Поэтому я адаптировал свое CV под их запросы — это очень важно!
— Какими проектами ты занимаешься?
— В академической среде я занимался популяционной генетикой человека в Южной Африке. Использовал классические методы, например, программу Plink для анализа данных методом главных компонентов. Это позволяет понять, как люди из разных мест соотносятся друг с другом и выявить миграционные процессы. Также я работал с методами GWAS, которые помогают определить, какие участки генома связаны с заболеваниями. Еще один популярный метод – Admixture: он позволяет определить, из каких предков популяций состоит изучаемый геном.
В Quantori у меня больше разнообразных проектов. В последнее время заказчики активно применяют методы машинного обучения, так как фармацевтическая отрасль генерирует огромные объемы данных и ищет методы для их анализа. Компании стремятся разработать быстрые методы, которые помогут выявить новые лекарства.
— Как ты стал биоинформатиком?
— Я никогда не интересовался биологией и в школе увлекался историей. Когда поступал в ВУЗ, я выбрал технический университет, так как любил математику. Однако вскоре понял, что инженерная специальность мне не интересна, и после четвертого курса я перешел в магистратуру на ВМК. Тогда я всё ещё не хотел заниматься биологией, но ситуация изменилась, когда у жены диагностировали болезнь Крона. Я начал изучать эту тему – это и пробудило мой интерес к биологии.
***
Полную версию интервью скоро опубликуем, а посмотреть видео-вариант можно через личный кабинет у нас на платформе.
🔊А сегодня ждем вас на второй встрече с Ильей Воронцовым в 19.00 по мск - регистрация и ссылка на эфир здесь.
#openbio_interview #openbio_expert
👍7😍2🔥1
📍Навигация по каналу
Для того, чтобы вам легче было искать информацию по каналу, мы сделали для вас небольшую подборку актуальных рубрик со ссылками на посты.
📎Обучение
Статьи по Numpy
Numpy — это база!
Индексирование и транспонирование
Точечные произведения и матричные перемножения
Статьи по Pandas
Фреймы данных
Работа с файлами Excel в Pandas
Интеграция Google таблиц и Pandas в Google Colab
Работа с файлами *.CSV в Pandas
Курс по машинному обучению в биологии и биомедицине
📎Живые вебинары с экспертами
«Личный путь в сеньоры биоинформатика» с Артемом Касьяновым
«Личный путь в сеньоры биоинформаткиа» с Ильей Воронцовым
📎События
Подборка конференций, симпозиумов и форумов в России, посвященных искусственному интеллекту, машинному обучению, биотехнологии и биомедицине
📎Востребованность
Kaggle - учитесь, соревнуйтесь, растите, получайте деньги
10 Датасетов для практики в Computer Vision
📎Вакансии с компетенциями по ML
Подборка № 1
Подборка №2
Подборка №3
Подборка №4
📎Технологии, Кейсы
Достижение компьютерного зрения в медицине
Сверточная нейронная сеть
Анализ антител и их мишеней с помощью машинного обучения
Как нейронные сети ищут новое применение лекарственным препаратам?
📌Сохраняйте себе и делитесь с друзьями! А мы будем пополнять библиотеку полезных материалов для вас.
#openbio_navigator
Для того, чтобы вам легче было искать информацию по каналу, мы сделали для вас небольшую подборку актуальных рубрик со ссылками на посты.
📎Обучение
Статьи по Numpy
Numpy — это база!
Индексирование и транспонирование
Точечные произведения и матричные перемножения
Статьи по Pandas
Фреймы данных
Работа с файлами Excel в Pandas
Интеграция Google таблиц и Pandas в Google Colab
Работа с файлами *.CSV в Pandas
Курс по машинному обучению в биологии и биомедицине
📎Живые вебинары с экспертами
«Личный путь в сеньоры биоинформатика» с Артемом Касьяновым
«Личный путь в сеньоры биоинформаткиа» с Ильей Воронцовым
📎События
Подборка конференций, симпозиумов и форумов в России, посвященных искусственному интеллекту, машинному обучению, биотехнологии и биомедицине
📎Востребованность
Kaggle - учитесь, соревнуйтесь, растите, получайте деньги
10 Датасетов для практики в Computer Vision
📎Вакансии с компетенциями по ML
Подборка № 1
Подборка №2
Подборка №3
Подборка №4
📎Технологии, Кейсы
Достижение компьютерного зрения в медицине
Сверточная нейронная сеть
Анализ антител и их мишеней с помощью машинного обучения
Как нейронные сети ищут новое применение лекарственным препаратам?
📌Сохраняйте себе и делитесь с друзьями! А мы будем пополнять библиотеку полезных материалов для вас.
#openbio_navigator
1🔥3⚡2😍1
📌 Продолжаем знакомить вас со спикерами проекта и рады анонсировать третью встречу из серии "Личный путь в сеньора биоинформатика" с Александром Сарачаковым.
Александр уже 9 лет в сфере ML , из которых пять преподает. В настоящее время занимает позицию Team Leader команды Imaging & Deep learning в BostonGene, при этом уже 4 года - квант в хедж-фонде, а еще четыре - преподает в Сбер.Университете на курсах "Байесовские методы машинного обучения" и "Компьютерное зрение", а так же в МФТИ и Санкт-Петербургской школе компьютерных наук.
На встрече будем обсуждать тренды отрасли, передовые достижения DL в биоинформатике, и, конечно, карьерные треки и лайфхаки для начинающих.
Встречи проходят в формате разговора, где в дружеской атмосфере можно будет задать волнующие вас вопросы и подчерпнуть опыт спикеров.
Начало 21 сентября, суббота, в 11.00 по мск.
Сюда вы можете написать свои вопросы, чтобы они точно попали в эфир.
Зарегистрироваться и получить приглашение на эфир или ссылку на запись встречи можно здесь.
Ждем вас!
#openbio_webinar
#openbio_interview #openbio_expert
Александр уже 9 лет в сфере ML , из которых пять преподает. В настоящее время занимает позицию Team Leader команды Imaging & Deep learning в BostonGene, при этом уже 4 года - квант в хедж-фонде, а еще четыре - преподает в Сбер.Университете на курсах "Байесовские методы машинного обучения" и "Компьютерное зрение", а так же в МФТИ и Санкт-Петербургской школе компьютерных наук.
На встрече будем обсуждать тренды отрасли, передовые достижения DL в биоинформатике, и, конечно, карьерные треки и лайфхаки для начинающих.
Встречи проходят в формате разговора, где в дружеской атмосфере можно будет задать волнующие вас вопросы и подчерпнуть опыт спикеров.
Начало 21 сентября, суббота, в 11.00 по мск.
Сюда вы можете написать свои вопросы, чтобы они точно попали в эфир.
Зарегистрироваться и получить приглашение на эфир или ссылку на запись встречи можно здесь.
Ждем вас!
#openbio_webinar
#openbio_interview #openbio_expert
5🔥3👍2🤓1
А это точно обязательно?.. Да!
Не будем спорить – сфера биоинформатики и машинного обучения действительно сложная, и без математического бэкграунда может быть страшно в нее соваться. Однако знание даже основных методов анализа данных и программирования повышают ценность любого специалиста.
Эксперт курса OpenBio Илья Воронцов рассказал о значимости биоинформатики в современной науке и подсветил несколько причин обучиться навыкам анализа данных и машинного обучения.
Биоинформатика – путь к медицине будущего
Для врачей, которые умеют писать алгоритмы, всегда найдется пространство для деятельности, потому что есть недостаток технологий в области онкологии и генетических заболеваний. Врач с опытом в машинном обучении сможет сам проводить сложные исследования и анализировать данные. У такого специалиста будет понимание того, что возможно в современном контексте, и это продвинет проекты на новый уровень.
В биоинформатике всегда будут интересные задачи
Я подозреваю, что в ближайшие годы область биоинформатики будет подогреваться медицинскими исследованиями – например, персонализированной медициной и дизайном лекарственных препаратов. В то же время существует много нерешенных задач в фундаментальной науке – например, вопрос транскрипционной и трансляционной регуляции в клетке.
Биоинформатика доступна всем
Биоинформатика всегда развивалась с акцентом на инженерию данных, поэтому много качественной информации лежит в открытом доступе и с ней легко работать. К тому же, для работы не нужно ничего, кроме компьютера – хватает обычного ноутбука. Даже если вам нужен сервер, как правило, это не требует больших финансовых вложений.
Ключ к международной коллаборации
Биоинформатические публикации чаще всего описывают либо новую модель, либо данные, которые были обработаны этой моделью, и такие результаты могут использоваться в других проектах. Наша лаборатория занимается не только созданием методов, но и построением баз данных, и мы в этом сильно продвинулись – наши данные стали основой для множества других работ.
Работа с огромными объемами информации
Появление мультиомиксных технологий позволило нам объединять данные очень разной природы для решения задач, и это повышает качество результатов. Путем перевода данных в единый векторный формат мы получаем один большой комплекс для обработки информации, что снижает количество “черных ящиков”.
Знание биоинформатики упрощает коммуникацию
Полезно, когда человек при постановке научной задачи понимает обе стороны: разумная ли это задача с точки зрения биологии и какими методами ее можно реализовать технически. Руководители моей лаборатории в совершенстве владеют и биологическим, и техническим “языками”, и мне кажется, нам всем нужно стремиться к этому, так как разносторонний опыт помогает эффективнее формулировать решения.
Культура работы с данными
В любом исследовании могут быть проблемы с данными: они могут быть устаревшими, могут содержать опечатки или не заполненные поля, или файл может быть просто удален. Такие моменты вызывают много боли, поэтому в целом биоинформатика учит держать данные в порядке. Применение аналитических инструментов невозможно без аккуратно подготовленных данных.
(Считаем, что этот пункт важен не только в биологии и медицине, но и любой другой исследовательской области. – прим. команды)
Присоединяйтесь к следующим лекциям экспертов OpenBio и записывайтесь на наш курс по биоинформатике и машинному обучению, если перечисленные доводы подогрели ваш интерес 😉
Не будем спорить – сфера биоинформатики и машинного обучения действительно сложная, и без математического бэкграунда может быть страшно в нее соваться. Однако знание даже основных методов анализа данных и программирования повышают ценность любого специалиста.
Эксперт курса OpenBio Илья Воронцов рассказал о значимости биоинформатики в современной науке и подсветил несколько причин обучиться навыкам анализа данных и машинного обучения.
Биоинформатика – путь к медицине будущего
Для врачей, которые умеют писать алгоритмы, всегда найдется пространство для деятельности, потому что есть недостаток технологий в области онкологии и генетических заболеваний. Врач с опытом в машинном обучении сможет сам проводить сложные исследования и анализировать данные. У такого специалиста будет понимание того, что возможно в современном контексте, и это продвинет проекты на новый уровень.
В биоинформатике всегда будут интересные задачи
Я подозреваю, что в ближайшие годы область биоинформатики будет подогреваться медицинскими исследованиями – например, персонализированной медициной и дизайном лекарственных препаратов. В то же время существует много нерешенных задач в фундаментальной науке – например, вопрос транскрипционной и трансляционной регуляции в клетке.
Биоинформатика доступна всем
Биоинформатика всегда развивалась с акцентом на инженерию данных, поэтому много качественной информации лежит в открытом доступе и с ней легко работать. К тому же, для работы не нужно ничего, кроме компьютера – хватает обычного ноутбука. Даже если вам нужен сервер, как правило, это не требует больших финансовых вложений.
Ключ к международной коллаборации
Биоинформатические публикации чаще всего описывают либо новую модель, либо данные, которые были обработаны этой моделью, и такие результаты могут использоваться в других проектах. Наша лаборатория занимается не только созданием методов, но и построением баз данных, и мы в этом сильно продвинулись – наши данные стали основой для множества других работ.
Работа с огромными объемами информации
Появление мультиомиксных технологий позволило нам объединять данные очень разной природы для решения задач, и это повышает качество результатов. Путем перевода данных в единый векторный формат мы получаем один большой комплекс для обработки информации, что снижает количество “черных ящиков”.
Знание биоинформатики упрощает коммуникацию
Полезно, когда человек при постановке научной задачи понимает обе стороны: разумная ли это задача с точки зрения биологии и какими методами ее можно реализовать технически. Руководители моей лаборатории в совершенстве владеют и биологическим, и техническим “языками”, и мне кажется, нам всем нужно стремиться к этому, так как разносторонний опыт помогает эффективнее формулировать решения.
Культура работы с данными
В любом исследовании могут быть проблемы с данными: они могут быть устаревшими, могут содержать опечатки или не заполненные поля, или файл может быть просто удален. Такие моменты вызывают много боли, поэтому в целом биоинформатика учит держать данные в порядке. Применение аналитических инструментов невозможно без аккуратно подготовленных данных.
(Считаем, что этот пункт важен не только в биологии и медицине, но и любой другой исследовательской области. – прим. команды)
Присоединяйтесь к следующим лекциям экспертов OpenBio и записывайтесь на наш курс по биоинформатике и машинному обучению, если перечисленные доводы подогрели ваш интерес 😉
👍3🤓2