🌱 Мендель, хи-квадрат и споры о статистике
В середине XIX века монах Грегор Мендель скрещивал сорта гороха и вывел знаменитые соотношения 3:1 и 9:3:3:1, которые стали фундаментом для понимания наследования признаков. Мы со школы знаем Менделя как отца генетики, и наверняка все помнят тот самый зеленый гладкий и желтый морщинистый горошек для иллюстрации законов дигибридного скрещивания.
В своей работе Мендель выбрал признаки, которые зависят только от одного гена, так называемые моногенные признаки — форма семян, цвет семян, высота стебля и тд, всего 7 признаков.
Мендель провёл десятки тысяч скрещиваний и получил соотношения 3:1 и 9:3:3:1. Это пример моногенного наследования — когда признак зависит от одного гена, и подчиняется простым законам, тем самым законам Менделя, которые назовут в его честь сильно позже:
1) Закон единообразия гибридов первого поколения: доминантный аллель подавляет рецессивный, и все гибриды первого поколения (F1) имеют одинаковый фенотип.
2) Закон расщепления признаков: при скрещивании гетерозигот (Aa × Aa) потомство делится в пропорции 3:1 по фенотипу и 1:2:1 по генотипу.
3) Закон независимого наследования признаков: при дигибридном скрещивании (два признака) гены наследуются независимо, давая соотношение 9:3:3:1 по фенотипу.
В целом можно сказать, что законы Менделя это “Hello world” от мира генетики. Во многих случаях они нарушаются, например если гены сцеплены, или если гомозиготы по рецессивному признаку не выживают, тогда расщепление будет другое. Однако было бы несправедливо сказать, что Менделю просто повезло наткнуться на удачный признак и удачный тип наследования, ведь был и неудачный опыт с ястребинкой, но это отдельная история.
Нас же интересует статистика.
В 1936 году Рональд Фишер, один из основателей современной статистики и синтетической теории эволюции, применил χ²-тест к данным Менделя и отметил, что результаты слишком близки к теоретическим пропорциям 3:1 и 9:3:3:1. Это вызвало подозрения.
Даже при моногенном наследовании должны были возникать отклонения от теоретических значений. Фишер предположил, что неизвестный ассистент Менделя мог неосознанно корректировать или отбирать данные, так как знал желаемое распределение.
Цитата Фишера:
По сути, Фишер обвинил Менделя в фальсификации данных, что вызвало бурные споры в научном сообществе, которые актуальны и сейчас (последнюю статью на эту тему нашла за 2019 год).
А что думают статистики сейчас?
Одна из ключевых современных работ — статья Pires & Branco (2010) в журнале Statistical Science. Авторы предложили простую, но элегантную статистическую модель, которая объясняет «слишком идеальные» данные Менделя без фальсификации.
Их гипотеза:
То есть если эксперимент давал пропорции хуже, чем предполагалось, его повторяли. А если новый результат был ближе к теории — брали его. Это не фальсификация, а unconscious bias, то есть неосознанная предвзятость.
Авторы показали, что такая модель:
- воспроизводит распределение p-value в данных Менделя,
- снимает подозрения в преднамеренной фальсификации,
- объясняет низкие χ²-значения лучше, чем честная выборка с независимыми тестами.
При этом они подчёркивают, несмотря на то, что замечание Фишера обосновано с точки зрения статистики, предложенная модель разрешает долгое противоречие между Менделем и Фишером, отцами современной генетики и статистики.
#stats
В комментарии закину фотографию из музея Менделя в Брно
В середине XIX века монах Грегор Мендель скрещивал сорта гороха и вывел знаменитые соотношения 3:1 и 9:3:3:1, которые стали фундаментом для понимания наследования признаков. Мы со школы знаем Менделя как отца генетики, и наверняка все помнят тот самый зеленый гладкий и желтый морщинистый горошек для иллюстрации законов дигибридного скрещивания.
В своей работе Мендель выбрал признаки, которые зависят только от одного гена, так называемые моногенные признаки — форма семян, цвет семян, высота стебля и тд, всего 7 признаков.
Мендель провёл десятки тысяч скрещиваний и получил соотношения 3:1 и 9:3:3:1. Это пример моногенного наследования — когда признак зависит от одного гена, и подчиняется простым законам, тем самым законам Менделя, которые назовут в его честь сильно позже:
1) Закон единообразия гибридов первого поколения: доминантный аллель подавляет рецессивный, и все гибриды первого поколения (F1) имеют одинаковый фенотип.
2) Закон расщепления признаков: при скрещивании гетерозигот (Aa × Aa) потомство делится в пропорции 3:1 по фенотипу и 1:2:1 по генотипу.
3) Закон независимого наследования признаков: при дигибридном скрещивании (два признака) гены наследуются независимо, давая соотношение 9:3:3:1 по фенотипу.
В целом можно сказать, что законы Менделя это “Hello world” от мира генетики. Во многих случаях они нарушаются, например если гены сцеплены, или если гомозиготы по рецессивному признаку не выживают, тогда расщепление будет другое. Однако было бы несправедливо сказать, что Менделю просто повезло наткнуться на удачный признак и удачный тип наследования, ведь был и неудачный опыт с ястребинкой, но это отдельная история.
Нас же интересует статистика.
В 1936 году Рональд Фишер, один из основателей современной статистики и синтетической теории эволюции, применил χ²-тест к данным Менделя и отметил, что результаты слишком близки к теоретическим пропорциям 3:1 и 9:3:3:1. Это вызвало подозрения.
Даже при моногенном наследовании должны были возникать отклонения от теоретических значений. Фишер предположил, что неизвестный ассистент Менделя мог неосознанно корректировать или отбирать данные, так как знал желаемое распределение.
Цитата Фишера:
"the data of most, if not all, of the experiments have been falsified so as to agree closely with Mendel’s expectations"
По сути, Фишер обвинил Менделя в фальсификации данных, что вызвало бурные споры в научном сообществе, которые актуальны и сейчас (последнюю статью на эту тему нашла за 2019 год).
А что думают статистики сейчас?
Одна из ключевых современных работ — статья Pires & Branco (2010) в журнале Statistical Science. Авторы предложили простую, но элегантную статистическую модель, которая объясняет «слишком идеальные» данные Менделя без фальсификации.
Их гипотеза:
Мендель мог из нескольких экспериментов публиковать только результаты с лучшим распределением, наиболее близким к теоретическому.
То есть если эксперимент давал пропорции хуже, чем предполагалось, его повторяли. А если новый результат был ближе к теории — брали его. Это не фальсификация, а unconscious bias, то есть неосознанная предвзятость.
Авторы показали, что такая модель:
- воспроизводит распределение p-value в данных Менделя,
- снимает подозрения в преднамеренной фальсификации,
- объясняет низкие χ²-значения лучше, чем честная выборка с независимыми тестами.
При этом они подчёркивают, несмотря на то, что замечание Фишера обосновано с точки зрения статистики, предложенная модель разрешает долгое противоречие между Менделем и Фишером, отцами современной генетики и статистики.
#stats
В комментарии закину фотографию из музея Менделя в Брно
👍47❤18🔥13✍2
Я обычно не фанат хайпа вокруг ML (линейные регрессии и t-test наше все 😏), но ребята из @blastim сделали настолько крутой курс по ML в биоинформатике на питоне, что я заценила программу даже при всей любви к R. Курс стартует уже завтра, 8 июля, еще можно присоединиться!
📌 Актуальные темы суперпонятным языком: лосс, бэкпроп, диффузия, аттеншн, эмбеддинги (если не все слова знакомы, это нормально, я тоже не все поняла 😁)
📌 Много биоинформатики: анализ биомедицинских данных, разбор популярных ИИ-моделей (Evo2, C2S Scale, AlphaFold), работа с API NCBI, Ensembl, PDB
📌 Реальные инструменты: деплой моделей в Telegram-бота и создание своих ИИ-агентов
8 июля – 30 августа | Онлайн | Преподаватели-ученые (среди них классный спец, Вова Шитов)
Что на выходе:
· Готовый проект для портфолио на GitHub
· Навыки от pandas до нейросетей + создание ИИ-агентов
· Диплом гособразца о повышении квалификации
❗️ Курс подойдёт, если вы уже знакомы с базовым Python. Если сомневаетесь — есть бесплатный входной тест.
Формат:
Вт/Чт 19:00–21:00
Сб 10:00–14:00 по Мск
🔗 Подробнее и регистрация: https://agency.blastim.ru/pythonandml
По промокоду MLSUMMER25 будет 10% скидка, также доступны скидки студентам и аспирантам. Акции можно комбинировать, пишите @varvara_blastim
Приведите друга — получите по 10% скидки каждому
📌 Актуальные темы суперпонятным языком: лосс, бэкпроп, диффузия, аттеншн, эмбеддинги (если не все слова знакомы, это нормально, я тоже не все поняла 😁)
📌 Много биоинформатики: анализ биомедицинских данных, разбор популярных ИИ-моделей (Evo2, C2S Scale, AlphaFold), работа с API NCBI, Ensembl, PDB
📌 Реальные инструменты: деплой моделей в Telegram-бота и создание своих ИИ-агентов
8 июля – 30 августа | Онлайн | Преподаватели-ученые (среди них классный спец, Вова Шитов)
Что на выходе:
· Готовый проект для портфолио на GitHub
· Навыки от pandas до нейросетей + создание ИИ-агентов
· Диплом гособразца о повышении квалификации
❗️ Курс подойдёт, если вы уже знакомы с базовым Python. Если сомневаетесь — есть бесплатный входной тест.
Формат:
Вт/Чт 19:00–21:00
Сб 10:00–14:00 по Мск
🔗 Подробнее и регистрация: https://agency.blastim.ru/pythonandml
По промокоду MLSUMMER25 будет 10% скидка, также доступны скидки студентам и аспирантам. Акции можно комбинировать, пишите @varvara_blastim
Приведите друга — получите по 10% скидки каждому
agency.blastim.ru
Курс от Бластим: «Машинное обучение на Python для решения биоинформатических задач»
Без “воды”, с чётким разбором алгоритмов, биологическими примерами и живыми встречами 3 раза в неделю. Официальное удостоверение о повышении квалификации.
❤20🎉4🤬3🙏2