📌 Условие:
Вы работаете над системой, где каждый эксперимент (тест, запуск модели, продукт) может быть успешным или неуспешным.
Результат одного запуска — 1 (успех) или 0 (провал).
Известно:
- Вероятность успеха одного эксперимента — неизвестна, обозначим её как
p
.- У вас есть
N
исторических наблюдений: x1, x2, ..., xN
, где каждое xi
равно 0 или 1.Вопросы:
1. Построить оценку вероятности успеха
p
и доверительный интервал на уровне 95%.2. Рассчитать, сколько экспериментов нужно запустить, чтобы вероятность выхода в прибыль была выше 95%, учитывая:
- стоимость одного запуска
C
;- прибыль от одного успешного эксперимента
R
.---
▪️ Подсказки:
- Для оценки
p
используйте биномиальную модель.- Для доверительного интервала:
- Можно использовать нормальное приближение (если выборка большая),
- Или Wilson-интервал для аккуратности.
---
▪️ Что оценивается:
- Правильная работа с вероятностями и доверием.
- Способность адекватно аппроксимировать биномиальные распределения.
- Чистота и практичность вычислений.
---
▪️ Разбор возможного решения:
▪️ 1. Оценка вероятности успеха:
# p_hat - оценка вероятности успеха
p_hat = sum(xi_list) / N
где
xi_list
— список из 0 и 1 (результаты экспериментов).▪️ 2. Доверительный интервал через нормальное приближение:
import math
z = 1.96 # для 95% доверия
std_error = math.sqrt(p_hat * (1 - p_hat) / N)
lower_bound = p_hat - z * std_error
upper_bound = p_hat + z * std_error
▪️ 3. Wilson-интервал (более аккуратный):
z = 1.96 # для 95% доверия
center = (p_hat + z**2 / (2 * N)) / (1 + z**2 / N)
margin = (z * math.sqrt((p_hat * (1 - p_hat) / N) + (z**2 / (4 * N**2)))) / (1 + z**2 / N)
lower_bound = center - margin
upper_bound = center + margin
---
▪️ 4. Прибыльность эксперимента:
Формула прибыли при
n
экспериментах:
profit = successes * R - n * C
Требуется:
P(profit > 0) >= 0.95
Число успехов должно быть больше определённой границы:
min_successes = (n * C) / R
Если
n
велико, количество успехов приближается к нормальному распределению:
mean_successes = n * p_hat
std_successes = math.sqrt(n * p_hat * (1 - p_hat))
Для нормального приближения можно написать:
# Вероятность успешности через нормальное распределение
from scipy.stats import norm
# Вероятность, что количество успехов больше нужного
prob = 1 - norm.cdf(min_successes, loc=mean_successes, scale=std_successes)
Тогда перебором или через уравнение ищем минимальное
n
, чтобы prob >= 0.95
.---
▪️ Возможные подводные камни:
- Нельзя использовать нормальное приближение при малом
N
— нужна биномиальная модель.- Неверное задание границ доверительного интервала может привести к неправильной стратегии запуска.
- Плохое понимание соотношения
C
и R
приводит к ошибочным выводам об окупаемости.---
📌Дополнительные вопросы:
- Как бы вы учли, что прибыль от успеха — случайная величина?
- Как пересчитать стратегии, если вероятность успеха зависит от времени (`p = f(t)`)?
- Как применить байесовский апдейт для оценки вероятности успеха?
---
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10❤🔥6🔥2❤1👎1
Московские_математические_олимпиады_1993—2005.pdf
2 MB
Московские математические олимпиады 1993—2005
Под редакцией В. М. Тихомирова
В книге собраны задачи Московских математических олимпиад 1993—
2005 г. с ответами, указаниями и подробными решениями. В дополнениях
приведены основные факты, используемые в решении олимпиадных задач,
и избранные задачи Московских математических олимпиад 1937—1992 г.
Все задачи в том или ином смысле нестандартные. Их решение требует смекалки, сообразительности, а иногда и многочасовых размышлений.
Книга предназначена для учителей математики, руководителей кружков, школьников старших классов, студентов педагогических специальностей. Книга будет интересна всем любителям красивых математических
задач.
Под редакцией В. М. Тихомирова
В книге собраны задачи Московских математических олимпиад 1993—
2005 г. с ответами, указаниями и подробными решениями. В дополнениях
приведены основные факты, используемые в решении олимпиадных задач,
и избранные задачи Московских математических олимпиад 1937—1992 г.
Все задачи в том или ином смысле нестандартные. Их решение требует смекалки, сообразительности, а иногда и многочасовых размышлений.
Книга предназначена для учителей математики, руководителей кружков, школьников старших классов, студентов педагогических специальностей. Книга будет интересна всем любителям красивых математических
задач.
👍12❤7🔥4🥰2
🎲 Задача с подвохом: Монетки и ошибка интуиции
Условие:
У вас есть две монеты:
• Монета A: честная, вероятность выпадения орла = 50%
• Монета B: нечестная, у неё две стороны с орлами (орёл всегда выпадает)
Вы случайным образом выбираете одну монету (с вероятностью 50% каждая) и подбрасываете её один раз. Выпадает орёл.
❓ Вопрос:
Какова вероятность того, что вы выбрали нечестную монету (Монета B)?
🔍 Разбор:
На первый взгляд многие отвечают: «Мы выбрали монету случайно, значит вероятность всё ещё 50%». Но это ловушка!
Нам нужно пересчитать вероятность с учётом того, что выпал орёл. Это задача по формуле Байеса.
🧮 Обозначения:
• A: выбрана честная монета
• B: выбрана нечестная монета
• O: выпал орёл
Мы ищем вероятность:
P(B | O) — вероятность того, что выбрана Монета B, если мы увидели орла.
1️⃣ Запишем известные вероятности:
• P(A) = 0.5
• P(B) = 0.5
• P(O | A) = 0.5 (честная монета)
• P(O | 😎 = 1 (нечестная монета)
2️⃣ Применяем формулу Байеса:
P(B | O) = (P(O | 😎 * P(B)) / (P(O | A) * P(A) + P(O | 😎 * P(B))
Подставляем значения:
= (1 * 0.5) / (0.5 * 0.5 + 1 * 0.5)
= 0.5 / (0.25 + 0.5)
= 0.5 / 0.75 ≈ 0.6667
✅**Ответ:**
Вероятность того, что выбрана нечестная монета после выпадения орла, составляет примерно 66,7%.
💥 **Подвох:**
Интуитивно кажется, что выбор монеты не зависит от результата подбрасывания, но дополнительная информация (факт выпадения орла) меняет распределение вероятностей. Это классический пример условной вероятности.
🧠 **Почему это важно для Data Science:**
• Обновление вероятностей при поступлении новых данных — ключевой навык для Байесовских моделей
• Ошибки интуиции часто встречаются при работе с вероятностями в задачах диагностики, фрод-аналитики и рекомендаций
• Глубокое понимание условной вероятности помогает строить более точные и надёжные модели
Условие:
У вас есть две монеты:
• Монета A: честная, вероятность выпадения орла = 50%
• Монета B: нечестная, у неё две стороны с орлами (орёл всегда выпадает)
Вы случайным образом выбираете одну монету (с вероятностью 50% каждая) и подбрасываете её один раз. Выпадает орёл.
❓ Вопрос:
Какова вероятность того, что вы выбрали нечестную монету (Монета B)?
🔍 Разбор:
На первый взгляд многие отвечают: «Мы выбрали монету случайно, значит вероятность всё ещё 50%». Но это ловушка!
Нам нужно пересчитать вероятность с учётом того, что выпал орёл. Это задача по формуле Байеса.
🧮 Обозначения:
• A: выбрана честная монета
• B: выбрана нечестная монета
• O: выпал орёл
Мы ищем вероятность:
P(B | O) — вероятность того, что выбрана Монета B, если мы увидели орла.
1️⃣ Запишем известные вероятности:
• P(A) = 0.5
• P(B) = 0.5
• P(O | A) = 0.5 (честная монета)
• P(O | 😎 = 1 (нечестная монета)
2️⃣ Применяем формулу Байеса:
P(B | O) = (P(O | 😎 * P(B)) / (P(O | A) * P(A) + P(O | 😎 * P(B))
Подставляем значения:
= (1 * 0.5) / (0.5 * 0.5 + 1 * 0.5)
= 0.5 / (0.25 + 0.5)
= 0.5 / 0.75 ≈ 0.6667
✅
Вероятность того, что выбрана нечестная монета после выпадения орла, составляет примерно 66,7%.
💥 **Подвох:**
Интуитивно кажется, что выбор монеты не зависит от результата подбрасывания, но дополнительная информация (факт выпадения орла) меняет распределение вероятностей. Это классический пример условной вероятности.
🧠 **Почему это важно для Data Science:**
• Обновление вероятностей при поступлении новых данных — ключевой навык для Байесовских моделей
• Ошибки интуиции часто встречаются при работе с вероятностями в задачах диагностики, фрод-аналитики и рекомендаций
• Глубокое понимание условной вероятности помогает строить более точные и надёжные модели
👍22❤4🔥4👎1
🕳️ Учёные предложили, что у света может быть «тёмная» сторона — и это может перевернуть физику, которую мы знаем уже 100 лет.
🧪 Что произошло
Всем известен школьный опыт: если пропустить свет через две щели, на экране появляется рисунок из светлых и тёмных полос. Это считалось главным доказательством того, что свет ведёт себя как волна.
Но команда немецких учёных из Института Макса Планка говорит:
👉 может быть, это вовсе не волны, а особое квантовое поведение частиц света — фотонов.
👻 Что такое «тёмный фотон»?
По их теории, фотоны бывают двух типов:
Яркие фотоны — те, которые мы видим и которые фиксирует прибор
Тёмные фотоны — невидимые, не взаимодействуют с миром напрямую, но могут менять поведение ярких фотонов
🧠 Представь, что кто-то невидимый толкает шарик на столе — ты не видишь «того, кто толкнул», но видишь, как шарик катится. Вот так же и тёмные фотоны: они не видны, но влияют на результат.
🔍 Почему это важно
Если теория верна, то:
Мы можем переосмыслить природу света: возможно, он не волна, а чисто частица
Это убирает загадку: «как один фотон проходит через две щели сразу?»
Это может повлиять на квантовые технологии и объяснить эффекты, которые раньше казались странными
📌 Пока это теория, но она уже вызвала обсуждения в мире науки.
Если она подтвердится — нам придётся по-новому смотреть на то, как устроен свет и квантовая физика.
🔗 Подробнее — в статье New Scientist
🧪 Что произошло
Всем известен школьный опыт: если пропустить свет через две щели, на экране появляется рисунок из светлых и тёмных полос. Это считалось главным доказательством того, что свет ведёт себя как волна.
Но команда немецких учёных из Института Макса Планка говорит:
👉 может быть, это вовсе не волны, а особое квантовое поведение частиц света — фотонов.
👻 Что такое «тёмный фотон»?
По их теории, фотоны бывают двух типов:
Яркие фотоны — те, которые мы видим и которые фиксирует прибор
Тёмные фотоны — невидимые, не взаимодействуют с миром напрямую, но могут менять поведение ярких фотонов
🧠 Представь, что кто-то невидимый толкает шарик на столе — ты не видишь «того, кто толкнул», но видишь, как шарик катится. Вот так же и тёмные фотоны: они не видны, но влияют на результат.
🔍 Почему это важно
Если теория верна, то:
Мы можем переосмыслить природу света: возможно, он не волна, а чисто частица
Это убирает загадку: «как один фотон проходит через две щели сразу?»
Это может повлиять на квантовые технологии и объяснить эффекты, которые раньше казались странными
📌 Пока это теория, но она уже вызвала обсуждения в мире науки.
Если она подтвердится — нам придётся по-новому смотреть на то, как устроен свет и квантовая физика.
🔗 Подробнее — в статье New Scientist
👍13👎7❤3🔥1🤡1🫡1
🧠 Задача для дата-сайентистов: "Невидимая переменная"
У вас есть датафрейм с результатами тестирования модели A/B:
По результатам A/B теста кажется, что разницы между группами нет. Вы проверили chi-squared test и Mann-Whitney — тоже ничего.
🧩 Однако ваш коллега утверждает, что в данных явно зарыта сильная зависимость, которую можно выявить, если «включить голову».
---
🔍 Вопрос:
Какой скрытый фактор мог полностью «маскировать» эффект от теста и как его можно вычислить, даже если он отсутствует в таблице напрямую?
💡 Подсказка: данные собирались в течение 30 дней, но колонка с датой/временем была потеряна при сохранении. Однако user_id — это не случайное число.
🎯 Что нужно сделать:
1. 🧠 Предположить, что user_id содержит зашумлённую информацию о времени регистрации (например, ID выдаются монотонно)
2. 🧮 Смоделировать зависимость результата от user_id и проверить, не является ли тест несбалансированным по времени
3. 📈 Построить метрику на основе сгруппированных окон по user_id и визуализировать смещение между группами A и B
🎯 Ключевая идея решения:
Хотя колонка с датой была потеряна, можно сделать разумное предположение:
🔸 `user_id` назначается **монотонно**, т.е. пользователи с меньшими ID пришли раньше.
Если эксперимент длился 30 дней, а пользователи приходили неравномерно, то:
- группа A могла доминировать в начале
- группа B — в конце
📉 А что, если в эти периоды поведение пользователей менялось? Например, была акция, баг, праздник?
🔍 **Решение: как восстановить эффект**
1. 🟤 Добавим к данным колонку `bucket = user_id // 100`, чтобы разбить пользователей на условные "временные окна"
2. 🟤 Для каждого `bucket` считаем среднюю `conversion_rate` отдельно по группам A и B
3. 🟤 Строим график `conversion_A - conversion_B` по bucket
Если кривая скачет — тест **несбалансирован по времени** и глобальное сравнение групп вводит в заблуждение.
У вас есть датафрейм с результатами тестирования модели A/B:
| user_id | group | conversion_rate |
|---------|--------|-----------------|
| 1001 | A | 0 |
| 1002 | A | 1 |
| 1003 | B | 0 |
| 1004 | B | 1 |
| ... | ... | ... |
По результатам A/B теста кажется, что разницы между группами нет. Вы проверили chi-squared test и Mann-Whitney — тоже ничего.
🧩 Однако ваш коллега утверждает, что в данных явно зарыта сильная зависимость, которую можно выявить, если «включить голову».
---
🔍 Вопрос:
Какой скрытый фактор мог полностью «маскировать» эффект от теста и как его можно вычислить, даже если он отсутствует в таблице напрямую?
💡 Подсказка:
1. 🧠 Предположить, что user_id содержит зашумлённую информацию о времени регистрации (например, ID выдаются монотонно)
2. 🧮 Смоделировать зависимость результата от user_id и проверить, не является ли тест несбалансированным по времени
3. 📈 Построить метрику на основе сгруппированных окон по user_id и визуализировать смещение между группами A и B
🎯 Ключевая идея решения:
Хотя колонка с датой была потеряна, можно сделать разумное предположение:
🔸 `user_id` назначается **монотонно**, т.е. пользователи с меньшими ID пришли раньше.
Если эксперимент длился 30 дней, а пользователи приходили неравномерно, то:
- группа A могла доминировать в начале
- группа B — в конце
📉 А что, если в эти периоды поведение пользователей менялось? Например, была акция, баг, праздник?
🔍 **Решение: как восстановить эффект**
1. 🟤 Добавим к данным колонку `bucket = user_id // 100`, чтобы разбить пользователей на условные "временные окна"
2. 🟤 Для каждого `bucket` считаем среднюю `conversion_rate` отдельно по группам A и B
3. 🟤 Строим график `conversion_A - conversion_B` по bucket
Если кривая скачет — тест **несбалансирован по времени** и глобальное сравнение групп вводит в заблуждение.
👍7🔥4🥴2
Почему нужно популяризировать математику?
Этот вопрос стал ключевым в разговоре ректора университета «Иннополис» Александра Гасникова и руководителя департамента анализа данных и моделирования ВТБ Дениса Суржко в подкасте «Деньги любят техно».
В этом сезоне подкаст стал философским и визионерским: гости говорят не только о технологических решениях, но и о смыслах, которые стоят за ними. Александр Гасников — молодой современный ученый, который перешел на позицию руководителя университета и занялся административной деятельностью. И о том, как отличаются две эти роли, он вполне подробно рассказал в выпуске.
А еще в подкасте: какие задачи стоят перед современными техническими вузами, почему подготовка молодых кадров должна стать приоритетом, какие навыки требуются в науке и в работе на коммерческие компании и в целом куда ведёт нас развитие ИИ.
Абсолютно точно полезно послушать всем.
Видеоверсия доступна здесь
Аудиоверсия — на любой удобной платформе
Этот вопрос стал ключевым в разговоре ректора университета «Иннополис» Александра Гасникова и руководителя департамента анализа данных и моделирования ВТБ Дениса Суржко в подкасте «Деньги любят техно».
В этом сезоне подкаст стал философским и визионерским: гости говорят не только о технологических решениях, но и о смыслах, которые стоят за ними. Александр Гасников — молодой современный ученый, который перешел на позицию руководителя университета и занялся административной деятельностью. И о том, как отличаются две эти роли, он вполне подробно рассказал в выпуске.
А еще в подкасте: какие задачи стоят перед современными техническими вузами, почему подготовка молодых кадров должна стать приоритетом, какие навыки требуются в науке и в работе на коммерческие компании и в целом куда ведёт нас развитие ИИ.
Абсолютно точно полезно послушать всем.
Видеоверсия доступна здесь
Аудиоверсия — на любой удобной платформе
👍2❤1🔥1🥰1😱1
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Y Combinator сделал ставку на ИИ-агентов, способных переосмыслить целые индустрии. Вместо точечных решений, основателям советуют создавать «полноценные ИИ-компании» - например, запускать собственные юридические бюро с ИИ-юристами вместо сотрудников. Такой подход позволяет обойти медлительных конкурентов, предлагая клиентам более дешевые и эффективные сервисы.
Особый интерес к автоматизации рутины: персональные ассистенты, которые не просто напоминают о задачах, а самостоятельно отвечают на письма, планируют встречи и имитируют стиль общения пользователя. Y Combinator верит: будущее за командами, которые не просто внедряют ИИ, а перестраивают рынки с нуля, как это сделали Airbnb или Stripe.
ycombinator.com
Ученые из Центра геномной регуляции в Барселоне впервые применили генеративный ИИ для проектирования синтетических молекул ДНК, способных управлять активностью генов в здоровых клетках млекопитающих. Модель, обученная на данных тысяч экспериментов, генерирует последовательности «с нуля», задавая критерии.
В качестве теста создали фрагменты ДНК, активирующие ген флуоресцентного белка в клетках крови мышей. Результаты совпали с прогнозами: синтетические усилители генной активности работали как «переключатели» в зависимости от типа клеток. Исследование открывает путь к персонализированным методам коррекции генов. По словам авторов, это похоже на «написание софта для биологии», где каждая инструкция для клетки становится программируемой.
technologynetworks.com
OpenAI представила HealthBench - бенчмарк для тестирования ИИ-систем в сфере здравоохранения. Разработанный при участии 262 врачей из 60 стран, он включает 5000 реалистичных диалогов, имитирующих общение пациентов и медиков. Каждый сценарий оценивается по индивидуальным критериям, созданным экспертами: точность данных или ясность ответов.
Всего в бенчмарке 48 562 параметра оценки, что позволяет глубоко анализировать работу моделей. Особый упор сделан на надежность: даже один ошибочный ответ в медицине критичен. HealthBench включает подборки сложных кейсов (HealthBench Hard), где современные ИИ еще отстают. Все данные и методики уже доступны в GitHub-репозитории OpenAI .
openai.com
Google анонсировала AI Futures Fund — программу для поддержки ИИ-стартапов. Участники получат ранний доступ к моделям DeepMind (Gemini, Imagen и Veo). Кроме технологий, стартапы смогут консультироваться с инженерами и исследователями Google, а также получат облачные кредиты для обучения и масштабирования решений. Уже сейчас с фондом работают проекты из разных сфер: индийский Toonsutra внедряет Gemini для перевода комиксов, Viggle экспериментирует с генерацией мемов, а платформа Rooms тестирует интерактивные 3D-пространства.
Программа открыта для стартапов из регионов, где доступен Gemini. Подать заявку можно на сайте фонда. Участники смогут претендовать не только на технические ресурсы, но и на прямые инвестиции от Google.
blog.google
Злоумышленники активно используют популяризацию ИИ для распространения вредоносного стиллера Noodlophile, маскируя атаки под сервисы для генерации видео и изображений. Как сообщает Morphisec, фейковые страницы Luma Dreammachine Al и CapCut AI рекламируются через соцсети, собирая до 62 000 просмотров на пост. Пользователям предлагают скачать «ИИ-софт», но вместо этого загружается ZIP-архив с исполняемым exe-файлом.
Запуск файла активирует легитимный CapCut.exe, который загружает .NET-лоадер CapCutLoader. Тот, в свою очередь, запускает Python-скрипт, устанавливающий Noodlophile Stealer. Вредонос крадет пароли, данные кошельков и другую информацию, а в некоторых случаях дополняется трояном XWorm для удаленного доступа. Эксперты напоминают: атаки через ИИ-технологии стали трендом. Осторожность — лучшая защита.
thehackernews.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3❤1
🧠 Математика, красота и истина в эпоху ИИ
Когда-то математическое доказательство считалось вершиной человеческой логики и элегантности. Но ИИ меняет даже это.
В статье исследуется, как ИИ трансформирует подходы к математике:
🔹 ИИ создает доказательства — не просто перебором, а находя закономерности, генерируя гипотезы и даже формируя контрпримеры.
🔹 Модели уровня DeepMind уже выигрывают медали на Международной математической олимпиаде.
🔹 Красота и элегантность в доказательствах теперь оцениваются не только людьми — ИИ начинает создавать новые формы "математической эстетики".
> “Они разрушают те границы, которые я считал непреодолимыми”
> — Эндрю Грэнвилл, математик
⚖️ Дискуссия: если ИИ способен доказать теорему, но человек не может это понять — считается ли это «знанием»?
📌 Полный текст
#искусственныйинтеллект #математика #ChatGPT #DeepMind #LLM #AI #наука
Когда-то математическое доказательство считалось вершиной человеческой логики и элегантности. Но ИИ меняет даже это.
В статье исследуется, как ИИ трансформирует подходы к математике:
🔹 ИИ создает доказательства — не просто перебором, а находя закономерности, генерируя гипотезы и даже формируя контрпримеры.
🔹 Модели уровня DeepMind уже выигрывают медали на Международной математической олимпиаде.
🔹 Красота и элегантность в доказательствах теперь оцениваются не только людьми — ИИ начинает создавать новые формы "математической эстетики".
> “Они разрушают те границы, которые я считал непреодолимыми”
> — Эндрю Грэнвилл, математик
⚖️ Дискуссия: если ИИ способен доказать теорему, но человек не может это понять — считается ли это «знанием»?
📌 Полный текст
#искусственныйинтеллект #математика #ChatGPT #DeepMind #LLM #AI #наука
👍8🤮5🔥2❤1🤔1
📊 Математическая задача для Data Scientists: "Идеальная точка разбиения"
**Условие**
У тебя есть список чисел
Нужно определить: существует ли индекс, на котором можно разделить массив на две части так, чтобы стандартное отклонение слева и справа отличалось не более чем на ε (например, 0.1).
Формат:
Пример:
🔍 Подсказка
Используй
Но не забывай, что длина подмассива должна быть как минимум 2.
---
✅ Пример реализации:
```python
import statistics
def has_balanced_std_split(data: list[float], epsilon: float = 0.1) -> bool:
n = len(data)
if n < 4:
return False # Нужны хотя бы 2 элемента в каждой части
for i in range(2, n - 1):
left = data[:i]
right = data[i:]
if len(left) < 2 or len(right) < 2:
continue
std_left = statistics.stdev(left)
std_right = statistics.stdev(right)
if abs(std_left - std_right) <= epsilon:
return True
return False
```
📌 Пример использования:
```python
data = [10, 12, 11, 20, 21, 19]
print(has_balanced_std_split(data, epsilon=0.5)) # True или False в зависимости от разбивки
```
🎯 Что проверяет задача:
• понимание **дисперсии и стандартного отклонения**
• знание **статистических библиотек Python**
• работа с ограничениями на длину срезов
• мышление в духе «разделяй и анализируй»
**Условие**
У тебя есть список чисел
List[float]
, представляющий одномерное распределение (например, значения метрики или зарплаты). Нужно определить: существует ли индекс, на котором можно разделить массив на две части так, чтобы стандартное отклонение слева и справа отличалось не более чем на ε (например, 0.1).
Формат:
def has_balanced_std_split(data: list[float], epsilon: float = 0.1) -> bool:
...
Пример:
data = [1.0, 2.0, 3.0, 4.0, 5.0]
# Разделение после 2 → [1.0, 2.0], [3.0, 4.0, 5.0]
# std слева ≈ 0.5, справа ≈ 0.816 → разница = 0.316 > 0.1 → не подходит
🔍 Подсказка
Используй
statistics.stdev()
или numpy.std(ddof=1)
(с выборочной коррекцией). Но не забывай, что длина подмассива должна быть как минимум 2.
---
✅ Пример реализации:
```python
import statistics
def has_balanced_std_split(data: list[float], epsilon: float = 0.1) -> bool:
n = len(data)
if n < 4:
return False # Нужны хотя бы 2 элемента в каждой части
for i in range(2, n - 1):
left = data[:i]
right = data[i:]
if len(left) < 2 or len(right) < 2:
continue
std_left = statistics.stdev(left)
std_right = statistics.stdev(right)
if abs(std_left - std_right) <= epsilon:
return True
return False
```
📌 Пример использования:
```python
data = [10, 12, 11, 20, 21, 19]
print(has_balanced_std_split(data, epsilon=0.5)) # True или False в зависимости от разбивки
```
🎯 Что проверяет задача:
• понимание **дисперсии и стандартного отклонения**
• знание **статистических библиотек Python**
• работа с ограничениями на длину срезов
• мышление в духе «разделяй и анализируй»
👍6❤3
🧠 Восстановление искажённых измерений с дневным смещением
У вас есть температурные измерения за 10 дней, но каждый день датчик добавляет случайное смещение (bias), постоянное в течение дня. Также есть шум измерений.
📊 Ваша задача:
1. Оценить bias по дням
2. Восстановить истинную температуру
3. Посчитать RMSE между восстановленной и настоящей температурой
📦 Генерация данных
🔍 Разбор: как оценить смещение
Идея: температура в течение дня плавно колеблется, но bias в этот день одинаков для всех точек. Если мы "сгладим" значения (например, скользящим средним), то можем аппроксимировать общий тренд — и вычесть его, получив оценку bias.
🔧 Способ: вычтем сглаженный тренд, затем усредним остатки по дню:
```python
# Сглаживаем тренд
df["trend"] = df["measured_temp"].rolling(window=12, center=True, min_periods=1).mean()
# Остатки (приближение к bias)
df["residual"] = df["measured_temp"] - df["trend"]
# Оценка bias как среднее отклонение внутри дня
bias_est = df.groupby("day")["residual"].mean()
df["estimated_bias"] = df["day"].map(bias_est)
# Восстановим температуру: measured - bias
df["restored_temp"] = df["measured_temp"] - df["estimated_bias"]
```
📊 Результаты
Оценим ошибку восстановления:
```python
from sklearn.metrics import mean_squared_error
rmse = mean_squared_error(df["true_temp"], df["restored_temp"], squared=False)
print(f"RMSE восстановления: {rmse:.4f}")
```
> ✅ Обычно RMSE ≈ 0.5–0.7 — это близко к стандартному отклонению шума, значит bias устранён успешно!
💡 Вывод
✔️ Простая техника — сглаживание + усреднение отклонений — позволяет оценить дневные смещения
✔️ Без знания "истинной" температуры можно получить довольно точную реконструкцию
✔️ Это напоминает реальные задачи очистки данных от сенсорных сдвигов или ошибок калибровки
📈 Отличный пример практики Data Science с уклоном в математику, временные ряды и обработку шумов!
У вас есть температурные измерения за 10 дней, но каждый день датчик добавляет случайное смещение (bias), постоянное в течение дня. Также есть шум измерений.
📊 Ваша задача:
1. Оценить bias по дням
2. Восстановить истинную температуру
3. Посчитать RMSE между восстановленной и настоящей температурой
📦 Генерация данных
import pandas as pd
import numpy as np
np.random.seed(42)
days = pd.date_range("2023-01-01", periods=10, freq="D")
true_temp = np.sin(np.linspace(0, 3 * np.pi, 240)) * 10 + 20
bias_per_day = np.random.uniform(-2, 2, size=len(days))
df = pd.DataFrame({
"datetime": pd.date_range("2023-01-01", periods=240, freq="H"),
})
df["day"] = df["datetime"].dt.date
df["true_temp"] = true_temp
df["bias"] = df["day"].map(dict(zip(days.date, bias_per_day)))
df["measured_temp"] = df["true_temp"] + df["bias"] + np.random.normal(0, 0.5, size=240)
🔍 Разбор: как оценить смещение
Идея: температура в течение дня плавно колеблется, но bias в этот день одинаков для всех точек. Если мы "сгладим" значения (например, скользящим средним), то можем аппроксимировать общий тренд — и вычесть его, получив оценку bias.
🔧 Способ: вычтем сглаженный тренд, затем усредним остатки по дню:
```python
# Сглаживаем тренд
df["trend"] = df["measured_temp"].rolling(window=12, center=True, min_periods=1).mean()
# Остатки (приближение к bias)
df["residual"] = df["measured_temp"] - df["trend"]
# Оценка bias как среднее отклонение внутри дня
bias_est = df.groupby("day")["residual"].mean()
df["estimated_bias"] = df["day"].map(bias_est)
# Восстановим температуру: measured - bias
df["restored_temp"] = df["measured_temp"] - df["estimated_bias"]
```
📊 Результаты
Оценим ошибку восстановления:
```python
from sklearn.metrics import mean_squared_error
rmse = mean_squared_error(df["true_temp"], df["restored_temp"], squared=False)
print(f"RMSE восстановления: {rmse:.4f}")
```
> ✅ Обычно RMSE ≈ 0.5–0.7 — это близко к стандартному отклонению шума, значит bias устранён успешно!
💡 Вывод
✔️ Простая техника — сглаживание + усреднение отклонений — позволяет оценить дневные смещения
✔️ Без знания "истинной" температуры можно получить довольно точную реконструкцию
✔️ Это напоминает реальные задачи очистки данных от сенсорных сдвигов или ошибок калибровки
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7❤1🥰1
Forwarded from Machinelearning
V-Triune - фреймворк с новым методом обучения VL-моделей, через единый алгоритм подкрепления.
В отличие от традиционных методов трейна VLM, сосредоточенных на отдельных задачах вроде решения математических задач или обнаружения объектов, V-Triune обучает модели одновременно работать с рассуждениями и восприятием. RL в V-Triune действует как механизм «настройки» уже заложенных в модель возможностей, а не добавляет новые навыки.
Это достигается за счет 3 ключевых компонентов: форматирования данных на уровне выборок, вычисления наград через специализированные верификаторы и мониторинга метрик по источникам данных.
Например, динамическая награда IoU адаптирует пороги точности для обнаружения объектов — сначала стимулируя базовое понимание, а затем требуя высокой точности.
Тестирование проводилось на бенчмарке MEGA-Bench из440 задач — от анализа графиков до OCR. Экспериментальные модели Orsta (7B и 32B параметров), обученные с V-Triune, показали прирост производительности до +14,1% по сравнению с базовыми версиями.
На задачах восприятия (обнаружение объектов в COCO), улучшения достигли +12,17% для mAP@50. Для математических задач (MathVista) результаты выросли на 5%, а в OCR — на 1-2%. При этом система стабильно работала даже при обучении на смешанных данных, что косвенно подтвердило ее универсальность.
Minimax открыли (но пока не загрузили его в репозиторий) код V-Triune и модели Orsta:
⚠️ В версии 0321 попытки совместного обновления визуального и языкового модулей приводили к взрыву градиентов, поэтому ViT пришлось заморозить. В 0326, благодаря исправлениям в архитектуре, RL-тренинг стал стабильнее. 0326 рекомендуется для задач, где критична точность и надежность форматов ответов.
@ai_machinelearning_big_data
#AI #ML #VLM #RL #Framework #MiniMax
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍2🔥1
Forwarded from Data Secrets
Кто обучает будущих архитекторов AGI
Каждый второй стартап пишет «AI-native» в питч-деке, но остаётся вопрос: кто вообще готовит тех, кто сможет строить такие системы?
Это преподаватели и эксперты-практики, которые не только работают в индустрии, но и делятся знаниями со студентами. Они читают курсы, вытаскивают студентов в реальные проекты и актуализируют программы в университетах.
Yandex ML Prize 2025 как раз про таких — про тех, кто стоит у истоков индустрии, хотя их обычно не видно в релизах и исследованиях. В этом году премия от Яндекса вручает гранты и поддерживает преподавателей, которые формируют будущую экосистему ML в России.
Прием заявок на премию открыт до 22 июня. Категории: от преподавателей со стажем до руководителей целых ML-программ.
Каждый второй стартап пишет «AI-native» в питч-деке, но остаётся вопрос: кто вообще готовит тех, кто сможет строить такие системы?
Это преподаватели и эксперты-практики, которые не только работают в индустрии, но и делятся знаниями со студентами. Они читают курсы, вытаскивают студентов в реальные проекты и актуализируют программы в университетах.
Yandex ML Prize 2025 как раз про таких — про тех, кто стоит у истоков индустрии, хотя их обычно не видно в релизах и исследованиях. В этом году премия от Яндекса вручает гранты и поддерживает преподавателей, которые формируют будущую экосистему ML в России.
Прием заявок на премию открыт до 22 июня. Категории: от преподавателей со стажем до руководителей целых ML-программ.
👍5❤1🔥1
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
По словам Павла Дурова, его платформа и компания Илона Маска xAI заключили годовое соглашение. xAI заплатит Telegram $300 млн. за интеграцию чат-бота Grok прямо в мессенджер. Помимо этого, Telegram также будет получать 50% от выручки с подписок на Grok, которые будут продаваться внутри платформы.
Илон Маск позже написал в X: "Контракт еще не подписан". Однако он не стал уточнять детали, оставив вопрос открытым. Пока что официальная позиция Telegram – сделка есть, и она принесет пользователям лучший ИИ на рынке уже этим летом.
Новость пришла на фоне важных для Telegram событий: сервис преодолел отметку в 1 млрд. активных пользователей в месяц в этом году и разместил облигации на $1.5 млрд.
Pavel Durov
Anthropic сняла ограничения с функции веб-поиска в Claude: теперь даже бесплатные пользователи смогут получать ответы на основе актуальных данных из интернета. Ранее, доступ к этой опции, которая анализирует информацию в реальном времени, был эксклюзивом для платных подписчиков. Это изменение позволит чаще обновлять знания модели и точнее решать задачи.
Параллельно стартовало тестирование голосового режима в мобильном приложении. Пользователи могут общаться с Claude в формате диалога, выбирая из 5 вариантов голоса и получать краткие текстовые сводки прошлых бесед. По умолчанию для диалогов задействована модель Sonnet 4.
support.anthropic
OpenAI активно прорабатывает функцию "Вход через ChatGPT", позволяющую пользователям авторизовываться в сторонних приложениях через свои аккаунты ChatGPT. Компания уже собирает заявки от разработчиков, желающих интегрировать эту опцию в свои сервисы. Пилотный запуск для тестирования уже доступен в Codex CLI — инструменте для работы с ИИ в терминале. Разработчики могут подключить ChatGPT Free, Plus или Pro к своим API-аккаунтам, получая бонусные кредиты ($5 для Plus и $50 для Pro).
Это стратегический ход для расширения экосистемы. С 600 млн активных пользователей ежемесячно, "Вход через ChatGPT" может стать ключевым элементом, помогая OpenAI конкурировать с Google и Apple в сфере единого входа и онлайн-сервисов. Точные сроки публичного релиза пока неизвестны.
techcrunch
К своему юбилею Google Photos получает мощное обновление, сфокусированное на ИИ-редактировании. Сервис, где ежемесячно редактируют 210 млн. снимков, теперь предлагает умные подсказки по улучшению кадра одним нажатием. Можно тыкнуть пальцем или обвести область — нейросеть предложит подходящий инструмент. Главные новинки — "Reimagine" и "Auto Frame", ранее доступные только на Pixel 9.
"Reimagine" меняет выбранный объект или добавляет новый по текстовому запросу через генеративный ИИ. "Auto Frame" автоматически кадрирует фото, а нейросеть дорисовывает фон. Плюс Google добавит QR-коды для альбомов, чтобы удобно собирать фото с мероприятий. Правда, обновленный редактор появится на Android в июне, а владельцам iPhone ждать до конца года.
arstechnica
С 28 мая стартовал прием заявок на ежегодную премию Yandex ML Prize 2025. Эта награда — реальное признание и поддержка для тех, кто растит новые кадры ML в России. Премия существует с 2019 года как память об Илье Сегаловиче, и за шесть лет её получили уже 60 выдающихся педагогов и руководителей.
Податься могут вузовские преподаватели, ученые из исследовательских центров и руководители образовательных программ в области Сomputer Science. Победителей ждут денежные призы и полезные гранты на Yandex Cloud, которые точно пригодится в работе: делать новые курсы, организовывать хакатоны и проводить исследования вместе со студентами.
Заявки принимают до 22 июня. Само награждение, как обычно, пройдет осенью.
habr.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4❤2👎1🥰1
Таблицы интегралов и другое.pdf
55.9 MB
Таблицы интегралов и другие математические формулы
Г. Б. Двайт
Содержит подробные таблицы неопределенных и определенных интегралов, много других математических формул.
Г. Б. Двайт
Содержит подробные таблицы неопределенных и определенных интегралов, много других математических формул.
❤7🔥2
🧠 Загадка: 9 + 9 = ??
На первый взгляд — обычные примеры. Но смотри внимательнее:
Стандартная арифметика тут не работает. Найдём скрытую логику:
Разберём:
• 5 × 5 = 25 → 25 + 1 = 26
• 6 × 6 = 36 → 36 + 2 = 38
• 7 × 7 = 49 → 49 + 3 = 52
Кажется, формула такая:
🔍 **x + x = (x × x) + (x − 4)**
Тогда:
```
9 + 9 = 9 × 9 + (9 − 4) = 81 + 5 = ✅ **86**
```
📌 Ответ: **86**
#Логика #Головоломка #Математика #Mindset #Пазлы
На первый взгляд — обычные примеры. Но смотри внимательнее:
5 + 5 = 26
6 + 6 = 38
7 + 7 = 52
9 + 9 = ??
Стандартная арифметика тут не работает. Найдём скрытую логику:
Разберём:
• 5 × 5 = 25 → 25 + 1 = 26
• 6 × 6 = 36 → 36 + 2 = 38
• 7 × 7 = 49 → 49 + 3 = 52
Кажется, формула такая:
🔍 **x + x = (x × x) + (x − 4)**
Тогда:
```
9 + 9 = 9 × 9 + (9 − 4) = 81 + 5 = ✅ **86**
```
📌 Ответ: **86**
👍26👎18🤨7❤3🥰3🔥2🆒1
Мультимодальная модель от NVIDIA уверенно занимает первое место на OCRBench v2, показав лучшую точность парсинга документов среди всех моделей.
📄 Что это такое:
Llama Nemotron Nano VL — лёгкая vision-language модель для интеллектуальной обработки документов (IDP), которая:
• разбирает PDF
• вытаскивает таблицы
• парсит графики и диаграммы
• работает на одной GPU
– Вопрос-ответ по документам
– Извлечение таблиц
– Анализ графиков
– Понимание диаграмм и дешбордов
📊 OCRBench v2 — крупнейший двухъязычный бенчмарк для визуального анализа текста, и именно NVIDIA Nano VL показывает лучший результат.
#Nemotron #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍3
🤖 AlphaEvolve: ИИ от DeepMind, который создаёт новые алгоритмы
В мае 2025 года DeepMind представила AlphaEvolve — универсального ИИ-агента, способного самостоятельно разрабатывать и оптимизировать алгоритмы. Это не просто генератор кода: AlphaEvolve сочетает мощь языковых моделей Gemini с эволюционными методами поиска и автоматической проверкой решений.
🧠 Что умеет AlphaEvolve?
- Решение сложных математических задач: AlphaEvolve улучшил нижнюю границу числа поцелуев в 11 измерениях с 592 до 593 — впервые за десятилетия :contentReference[oaicite:0]{index=0}.
- Оптимизация алгоритмов умножения матриц: Превзошёл алгоритм Штрассена 1969 года, сократив количество умножений для 4×4 матриц с 49 до 48 :contentReference[oaicite:1]{index=1}.
- Улучшение инфраструктуры Google: Повысил эффективность дата-центров на 1%, оптимизировал дизайн TPU и ускорил обучение моделей Gemini :contentReference[oaicite:2]{index=2}.
⚙️ Как это работает?
AlphaEvolve использует:
1. Исходный алгоритм и функцию оценки.
2. Языковую модель Gemini, чтобы генерировать варианты решения.
3. Автоматическую проверку для оценки эффективности каждого варианта.
4. Эволюционный цикл: лучшие решения сохраняются и используются для генерации новых.
Такой подход позволяет AlphaEvolve находить решения, которые ранее были недоступны даже экспертам.
📊 Результаты
- В 75% случаев AlphaEvolve воспроизводил известные оптимальные решения.
- В 20% случаев находил новые, более эффективные решения.
- В оставшихся 5% — результаты были хуже известных, что подчёркивает необходимость дальнейших исследований :contentReference[oaicite:3]{index=3}.
🌐 Почему это важно?
AlphaEvolve демонстрирует, что ИИ способен не только повторять известные решения, но и создавать новые знания. Это шаг к ИИ, который может активно участвовать в научных открытиях и инженерных разработках.
🔗 Подробнее
#DeepMind #AlphaEvolve #ИИ #Алгоритмы #Наука #Технологии #Gemini
В мае 2025 года DeepMind представила AlphaEvolve — универсального ИИ-агента, способного самостоятельно разрабатывать и оптимизировать алгоритмы. Это не просто генератор кода: AlphaEvolve сочетает мощь языковых моделей Gemini с эволюционными методами поиска и автоматической проверкой решений.
🧠 Что умеет AlphaEvolve?
- Решение сложных математических задач: AlphaEvolve улучшил нижнюю границу числа поцелуев в 11 измерениях с 592 до 593 — впервые за десятилетия :contentReference[oaicite:0]{index=0}.
- Оптимизация алгоритмов умножения матриц: Превзошёл алгоритм Штрассена 1969 года, сократив количество умножений для 4×4 матриц с 49 до 48 :contentReference[oaicite:1]{index=1}.
- Улучшение инфраструктуры Google: Повысил эффективность дата-центров на 1%, оптимизировал дизайн TPU и ускорил обучение моделей Gemini :contentReference[oaicite:2]{index=2}.
⚙️ Как это работает?
AlphaEvolve использует:
1. Исходный алгоритм и функцию оценки.
2. Языковую модель Gemini, чтобы генерировать варианты решения.
3. Автоматическую проверку для оценки эффективности каждого варианта.
4. Эволюционный цикл: лучшие решения сохраняются и используются для генерации новых.
Такой подход позволяет AlphaEvolve находить решения, которые ранее были недоступны даже экспертам.
📊 Результаты
- В 75% случаев AlphaEvolve воспроизводил известные оптимальные решения.
- В 20% случаев находил новые, более эффективные решения.
- В оставшихся 5% — результаты были хуже известных, что подчёркивает необходимость дальнейших исследований :contentReference[oaicite:3]{index=3}.
🌐 Почему это важно?
AlphaEvolve демонстрирует, что ИИ способен не только повторять известные решения, но и создавать новые знания. Это шаг к ИИ, который может активно участвовать в научных открытиях и инженерных разработках.
🔗 Подробнее
#DeepMind #AlphaEvolve #ИИ #Алгоритмы #Наука #Технологии #Gemini
❤12👍4👎3🔥3
🦆 Как использовать DuckDB с Python: практическое руководство по аналитике
DuckDB — это современная in-process аналитическая СУБД, разработанная как “SQLite для аналитики”. Она идеально подходит для обработки больших объёмов данных на локальной машине без необходимости поднимать сервер или использовать тяжёлые хранилища.
📦 Что делает DuckDB особенной?
- Работает как библиотека внутри Python (через `duckdb`)
- Поддерживает SQL-запросы напрямую к pandas DataFrame, CSV, Parquet, Arrow и другим источникам
- Оптимизирована под аналитические запросы: агрегации, группировки, фильтрации
- Мгновенно работает с большими файлами без предварительной загрузки
🧪 Пример рабочего сценария:
1️⃣ Чтение и анализ Parquet-файла:
2️⃣ Интеграция с pandas:
3️⃣ Объединение нескольких источников:
🧠 Почему это важно:
- 📊 Вы можете использовать SQL и pandas одновременно
- 🚀 DuckDB быстрее pandas в большинстве аналитических задач, особенно на больших данных
- 🧩 Поддержка стандартов данных (Parquet, Arrow) даёт нативную интеграцию с экосистемой Data Science
- 🔧 Не требует настройки: просто установите через
🎯 Применения:
- Локальный анализ данных (до десятков ГБ) — без Spark
- Объединение таблиц из разных форматов (Parquet + CSV + DataFrame)
- Прототипирование ETL-пайплайнов и построение дашбордов
- Быстрая агрегация и отчёты по логам, BI-данным, IoT-стримам и пр.
📌 Советы:
- Используйте
- Результаты запросов можно конвертировать обратно в pandas через
- DuckDB поддерживает оконные функции,
🔗 Подробный гайд:
https://www.kdnuggets.com/integrating-duckdb-python-an-analytics-guide
#DuckDB #Python #DataScience #Analytics #SQL #Pandas #Parquet #BigData
DuckDB — это современная in-process аналитическая СУБД, разработанная как “SQLite для аналитики”. Она идеально подходит для обработки больших объёмов данных на локальной машине без необходимости поднимать сервер или использовать тяжёлые хранилища.
📦 Что делает DuckDB особенной?
- Работает как библиотека внутри Python (через `duckdb`)
- Поддерживает SQL-запросы напрямую к pandas DataFrame, CSV, Parquet, Arrow и другим источникам
- Оптимизирована под аналитические запросы: агрегации, группировки, фильтрации
- Мгновенно работает с большими файлами без предварительной загрузки
🧪 Пример рабочего сценария:
1️⃣ Чтение и анализ Parquet-файла:
import duckdb
duckdb.sql("SELECT COUNT(*), AVG(price) FROM 'data.parquet'")
2️⃣ Интеграция с pandas:
import pandas as pd
df = pd.read_csv("data.csv")
result = duckdb.sql("SELECT category, AVG(value) FROM df GROUP BY category").df()
3️⃣ Объединение нескольких источников:
duckdb.sql("""
SELECT a.user_id, b.event_time
FROM 'users.parquet' a
JOIN read_csv('events.csv') b
ON a.user_id = b.user_id
""")
🧠 Почему это важно:
- 📊 Вы можете использовать SQL и pandas одновременно
- 🚀 DuckDB быстрее pandas в большинстве аналитических задач, особенно на больших данных
- 🧩 Поддержка стандартов данных (Parquet, Arrow) даёт нативную интеграцию с экосистемой Data Science
- 🔧 Не требует настройки: просто установите через
pip install duckdb
🎯 Применения:
- Локальный анализ данных (до десятков ГБ) — без Spark
- Объединение таблиц из разных форматов (Parquet + CSV + DataFrame)
- Прототипирование ETL-пайплайнов и построение дашбордов
- Быстрая агрегация и отчёты по логам, BI-данным, IoT-стримам и пр.
📌 Советы:
- Используйте
read_parquet
, read_csv_auto
и from_df()
для гибкой загрузки данных - Результаты запросов можно конвертировать обратно в pandas через
.df()
- DuckDB поддерживает оконные функции,
GROUP BY
, JOIN
, UNION
, LIMIT
, подзапросы и многое другое — это полноценный SQL-движок🔗 Подробный гайд:
https://www.kdnuggets.com/integrating-duckdb-python-an-analytics-guide
#DuckDB #Python #DataScience #Analytics #SQL #Pandas #Parquet #BigData
🔥10❤6👍3👎1🥰1