Математика Дата саентиста 760

Математика Дата саентиста

🖥 Задача: "Оптимизация вероятности успеха в стохастической системе"

📌 Условие:

Вы работаете над системой, где каждый эксперимент (тест, запуск модели, продукт) может быть успешным или неуспешным.
Результат одного запуска — 1 (успех) или 0 (провал).

Известно:

- Вероятность успеха одного эксперимента — неизвестна, обозначим её как p.
- У вас есть N исторических наблюдений: x1, x2, ..., xN, где каждое xi равно 0 или 1.

Вопросы:

1. Построить оценку вероятности успеха p и доверительный интервал на уровне 95%.
2. Рассчитать, сколько экспериментов нужно запустить, чтобы вероятность выхода в прибыль была выше 95%, учитывая:
- стоимость одного запуска C;
- прибыль от одного успешного эксперимента R.

---

▪️ Подсказки:

- Для оценки p используйте биномиальную модель.
- Для доверительного интервала:
- Можно использовать нормальное приближение (если выборка большая),
- Или Wilson-интервал для аккуратности.

---

▪️ Что оценивается:

- Правильная работа с вероятностями и доверием.
- Способность адекватно аппроксимировать биномиальные распределения.
- Чистота и практичность вычислений.

---

▪️ Разбор возможного решения:

▪️ 1. Оценка вероятности успеха:


# p_hat - оценка вероятности успеха
p_hat = sum(xi_list) / N

где xi_list — список из 0 и 1 (результаты экспериментов).

▪️ 2. Доверительный интервал через нормальное приближение:


import math
z = 1.96  # для 95% доверия
std_error = math.sqrt(p_hat * (1 - p_hat) / N)
lower_bound = p_hat - z * std_error
upper_bound = p_hat + z * std_error

▪️ 3. Wilson-интервал (более аккуратный):


z = 1.96  # для 95% доверия
center = (p_hat + z**2 / (2 * N)) / (1 + z**2 / N)
margin = (z * math.sqrt((p_hat * (1 - p_hat) / N) + (z**2 / (4 * N**2)))) / (1 + z**2 / N)
lower_bound = center - margin
upper_bound = center + margin

---

▪️ 4. Прибыльность эксперимента:

Формула прибыли при n экспериментах:


profit = successes * R - n * C

Требуется:


P(profit > 0) >= 0.95

Число успехов должно быть больше определённой границы:


min_successes = (n * C) / R

Если n велико, количество успехов приближается к нормальному распределению:


mean_successes = n * p_hat
std_successes = math.sqrt(n * p_hat * (1 - p_hat))

Для нормального приближения можно написать:


# Вероятность успешности через нормальное распределение
from scipy.stats import norm

# Вероятность, что количество успехов больше нужного
prob = 1 - norm.cdf(min_successes, loc=mean_successes, scale=std_successes)

Тогда перебором или через уравнение ищем минимальное n, чтобы prob >= 0.95.

---

▪️ Возможные подводные камни:

- Нельзя использовать нормальное приближение при малом N — нужна биномиальная модель.
- Неверное задание границ доверительного интервала может привести к неправильной стратегии запуска.
- Плохое понимание соотношения C и R приводит к ошибочным выводам об окупаемости.

---

📌Дополнительные вопросы:

- Как бы вы учли, что прибыль от успеха — случайная величина?
- Как пересчитать стратегии, если вероятность успеха зависит от времени (`p = f(t)`)?
- Как применить байесовский апдейт для оценки вероятности успеха?

---

Please open Telegram to view this post

VIEW IN TELEGRAM

👍10❤‍🔥6🔥2❤1👎1

4.54K views12:03

Математика Дата саентиста

Московские_математические_олимпиады_1993—2005.pdf

2 MB

Московские математические олимпиады 1993—2005
Под редакцией В. М. Тихомирова

В книге собраны задачи Московских математических олимпиад 1993—
2005 г. с ответами, указаниями и подробными решениями. В дополнениях
приведены основные факты, используемые в решении олимпиадных задач,
и избранные задачи Московских математических олимпиад 1937—1992 г.
Все задачи в том или ином смысле нестандартные. Их решение требует смекалки, сообразительности, а иногда и многочасовых размышлений.
Книга предназначена для учителей математики, руководителей кружков, школьников старших классов, студентов педагогических специальностей. Книга будет интересна всем любителям красивых математических
задач.

👍12❤7🔥4🥰2

3.99K views15:02

Математика Дата саентиста

🎲 Задача с подвохом: Монетки и ошибка интуиции

Условие:

У вас есть две монеты:

• Монета A: честная, вероятность выпадения орла = 50%
• Монета B: нечестная, у неё две стороны с орлами (орёл всегда выпадает)

Вы случайным образом выбираете одну монету (с вероятностью 50% каждая) и подбрасываете её один раз. Выпадает орёл.

❓ Вопрос:
Какова вероятность того, что вы выбрали нечестную монету (Монета B)?

🔍 Разбор:

На первый взгляд многие отвечают: «Мы выбрали монету случайно, значит вероятность всё ещё 50%». Но это ловушка!

Нам нужно пересчитать вероятность с учётом того, что выпал орёл. Это задача по формуле Байеса.

🧮 Обозначения:

• A: выбрана честная монета
• B: выбрана нечестная монета
• O: выпал орёл

Мы ищем вероятность:
P(B | O) — вероятность того, что выбрана Монета B, если мы увидели орла.

1️⃣ Запишем известные вероятности:

• P(A) = 0.5
• P(B) = 0.5

• P(O | A) = 0.5 (честная монета)
• P(O | 😎 = 1 (нечестная монета)

2️⃣ Применяем формулу Байеса:

P(B | O) = (P(O | 😎 * P(B)) / (P(O | A) * P(A) + P(O | 😎 * P(B))

Подставляем значения:

= (1 * 0.5) / (0.5 * 0.5 + 1 * 0.5)
= 0.5 / (0.25 + 0.5)
= 0.5 / 0.75 ≈ 0.6667

✅

**Ответ:**

Вероятность того, что выбрана нечестная монета после выпадения орла, составляет примерно 66,7%.

💥 **Подвох:**

Интуитивно кажется, что выбор монеты не зависит от результата подбрасывания, но дополнительная информация (факт выпадения орла) меняет распределение вероятностей. Это классический пример условной вероятности.

🧠 **Почему это важно для Data Science:**

• Обновление вероятностей при поступлении новых данных — ключевой навык для Байесовских моделей
• Ошибки интуиции часто встречаются при работе с вероятностями в задачах диагностики, фрод-аналитики и рекомендаций
• Глубокое понимание условной вероятности помогает строить более точные и надёжные модели

👍22❤4🔥4👎1

3.12K views11:10

Математика Дата саентиста

🕳️ Учёные предложили, что у света может быть «тёмная» сторона — и это может перевернуть физику, которую мы знаем уже 100 лет.

🧪 Что произошло
Всем известен школьный опыт: если пропустить свет через две щели, на экране появляется рисунок из светлых и тёмных полос. Это считалось главным доказательством того, что свет ведёт себя как волна.

Но команда немецких учёных из Института Макса Планка говорит:
👉 может быть, это вовсе не волны, а особое квантовое поведение частиц света — фотонов.

👻 Что такое «тёмный фотон»?
По их теории, фотоны бывают двух типов:

Яркие фотоны — те, которые мы видим и которые фиксирует прибор

Тёмные фотоны — невидимые, не взаимодействуют с миром напрямую, но могут менять поведение ярких фотонов

🧠 Представь, что кто-то невидимый толкает шарик на столе — ты не видишь «того, кто толкнул», но видишь, как шарик катится. Вот так же и тёмные фотоны: они не видны, но влияют на результат.

🔍 Почему это важно
Если теория верна, то:

Мы можем переосмыслить природу света: возможно, он не волна, а чисто частица

Это убирает загадку: «как один фотон проходит через две щели сразу?»

Это может повлиять на квантовые технологии и объяснить эффекты, которые раньше казались странными

📌 Пока это теория, но она уже вызвала обсуждения в мире науки.
Если она подтвердится — нам придётся по-новому смотреть на то, как устроен свет и квантовая физика.

🔗 Подробнее — в статье New Scientist

👍13👎7❤3🔥1🤡1🫡1

2.74K views11:08

Математика Дата саентиста

🧠 Задача для дата-сайентистов: "Невидимая переменная"

У вас есть датафрейм с результатами тестирования модели A/B:


| user_id | group | conversion_rate |
|---------|--------|-----------------|
| 1001    | A      | 0               |
| 1002    | A      | 1               |
| 1003    | B      | 0               |
| 1004    | B      | 1               |
| ...     | ...    | ...             |

По результатам A/B теста кажется, что разницы между группами нет. Вы проверили chi-squared test и Mann-Whitney — тоже ничего.

🧩 Однако ваш коллега утверждает, что в данных явно зарыта сильная зависимость, которую можно выявить, если «включить голову».

---

🔍 Вопрос:
Какой скрытый фактор мог полностью «маскировать» эффект от теста и как его можно вычислить, даже если он отсутствует в таблице напрямую?

💡 Подсказка: данные собирались в течение 30 дней, но колонка с датой/временем была потеряна при сохранении. Однако user_id — это не случайное число.

🎯 Что нужно сделать:

1. 🧠 Предположить, что user_id содержит зашумлённую информацию о времени регистрации (например, ID выдаются монотонно)
2. 🧮 Смоделировать зависимость результата от user_id и проверить, не является ли тест несбалансированным по времени
3. 📈 Построить метрику на основе сгруппированных окон по user_id и визуализировать смещение между группами A и B

🎯 Ключевая идея решения:

Хотя колонка с датой была потеряна, можно сделать разумное предположение:
🔸 `user_id` назначается **монотонно**, т.е. пользователи с меньшими ID пришли раньше.

Если эксперимент длился 30 дней, а пользователи приходили неравномерно, то:
- группа A могла доминировать в начале
- группа B — в конце

📉 А что, если в эти периоды поведение пользователей менялось? Например, была акция, баг, праздник?

🔍 **Решение: как восстановить эффект**

1. 🟤 Добавим к данным колонку `bucket = user_id // 100`, чтобы разбить пользователей на условные "временные окна"
2. 🟤 Для каждого `bucket` считаем среднюю `conversion_rate` отдельно по группам A и B
3. 🟤 Строим график `conversion_A - conversion_B` по bucket

Если кривая скачет — тест **несбалансирован по времени** и глобальное сравнение групп вводит в заблуждение.

👍7🔥4🥴2

2.89K views17:04

Математика Дата саентиста

Почему нужно популяризировать математику?

Этот вопрос стал ключевым в разговоре ректора университета «Иннополис» Александра Гасникова и руководителя департамента анализа данных и моделирования ВТБ Дениса Суржко в подкасте «Деньги любят техно».

В этом сезоне подкаст стал философским и визионерским: гости говорят не только о технологических решениях, но и о смыслах, которые стоят за ними. Александр Гасников — молодой современный ученый, который перешел на позицию руководителя университета и занялся административной деятельностью. И о том, как отличаются две эти роли, он вполне подробно рассказал в выпуске.

А еще в подкасте: какие задачи стоят перед современными техническими вузами, почему подготовка молодых кадров должна стать приоритетом, какие навыки требуются в науке и в работе на коммерческие компании и в целом куда ведёт нас развитие ИИ.

Абсолютно точно полезно послушать всем.

Видеоверсия доступна здесь
Аудиоверсия — на любой удобной платформе

👍2❤1🔥1🥰1😱1

2.68K views15:14

Математика Дата саентиста

Forwarded from Machinelearning

5:21

Media is too big

VIEW IN TELEGRAM

✔️

Y Combinator назвал главные тренды лета 2025 для стартапов.

Y Combinator сделал ставку на ИИ-агентов, способных переосмыслить целые индустрии. Вместо точечных решений, основателям советуют создавать «полноценные ИИ-компании» - например, запускать собственные юридические бюро с ИИ-юристами вместо сотрудников. Такой подход позволяет обойти медлительных конкурентов, предлагая клиентам более дешевые и эффективные сервисы.

Особый интерес к автоматизации рутины: персональные ассистенты, которые не просто напоминают о задачах, а самостоятельно отвечают на письма, планируют встречи и имитируют стиль общения пользователя. Y Combinator верит: будущее за командами, которые не просто внедряют ИИ, а перестраивают рынки с нуля, как это сделали Airbnb или Stripe.
ycombinator.com

✔️

ИИ помог создать синтетические ДНК-усилители для контроля генной экспрессии.

Ученые из Центра геномной регуляции в Барселоне впервые применили генеративный ИИ для проектирования синтетических молекул ДНК, способных управлять активностью генов в здоровых клетках млекопитающих. Модель, обученная на данных тысяч экспериментов, генерирует последовательности «с нуля», задавая критерии.

В качестве теста создали фрагменты ДНК, активирующие ген флуоресцентного белка в клетках крови мышей. Результаты совпали с прогнозами: синтетические усилители генной активности работали как «переключатели» в зависимости от типа клеток. Исследование открывает путь к персонализированным методам коррекции генов. По словам авторов, это похоже на «написание софта для биологии», где каждая инструкция для клетки становится программируемой.
technologynetworks.com

✔️

OpenAI запускает HealthBench.

OpenAI представила HealthBench - бенчмарк для тестирования ИИ-систем в сфере здравоохранения. Разработанный при участии 262 врачей из 60 стран, он включает 5000 реалистичных диалогов, имитирующих общение пациентов и медиков. Каждый сценарий оценивается по индивидуальным критериям, созданным экспертами: точность данных или ясность ответов.

Всего в бенчмарке 48 562 параметра оценки, что позволяет глубоко анализировать работу моделей. Особый упор сделан на надежность: даже один ошибочный ответ в медицине критичен. HealthBench включает подборки сложных кейсов (HealthBench Hard), где современные ИИ еще отстают. Все данные и методики уже доступны в GitHub-репозитории OpenAI .
openai.com

✔️

Google запускает фонд для стартапов.

Google анонсировала AI Futures Fund — программу для поддержки ИИ-стартапов. Участники получат ранний доступ к моделям DeepMind (Gemini, Imagen и Veo). Кроме технологий, стартапы смогут консультироваться с инженерами и исследователями Google, а также получат облачные кредиты для обучения и масштабирования решений. Уже сейчас с фондом работают проекты из разных сфер: индийский Toonsutra внедряет Gemini для перевода комиксов, Viggle экспериментирует с генерацией мемов, а платформа Rooms тестирует интерактивные 3D-пространства.

Программа открыта для стартапов из регионов, где доступен Gemini. Подать заявку можно на сайте фонда. Участники смогут претендовать не только на технические ресурсы, но и на прямые инвестиции от Google.
blog.google

✔️

Поддельные ИИ-инструменты распространяют стиллер Noodlophile.

Злоумышленники активно используют популяризацию ИИ для распространения вредоносного стиллера Noodlophile, маскируя атаки под сервисы для генерации видео и изображений. Как сообщает Morphisec, фейковые страницы Luma Dreammachine Al и CapCut AI рекламируются через соцсети, собирая до 62 000 просмотров на пост. Пользователям предлагают скачать «ИИ-софт», но вместо этого загружается ZIP-архив с исполняемым exe-файлом.

Запуск файла активирует легитимный CapCut.exe, который загружает .NET-лоадер CapCutLoader. Тот, в свою очередь, запускает Python-скрипт, устанавливающий Noodlophile Stealer. Вредонос крадет пароли, данные кошельков и другую информацию, а в некоторых случаях дополняется трояном XWorm для удаленного доступа. Эксперты напоминают: атаки через ИИ-технологии стали трендом. Осторожность — лучшая защита.
thehackernews.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥3❤1

2.9K views17:14

Математика Дата саентиста

🧠 Математика, красота и истина в эпоху ИИ

Когда-то математическое доказательство считалось вершиной человеческой логики и элегантности. Но ИИ меняет даже это.

В статье исследуется, как ИИ трансформирует подходы к математике:

🔹 ИИ создает доказательства — не просто перебором, а находя закономерности, генерируя гипотезы и даже формируя контрпримеры.
🔹 Модели уровня DeepMind уже выигрывают медали на Международной математической олимпиаде.
🔹 Красота и элегантность в доказательствах теперь оцениваются не только людьми — ИИ начинает создавать новые формы "математической эстетики".

> “Они разрушают те границы, которые я считал непреодолимыми”
> — Эндрю Грэнвилл, математик

⚖️ Дискуссия: если ИИ способен доказать теорему, но человек не может это понять — считается ли это «знанием»?

📌 Полный текст

#искусственныйинтеллект #математика #ChatGPT #DeepMind #LLM #AI #наука

👍8🤮5🔥2❤1🤔1

3.4K views09:50

Математика Дата саентиста

📊 Математическая задача для Data Scientists: "Идеальная точка разбиения"

**Условие**
У тебя есть список чисел List[float], представляющий одномерное распределение (например, значения метрики или зарплаты).
Нужно определить: существует ли индекс, на котором можно разделить массив на две части так, чтобы стандартное отклонение слева и справа отличалось не более чем на ε (например, 0.1).

Формат:


def has_balanced_std_split(data: list[float], epsilon: float = 0.1) -> bool:
    ...

Пример:


data = [1.0, 2.0, 3.0, 4.0, 5.0]  
# Разделение после 2 → [1.0, 2.0], [3.0, 4.0, 5.0]  
# std слева ≈ 0.5, справа ≈ 0.816 → разница = 0.316 > 0.1 → не подходит

🔍 Подсказка
Используй statistics.stdev() или numpy.std(ddof=1) (с выборочной коррекцией).
Но не забывай, что длина подмассива должна быть как минимум 2.

---

✅ Пример реализации:

```python
import statistics

def has_balanced_std_split(data: list[float], epsilon: float = 0.1) -> bool:
n = len(data)
if n < 4:
return False # Нужны хотя бы 2 элемента в каждой части

for i in range(2, n - 1):
left = data[:i]
right = data[i:]

if len(left) < 2 or len(right) < 2:
continue

std_left = statistics.stdev(left)
std_right = statistics.stdev(right)

if abs(std_left - std_right) <= epsilon:
return True

return False
```

📌 Пример использования:

```python
data = [10, 12, 11, 20, 21, 19]
print(has_balanced_std_split(data, epsilon=0.5)) # True или False в зависимости от разбивки
```

🎯 Что проверяет задача:

• понимание **дисперсии и стандартного отклонения**
• знание **статистических библиотек Python**
• работа с ограничениями на длину срезов
• мышление в духе «разделяй и анализируй»

👍6❤3

3.82K views09:05

Математика Дата саентиста

🧠 Восстановление искажённых измерений с дневным смещением

У вас есть температурные измерения за 10 дней, но каждый день датчик добавляет случайное смещение (bias), постоянное в течение дня. Также есть шум измерений.

📊 Ваша задача:
1. Оценить bias по дням
2. Восстановить истинную температуру
3. Посчитать RMSE между восстановленной и настоящей температурой

📦 Генерация данных


import pandas as pd
import numpy as np

np.random.seed(42)
days = pd.date_range("2023-01-01", periods=10, freq="D")
true_temp = np.sin(np.linspace(0, 3 * np.pi, 240)) * 10 + 20
bias_per_day = np.random.uniform(-2, 2, size=len(days))

df = pd.DataFrame({
    "datetime": pd.date_range("2023-01-01", periods=240, freq="H"),
})
df["day"] = df["datetime"].dt.date
df["true_temp"] = true_temp
df["bias"] = df["day"].map(dict(zip(days.date, bias_per_day)))
df["measured_temp"] = df["true_temp"] + df["bias"] + np.random.normal(0, 0.5, size=240)

🔍 Разбор: как оценить смещение

Идея: температура в течение дня плавно колеблется, но bias в этот день одинаков для всех точек. Если мы "сгладим" значения (например, скользящим средним), то можем аппроксимировать общий тренд — и вычесть его, получив оценку bias.

🔧 Способ: вычтем сглаженный тренд, затем усредним остатки по дню:

```python
# Сглаживаем тренд
df["trend"] = df["measured_temp"].rolling(window=12, center=True, min_periods=1).mean()

# Остатки (приближение к bias)
df["residual"] = df["measured_temp"] - df["trend"]

# Оценка bias как среднее отклонение внутри дня
bias_est = df.groupby("day")["residual"].mean()
df["estimated_bias"] = df["day"].map(bias_est)

# Восстановим температуру: measured - bias
df["restored_temp"] = df["measured_temp"] - df["estimated_bias"]
```

📊 Результаты

Оценим ошибку восстановления:

```python
from sklearn.metrics import mean_squared_error

rmse = mean_squared_error(df["true_temp"], df["restored_temp"], squared=False)
print(f"RMSE восстановления: {rmse:.4f}")
```

> ✅ Обычно RMSE ≈ 0.5–0.7 — это близко к стандартному отклонению шума, значит bias устранён успешно!

💡 Вывод

✔️ Простая техника — сглаживание + усреднение отклонений — позволяет оценить дневные смещения
✔️ Без знания "истинной" температуры можно получить довольно точную реконструкцию
✔️ Это напоминает реальные задачи очистки данных от сенсорных сдвигов или ошибок калибровки

📈

Отличный пример практики Data Science с уклоном в математику, временные ряды и обработку шумов!

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥7❤1🥰1

2.69K views10:03

Математика Дата саентиста

Forwarded from Machinelearning

🌟

V-Triune от MiniMax: RL для VLM.

V-Triune - фреймворк с новым методом обучения VL-моделей, через единый алгоритм подкрепления.

В отличие от традиционных методов трейна VLM, сосредоточенных на отдельных задачах вроде решения математических задач или обнаружения объектов, V-Triune обучает модели одновременно работать с рассуждениями и восприятием. RL в V-Triune действует как механизм «настройки» уже заложенных в модель возможностей, а не добавляет новые навыки.

Это достигается за счет 3 ключевых компонентов: форматирования данных на уровне выборок, вычисления наград через специализированные верификаторы и мониторинга метрик по источникам данных.

Например, динамическая награда IoU адаптирует пороги точности для обнаружения объектов — сначала стимулируя базовое понимание, а затем требуя высокой точности.

Тестирование проводилось на бенчмарке MEGA-Bench из440 задач — от анализа графиков до OCR. Экспериментальные модели Orsta (7B и 32B параметров), обученные с V-Triune, показали прирост производительности до +14,1% по сравнению с базовыми версиями.

На задачах восприятия (обнаружение объектов в COCO), улучшения достигли +12,17% для mAP@50. Для математических задач (MathVista) результаты выросли на 5%, а в OCR — на 1-2%. При этом система стабильно работала даже при обучении на смешанных данных, что косвенно подтвердило ее универсальность.

Minimax открыли (но пока не загрузили его в репозиторий) код V-Triune и модели Orsta:

🟢

Orsta-32B-0326 - стабильная версия на более поздней QwenVL-2.5-32B;

🟠

Orsta-32B-0321 - версия с замороженным ViT на базе QwenVL-2.5-32B-0321;

🟢

Orsta-7B - на базе Qwen2.5-VL-7B-Instruct.

⚠️ В версии 0321 попытки совместного обновления визуального и языкового модулей приводили к взрыву градиентов, поэтому ViT пришлось заморозить. В 0326, благодаря исправлениям в архитектуре, RL-тренинг стал стабильнее. 0326 рекомендуется для задач, где критична точность и надежность форматов ответов.

📌Лицензирование: MIT License.

🟡

Набор моделей

🟡

Arxiv

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #VLM #RL #Framework #MiniMax

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍2🔥1

3.36K views09:10

Математика Дата саентиста

Forwarded from Data Secrets

Кто обучает будущих архитекторов AGI

Каждый второй стартап пишет «AI-native» в питч-деке, но остаётся вопрос: кто вообще готовит тех, кто сможет строить такие системы?

Это преподаватели и эксперты-практики, которые не только работают в индустрии, но и делятся знаниями со студентами. Они читают курсы, вытаскивают студентов в реальные проекты и актуализируют программы в университетах.

Yandex ML Prize 2025 как раз про таких — про тех, кто стоит у истоков индустрии, хотя их обычно не видно в релизах и исследованиях. В этом году премия от Яндекса вручает гранты и поддерживает преподавателей, которые формируют будущую экосистему ML в России.

Прием заявок на премию открыт до 22 июня. Категории: от преподавателей со стажем до руководителей целых ML-программ.

👍5❤1🔥1

2.18K views07:52

Математика Дата саентиста

Forwarded from Machinelearning

6:11

Media is too big

VIEW IN TELEGRAM

✔️

xAI и Telegram планируют партнерство по внедрению Grok.

По словам Павла Дурова, его платформа и компания Илона Маска xAI заключили годовое соглашение. xAI заплатит Telegram $300 млн. за интеграцию чат-бота Grok прямо в мессенджер. Помимо этого, Telegram также будет получать 50% от выручки с подписок на Grok, которые будут продаваться внутри платформы.

Илон Маск позже написал в X: "Контракт еще не подписан". Однако он не стал уточнять детали, оставив вопрос открытым. Пока что официальная позиция Telegram – сделка есть, и она принесет пользователям лучший ИИ на рынке уже этим летом.

Новость пришла на фоне важных для Telegram событий: сервис преодолел отметку в 1 млрд. активных пользователей в месяц в этом году и разместил облигации на $1.5 млрд.
Pavel Durov

✔️

Anthropic открывает бесплатный доступ к веб-поиску в Claude для всех пользователей.

Anthropic сняла ограничения с функции веб-поиска в Claude: теперь даже бесплатные пользователи смогут получать ответы на основе актуальных данных из интернета. Ранее, доступ к этой опции, которая анализирует информацию в реальном времени, был эксклюзивом для платных подписчиков. Это изменение позволит чаще обновлять знания модели и точнее решать задачи.

Параллельно стартовало тестирование голосового режима в мобильном приложении. Пользователи могут общаться с Claude в формате диалога, выбирая из 5 вариантов голоса и получать краткие текстовые сводки прошлых бесед. По умолчанию для диалогов задействована модель Sonnet 4.
support.anthropic

✔️

OpenAI тестирует вход через ChatGPT для сторонних сервисов.

OpenAI активно прорабатывает функцию "Вход через ChatGPT", позволяющую пользователям авторизовываться в сторонних приложениях через свои аккаунты ChatGPT. Компания уже собирает заявки от разработчиков, желающих интегрировать эту опцию в свои сервисы. Пилотный запуск для тестирования уже доступен в Codex CLI — инструменте для работы с ИИ в терминале. Разработчики могут подключить ChatGPT Free, Plus или Pro к своим API-аккаунтам, получая бонусные кредиты ($5 для Plus и $50 для Pro).

Это стратегический ход для расширения экосистемы. С 600 млн активных пользователей ежемесячно, "Вход через ChatGPT" может стать ключевым элементом, помогая OpenAI конкурировать с Google и Apple в сфере единого входа и онлайн-сервисов. Точные сроки публичного релиза пока неизвестны.
techcrunch

✔️

Google Photos обновляет редактор нейросетями к 10-летию сервиса.

К своему юбилею Google Photos получает мощное обновление, сфокусированное на ИИ-редактировании. Сервис, где ежемесячно редактируют 210 млн. снимков, теперь предлагает умные подсказки по улучшению кадра одним нажатием. Можно тыкнуть пальцем или обвести область — нейросеть предложит подходящий инструмент. Главные новинки — "Reimagine" и "Auto Frame", ранее доступные только на Pixel 9.

"Reimagine" меняет выбранный объект или добавляет новый по текстовому запросу через генеративный ИИ. "Auto Frame" автоматически кадрирует фото, а нейросеть дорисовывает фон. Плюс Google добавит QR-коды для альбомов, чтобы удобно собирать фото с мероприятий. Правда, обновленный редактор появится на Android в июне, а владельцам iPhone ждать до конца года.
arstechnica

✔️ Resemble AI открыли код Chatterbox — SOTA для клонирования голоса.

✔️

Яндекс открыл прием заявок на ежегодную премию Yandex ML Prize.

С 28 мая стартовал прием заявок на ежегодную премию Yandex ML Prize 2025. Эта награда — реальное признание и поддержка для тех, кто растит новые кадры ML в России. Премия существует с 2019 года как память об Илье Сегаловиче, и за шесть лет её получили уже 60 выдающихся педагогов и руководителей.

Податься могут вузовские преподаватели, ученые из исследовательских центров и руководители образовательных программ в области Сomputer Science. Победителей ждут денежные призы и полезные гранты на Yandex Cloud, которые точно пригодится в работе: делать новые курсы, организовывать хакатоны и проводить исследования вместе со студентами.

Заявки принимают до 22 июня. Само награждение, как обычно, пройдет осенью.
habr.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4❤2👎1🥰1

3.01K views09:01

Математика Дата саентиста

Таблицы интегралов и другое.pdf

55.9 MB

Таблицы интегралов и другие математические формулы
Г. Б. Двайт

Содержит подробные таблицы неопределенных и определенных интегралов, много других математических формул.

❤7🔥2

3.36K views07:04

Математика Дата саентиста

🧠 Загадка: 9 + 9 = ??

На первый взгляд — обычные примеры. Но смотри внимательнее:


5 + 5 = 26  
6 + 6 = 38  
7 + 7 = 52  
9 + 9 = ??

Стандартная арифметика тут не работает. Найдём скрытую логику:

Разберём:
• 5 × 5 = 25 → 25 + 1 = 26
• 6 × 6 = 36 → 36 + 2 = 38
• 7 × 7 = 49 → 49 + 3 = 52

Кажется, формула такая:
🔍 **x + x = (x × x) + (x − 4)**

Тогда:
```
9 + 9 = 9 × 9 + (9 − 4) = 81 + 5 = ✅ **86**
```

📌 Ответ: **86**

👍26👎18🤨7❤3🥰3🔥2🆒1

3.09K views07:03

Математика Дата саентиста

✔️

Llama Nemotron Nano VL от NVIDIA — один из лучших open-source инструментов для документов**

Мультимодальная модель от NVIDIA уверенно занимает первое место на OCRBench v2, показав лучшую точность парсинга документов среди всех моделей.

📄 Что это такое:
Llama Nemotron Nano VL — лёгкая vision-language модель для интеллектуальной обработки документов (IDP), которая:
• разбирает PDF
• вытаскивает таблицы
• парсит графики и диаграммы
• работает на одной GPU

🔍

**Заточена под:**
– Вопрос-ответ по документам
– Извлечение таблиц
– Анализ графиков
– Понимание диаграмм и дешбордов

🧠 Под капотом — vision-энкодер C-RADIO v2 (distilled multi-teacher трансформер), который справляется даже с визуальным шумом и высоким разрешением.

📊 OCRBench v2 — крупнейший двухъязычный бенчмарк для визуального анализа текста, и именно NVIDIA Nano VL показывает лучший результат.

📌 И всё это работает на одной видеокарте.

🟡

Подробнее

#Nemotron #NVIDIA

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍3

3.3K views10:32

Математика Дата саентиста

🤖 AlphaEvolve: ИИ от DeepMind, который создаёт новые алгоритмы

В мае 2025 года DeepMind представила AlphaEvolve — универсального ИИ-агента, способного самостоятельно разрабатывать и оптимизировать алгоритмы. Это не просто генератор кода: AlphaEvolve сочетает мощь языковых моделей Gemini с эволюционными методами поиска и автоматической проверкой решений.

🧠 Что умеет AlphaEvolve?

- Решение сложных математических задач: AlphaEvolve улучшил нижнюю границу числа поцелуев в 11 измерениях с 592 до 593 — впервые за десятилетия :contentReference[oaicite:0]{index=0}.
- Оптимизация алгоритмов умножения матриц: Превзошёл алгоритм Штрассена 1969 года, сократив количество умножений для 4×4 матриц с 49 до 48 :contentReference[oaicite:1]{index=1}.
- Улучшение инфраструктуры Google: Повысил эффективность дата-центров на 1%, оптимизировал дизайн TPU и ускорил обучение моделей Gemini :contentReference[oaicite:2]{index=2}.

⚙️ Как это работает?

AlphaEvolve использует:

1. Исходный алгоритм и функцию оценки.
2. Языковую модель Gemini, чтобы генерировать варианты решения.
3. Автоматическую проверку для оценки эффективности каждого варианта.
4. Эволюционный цикл: лучшие решения сохраняются и используются для генерации новых.

Такой подход позволяет AlphaEvolve находить решения, которые ранее были недоступны даже экспертам.

📊 Результаты

- В 75% случаев AlphaEvolve воспроизводил известные оптимальные решения.
- В 20% случаев находил новые, более эффективные решения.
- В оставшихся 5% — результаты были хуже известных, что подчёркивает необходимость дальнейших исследований :contentReference[oaicite:3]{index=3}.

🌐 Почему это важно?

AlphaEvolve демонстрирует, что ИИ способен не только повторять известные решения, но и создавать новые знания. Это шаг к ИИ, который может активно участвовать в научных открытиях и инженерных разработках.

🔗 Подробнее

#DeepMind #AlphaEvolve #ИИ #Алгоритмы #Наука #Технологии #Gemini

❤12👍4👎3🔥3

3.33K views12:29

Математика Дата саентиста

🦆 Как использовать DuckDB с Python: практическое руководство по аналитике

DuckDB — это современная in-process аналитическая СУБД, разработанная как “SQLite для аналитики”. Она идеально подходит для обработки больших объёмов данных на локальной машине без необходимости поднимать сервер или использовать тяжёлые хранилища.

📦 Что делает DuckDB особенной?
- Работает как библиотека внутри Python (через `duckdb`)
- Поддерживает SQL-запросы напрямую к pandas DataFrame, CSV, Parquet, Arrow и другим источникам
- Оптимизирована под аналитические запросы: агрегации, группировки, фильтрации
- Мгновенно работает с большими файлами без предварительной загрузки

🧪 Пример рабочего сценария:

1️⃣ Чтение и анализ Parquet-файла:


import duckdb

duckdb.sql("SELECT COUNT(*), AVG(price) FROM 'data.parquet'")

2️⃣ Интеграция с pandas:


import pandas as pd

df = pd.read_csv("data.csv")
result = duckdb.sql("SELECT category, AVG(value) FROM df GROUP BY category").df()

3️⃣ Объединение нескольких источников:


duckdb.sql("""
    SELECT a.user_id, b.event_time
    FROM 'users.parquet' a
    JOIN read_csv('events.csv') b
    ON a.user_id = b.user_id
""")

🧠 Почему это важно:
- 📊 Вы можете использовать SQL и pandas одновременно
- 🚀 DuckDB быстрее pandas в большинстве аналитических задач, особенно на больших данных
- 🧩 Поддержка стандартов данных (Parquet, Arrow) даёт нативную интеграцию с экосистемой Data Science
- 🔧 Не требует настройки: просто установите через pip install duckdb

🎯 Применения:
- Локальный анализ данных (до десятков ГБ) — без Spark
- Объединение таблиц из разных форматов (Parquet + CSV + DataFrame)
- Прототипирование ETL-пайплайнов и построение дашбордов
- Быстрая агрегация и отчёты по логам, BI-данным, IoT-стримам и пр.

📌 Советы:
- Используйте read_parquet, read_csv_auto и from_df() для гибкой загрузки данных
- Результаты запросов можно конвертировать обратно в pandas через .df()
- DuckDB поддерживает оконные функции, GROUP BY, JOIN, UNION, LIMIT, подзапросы и многое другое — это полноценный SQL-движок

🔗 Подробный гайд:
https://www.kdnuggets.com/integrating-duckdb-python-an-analytics-guide

#DuckDB #Python #DataScience #Analytics #SQL #Pandas #Parquet #BigData

🔥10❤6👍3👎1🥰1

3.03K views12:10

2025/07/13 03:48:05
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>