Data Science. SQL hub

0:28

https://www.youtube.com/shorts/y5orXDD2mdU

🖥

PYTHON: ХИТРЫЙ ТРЮК С SQL

Если вы работаете с большими таблицами в SQL через Python, и не хотите тянуть всё в память, используйте ленивую подгрузку данных с генерацией чанков. Это особенно полезно, если вы делаете агрегации, фильтрации или сохраняете результат в файл — можно обрабатывать данные частями, не загружая весь датасет сразу.

Удобно, быстро и экономит память. Работает даже с миллионами строк.


import pandas as pd
from sqlalchemy import create_engine

# подключение к базе данных (пример для PostgreSQL)
engine = create_engine("postgresql://user:password@localhost:5432/dbname")

# читаем по 10000 строк за раз
chunk_iter = pd.read_sql("SELECT * FROM big_table", engine, chunksize=10000)

# обработка: сохраняем отфильтрованные строки в файл
with open("filtered_output.csv", "w", encoding="utf-8") as f:
    for i, chunk in enumerate(chunk_iter):
        filtered = chunk[chunk["amount"] > 1000]
        filtered.to_csv(f, index=False, header=(i == 0))

Please open Telegram to view this post

VIEW IN TELEGRAM

❤17🔥4👍2

4.11K views08:03

⚠️ Расследователи сомневается в AI-сделках Oracle на $300 млрд = и это тревожный сигнал

Сейчас мы видим, как крупнейшие IT-компании (гиперскейлеры) заключают многолетние контракты на искусственный интеллект на сотни миллиардов долларов.

Но никто ещё не проверял, насколько всё это реально окупается. Это - эксперимент на деньгах, технологиях и времени.

💸 Если хотя бы часть этих сделок не сработает, задержится или не принесёт ожидаемой прибыли, удар почувствует вся AI-индустрия - от чипов до облаков.

🧱 Да, AI-бум реален. Но его финансовый фундамент пока как мокрый цемент — выглядит крепко, но легко может просесть.

🎯 Если у Oracle получится - они войдут в список самых влиятельных компаний мира.
❗ Если нет — вся отрасль поймёт, насколько эта гонка на самом деле рискованна и нестабильна.

> 📊 Пузыри не лопаются, когда в них перестают верить.
> Они лопаются, когда кто-то наконец проверяет цифры.

@sqlhub

👍9❤4🔥1

4.01K viewsedited 09:01

🔥 Подборка полезных ресурсов для программистов.

Здесь ты найдёшь всё это - коротко, по делу и без воды.
Пока другие ищут, где “подглядеть решение”, ты уже используешь самые свежие инструменты!

AI: www.tgoop.com/ai_machinelearning_big_data
Python: www.tgoop.com/pythonl
Linux: www.tgoop.com/linuxacademiya
Devops: www.tgoop.com/DevOPSitsec
Собеседования DS: www.tgoop.com/machinelearning_interview
C++ www.tgoop.com/cpluspluc
Docker: www.tgoop.com/DevopsDocker
Хакинг: www.tgoop.com/linuxkalii
Data Science: www.tgoop.com/data_analysis_ml
Javascript: www.tgoop.com/javascriptv
C#: www.tgoop.com/csharp_1001_notes
Java: www.tgoop.com/java_library
Базы данных: www.tgoop.com/databases_tg
Python собеседования: www.tgoop.com/python_job_interview
Мобильная разработка: www.tgoop.com/mobdevelop
Golang: www.tgoop.com/Golang_google
React: www.tgoop.com/react_tg
Rust: www.tgoop.com/rust_code
ИИ: www.tgoop.com/vistehno
PHP: www.tgoop.com/phpshka
Android: www.tgoop.com/android_its
Frontend: www.tgoop.com/front
Big Data: www.tgoop.com/bigdatai
МАТЕМАТИКА: www.tgoop.com/data_math
Kubernets: www.tgoop.com/kubernetc
Разработка игр: https://www.tgoop.com/gamedev
Haskell: www.tgoop.com/haskell_tg
Физика: www.tgoop.com/fizmat

💼 Папка с вакансиями: www.tgoop.com/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: www.tgoop.com/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: www.tgoop.com/addlist/eEPya-HF6mkxMGIy
Папка ML: https://www.tgoop.com/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://www.tgoop.com/addlist/mzMMG3RPZhY2M2Iy
Папка Linux:https://www.tgoop.com/addlist/w4Doot-XBG4xNzYy

😆ИТ-Мемы: www.tgoop.com/memes_prog
🇬🇧Английский: www.tgoop.com/english_forprogrammers
🧠ИИ: www.tgoop.com/vistehno

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: https://www.tgoop.com/addlist/BkskQciUW_FhNjEy

Сохрани себе, чтобы не потерять!

4.44K viewsedited 08:49

Показывает план выполнения с информацией о партициях, задействованных в запросе

Что делает оператор EXPLAIN PARTITIONS в MySQL?

Anonymous Quiz

76%

16%

Выполняет запрос и разбивает результат по партициям

Создаёт партиции для таблицы

Удаляет партиции, не используемые в запросе

👍5❤3🔥2

450 voters4.12K views07:24

Твои скиллы получат буст после IT Talk by Sber в Омске 🚀

Иного просто не может быть — за один вечер вы прокачаете навыки и узнаете:

▪️ Что такое E2E-система, зачем она нужна и как помогает решить проблемы разработки на практике?
▪️ Как вайб-кодинг помогает в проработке задач, проверке гипотез и концепций?
▪️ Как написать агента на Java и какой стек использовать?

Подробная программа и регистрация по ссылке. Встречаемся 20 ноября в 18:00 в кампусе «Школы 21» по адресу: ул. Ленина, д. 26 Б.

❤2

3.99K views08:02

📚 Курс, который прокачает твои AI-скиллы в BigQuery

Этот курс учит работать с Gemini прямо внутри BigQuery и закрывает полный набор практических навыков:

- генерация и отладка SQL-запросов с помощью Gemini
- анализ тональности текста
- автоматические суммари и выделение ключевых слов
- генерация эмбеддингов
- построение RAG-пайплайна
- мультимодальный векторный поиск

Если хочешь уверенно использовать AI-инструменты в аналитике и продуктах — этот курс даёт полный набор необходимых умений.

https://www.skills.google/paths/1803/course_templates/1232

❤5👍3🔥2

4.39K views12:03

Узнайте, как строить сложные AI-процессы на AI DevTools Conf

4 декабря команда Cloud.ru проводит практическую конференцию для AI/ML-инженеров, архитекторов, техлидов и всех, кто работает с AI.

В программе доклады и воркшопы, где вы научитесь:
😶‍🌫️собирать AI-агентов

😶‍🌫️управлять уязвимостями

😶‍🌫️внедрять AI-инструменты в разработку

😶‍🌫️тестировать LLM-агентов

😶‍🌫️и не только

А еще можно будет протестировать сервисы для работы с AI&ML, задать вопросы экспертам и остаться на afterparty.

Места на офлайн-участие ограничены, поэтому советуем сразу перейти к регистрации.

Зарегистрироваться

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

3.26K views11:31

⚡️ Знакомство с MCP Toolbox for Databases (ранее Gen AI Toolbox for Databases) от Google

Почему стоит обратить внимание
Toolbox - это open-source сервер, который упрощает создание инструментов на базе ИИ, работающих с базами данных. Он берет на себя сложности вроде пулов соединений, аутентификации и телеметрии.

Что даёт:
- Можно интегрировать новые инструменты в агента (или ИИ-ассистента) всего в ~10 строках кода.
- Производительность выше за счёт продвинутого управления соединениями и аутентификацией.
- Безопасность: встроенная авторизация, контроль доступа к данным.
- Полная видимость: метрики и трассировка (OpenTelemetry) сразу «из коробки».
- Возможность общаться с БД на естественном языке, получить код, тесты, индексы — прямо из IDE.

Архитектура в двух словах
Toolbox размещается между вашим приложением (или агентом) и базой данных. Он действует как «контрольная плоскость» — управляет инструментами, хранит и обновляет их, позволяет нескольким агентам и приложениям использовать один и тот же набор инструментов без перекомпиляции.

Быстрый старт:
- Установите сервер (бинарник, контейнер или собрать из исходников).
- Создайте файл tools.yaml и запустите: ./toolbox --tools-file "tools.yaml"
- Используйте SDK (Python, JS/TS, Go) в своём приложении, подключитесь к серверу и загрузите нужный набор инструментов.

Кому это полезно:
Разработчикам приложений, где ИИ-агент делает работу с базами данных: запросы, обновления, анализ схем. Если хотите, могу подготовить мини-таск или пример использования Toolbox с вашим стеком.

https://googleapis.github.io/genai-toolbox/getting-started/introduction/

❤4👍3

3.69K views13:32

0:10

VK RecSys Challenge: проверьте свой алгоритм в деле!

В самом разгаре ежегодное соревнование по разработке рекомендательных систем от VK — RecSys Challenge 2025. Участникам предстоит решить одну из самых сложных проблем в мире рекомендаций: задачу холодного старта.

Суть соревнования — построить модель, которая предскажет, кому из пользователей понравится новый клип, даже если его ещё никто не видел.

Что ждёт участников:
• Реальные данные — датасет VK-LSVD с 40 млрд взаимодействий и 20 млн коротких видео
• Можно участвовать соло или в команде до 4 человек
• Техническая свобода — до 5 сабмитов в день, возможность экспериментировать
• Общий призовой фонд — 2 500 000 рублей

Приглашают студентов, исследователей, ML-инженеров — всех, кто хочет испытать свои силы на реальных данных и создать алгоритм, который работает в условиях, максимально приближенных к контентной жизни.

Регистрация открыта до 15 декабря. Успейте подать заявку, скачать датасет и начать эксперименты!

👉 Подробности и регистрация на сайте

👏2❤1

4.18K views08:04

SQLModel — это библиотека для взаимодействия с базами данных SQL из кода Python с использованием объектов Python.

Она интуитивно понятна, проста в использовании, обладает высокой совместимостью и надёжностью.

👍8🔥5❤3

4.04K views04:22

0:27

SQL СОВЕТ

Ловите тяжёлые запросы на ранней стадии через контролируемые анти-джоины.
Когда нужно узнать, какие записи *не имеют* соответствий в другой таблице, разработчики часто используют LEFT JOIN .

Гораздо быстрее использовать NOT EXISTS — он позволяет планировщику остановиться сразу, как только найдено первое совпадение, и эффективно задействует индексы.


select u.user_id
from users u
where not exists (
    select 1
    from logins l
    where l.user_id = u.user_id
      and l.created_at >= now() - interval '7 days'
);

👍14❤7🔥7

4.01K views10:04

🌊 ETL на стероидах: стриминг данных Postgres в реальном времени на Rust 🦀

Supabase выкатили интересный open-source фреймворк - supabase/etl, который позволяет стримить данные из Postgres куда угодно в реальном времени.

Это набор простых, модульных Rust-блоков, из которых можно собрать собственный конвейер Change Data Capture (CDC). Вы получаете полный контроль над тем, как обрабатывать изменения в базе и куда их отправлять — без тяжёлых платформ и сложных конфигов.

Что делает этот фреймворк полезным:

- Прямой стриминг изменений из Postgres (CDC)
- Rust — значит скорость, надёжность и низкие накладные расходы
- Гибкие компоненты: можно строить свои конвейеры под любые нужды
- Подходит для интеграций, аналитики, событийных систем, real-time обновлений
- Легче и прозрачнее, чем классические ETL/ELT-платформы

По сути, это конструктор, из которого можно быстро собрать real-time data pipeline:
достал изменения из Postgres → преобразовал → отправил в Kafka, ClickHouse, S3, API — куда угодно.

Если вы работаете с потоковыми данными, аналитикой или микросервисами - стоит попробовать. Rust + CDC - это мощное сочетание для стабильных и быстрых пайплайнов.

https://github.com/supabase/etl

👍8🔥4❤3

4.22K views10:05

Как ML алгоритмы рулят онлайн-рекламой: про маркетинг и большие данные

AI VK рассказали, какой ML нужен, чтобы обрабатывать десятки миллиардов рекламных объявлений в режиме реального времени. Всё это завязано на единой Discovery-платформе, работающей как инфраструктурный слой для рекламы, рекомендаций и поиска.

Tproger

Как рекламные алгоритмы понимают, что вы захотите купить, еще до того, как вы об этом подумали

❤9👏7🔥6👎2👍1

3.23K viewsedited 10:32

Как правильно оптимизировать SQL в бэкенде, чтобы запросы работали быстрее, снижали задержки и не создавали узких мест в системе.

→ Некачественно написанный SQL приводит к высоким задержкам, росту нагрузки на CPU и проблемам в нагруженных сервисах.

Основные принципы оптимизации:

✓ 1. Анализ планов выполнения
Он подчёркивает необходимость использовать EXPLAIN / EXPLAIN ANALYZE, чтобы увидеть, как база реально исполняет запрос: где происходят полные сканирования таблиц, плохие джоины или отсутствуют индексы.

✓ 2. Индексация
Он рекомендует ставить индексы на часто используемые поля и ключи, применять составные индексы, но избегать чрезмерной индексации, чтобы не замедлять записи.

✓ 3. Отказ от SELECT *
Он настаивает на выборе только нужных столбцов — это снижает трафик и ускоряет выполнение.

✓ 4. Оптимизация джоинов
Нужно правильно выбирать тип JOIN, индексировать поля, участвующие в соединениях, и избегать слишком глубоких джоин-цепочек.

✓ 5. Грамотные WHERE-фильтры
Фильтровать данные как можно раньше, использовать индексируемые колонки и избегать функций в WHERE, которые «ломают» индексы.

✓ 6. Ограничение числа строк
Использовать LIMIT / OFFSET и постраничный вывод, а не отдавать пользователю огромные выборки.

✓ 7. Избежание проблемы N+1
Фетчить связанные данные заранее через JOIN или батч-запросы.

✓ 8. Кэширование
Он предлагает кэшировать частые запросы с помощью Redis или Memcached, чтобы уменьшить нагрузку на базу.

✓ 9. Нормализация и денормализация
Нормализация уменьшает дублирование, денормализация ускоряет чтение — важно выбирать подход под задачу.

✓ 10. Оптимизация вставок и обновлений
Использовать bulk insert, проверять необходимость обновлений.

✓ 11. Партиционирование таблиц
Он предлагает разбивать большие таблицы по дате или региону, что особенно полезно для логов и аналитики.

Эти рекомендации помогают backend-разработчикам строить более быстрые, масштабируемые и надёжные системы.

❤13👍7🔥2

3.29K viewsedited 12:35

0:26

🚨 SQL Никогда НЕ ДЕЛАЙ ТАК #sql

НИКОГДА НЕ ЛОМАЙ ИНДЕКСЫ ФУНКЦИЯМИ: не оборачивай индексируемые поля в функции внутри WHERE.

Как только ты пишешь LOWER(), CAST(), COALESCE() или любые вычисления по колонке — индекс перестаёт работать, и запрос падает в полное сканирование таблицы.

Это одна из самых тихих причин, почему запросы внезапно превращаются в тормоза.

Вместо этого приводи значения заранее или используй функциональные индексы.


 Плохо: индекс по email НЕ используется  
SELECT *  
FROM users  
WHERE LOWER(email) = '[email protected]';

-- Хорошо: нормализуем значение заранее  
SELECT *  
FROM users  
WHERE email = '[email protected]';

-- Или создаём функциональный индекс (PostgreSQL)  
CREATE INDEX idx_users_email_lower ON users (LOWER(email));

👍18❤7🔥5

2.89K views10:02

На AI Journey презентовали крупнейший open-source проект в Европе: Сбер открыл доступ к своим флагманским моделям - GigaChat Ultra-Preview и Lightning, а также новое поколение открытых моделей GigaAM-v3 для распознавания речи, все модели генерации изображений и видео новой линейки Kandinsky 5.0 — Video Pro, Video Lite и Image Lite.

GigaChat Ultra-Preview, новая MoE-модель, 702 миллиарда параметров, собранная под русский язык и натренированная полностью с нуля. Читайте подробный пост от команды.

Впервые в России обучена MoE-модель такого масштаба полностью с нуля — без зависимости от зарубежных весов. Обучение с нуля, да и ещё на таком масштабе, — это вызов, который приняли немногие команды в мире.

Флагманская модель Kandinsky Video Pro сравнялась с Veo 3 по визуальному качеству и обогнала Wan 2.2-A14B. Читайте подробный пост от команды.

Код и веса всех моделей теперь доступны всем пользователям по лицензии MIT, в том числе для использования в коммерческих целях.

❤4😁3

2.37K views15:40

🖥

Вышли новые релизы для тех, кто использует PostgreSQL в окружениях с несколькими СУБД.

IvorySQL 5.0
Свежий релиз проекта, который развивает редакцию PostgreSQL с целью обеспечить максимальную совместимость с Oracle.

Ключевые особенности:
- работает как почти полная замена стандартного PostgreSQL
- добавлена настройка compatible_db, включающая режим совместимости с Oracle
- подходит для приложений, изначально написанных под Oracle
- код на C
- лицензия Apache 2.0

IvorySQL позиционируется как прозрачный переходный слой между экосистемами PostgreSQL и Oracle.

Источник
postgresql точка org слеш about слеш news слеш ivorysql 50 released major oracle compatibility expansion on postgresql 180 foundation 3180

https://www.postgresql.org/about/news/ivorysql-50-released-major-oracle-compatibility-expansion-on-postgresql-180-foundation-3180/

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍1🔥1

2.5K views17:40