😎💡FineMath: новый математический датасет от Hugging Face
Hugging Face выпустили крупный датасет FineMath, предназначенный для обучения моделей на математическом контенте. Датасет был сформирован с использованием CommonCrawl, классификатора, обученного на аннотациях LLama-3.1-70B-Instruct, и последующей фильтрации данных.
По сравнению с OpenWebMath и InfiMM, FineMath демонстрирует более стабильный рост точности моделей с увеличением объема данных. Этот эффект достигается благодаря качеству и разнообразию контента.
На базе FineMath уже создан проект по обучению LLM для математической помощи — репозиторий доступен на GitHub.
Hugging Face выпустили крупный датасет FineMath, предназначенный для обучения моделей на математическом контенте. Датасет был сформирован с использованием CommonCrawl, классификатора, обученного на аннотациях LLama-3.1-70B-Instruct, и последующей фильтрации данных.
По сравнению с OpenWebMath и InfiMM, FineMath демонстрирует более стабильный рост точности моделей с увеличением объема данных. Этот эффект достигается благодаря качеству и разнообразию контента.
На базе FineMath уже создан проект по обучению LLM для математической помощи — репозиторий доступен на GitHub.
🌎Небольшая обзор Data Science ивентов за 2025 год
18 января - Data Ёлка 2024 – Москва, Россия - https://ods.ai/events/data-elka-2024
22-23 января - Data Fusion Awards 2025 – Москва, Россия - https://awards.data-fusion.ru/
30 января - CX Focus 2025 – Москва, Россия - https://cxfocus.ru/
26 февраля - Качество данных 2025 – Москва, Россия - https://www.osp.ru/lp/dataquality2025
27 марта - DATA+AI 2025 – Москва, Россия - https://www.osp.ru/lp/data-ai2025
25 апреля - Merge 2025 – Казань, Россия - https://tatarstan2025.mergeconf.ru/
1 июня - Saint HighLoad++ 2025 - Санкт-Петербург, Россия - https://highload.ru/spb/2025
19 июня - IT IS conf 2025 – Екатеринбург, Россия - https://itisconf.ru/
23 сентября - Data Conf 2025 – Москва, Россия - https://datainternals.ru/2025
15-16 октября - Innovation Tech Days 2025 – Онлайн - https://smartgopro.com/innovation_tech_days/
18 января - Data Ёлка 2024 – Москва, Россия - https://ods.ai/events/data-elka-2024
22-23 января - Data Fusion Awards 2025 – Москва, Россия - https://awards.data-fusion.ru/
30 января - CX Focus 2025 – Москва, Россия - https://cxfocus.ru/
26 февраля - Качество данных 2025 – Москва, Россия - https://www.osp.ru/lp/dataquality2025
27 марта - DATA+AI 2025 – Москва, Россия - https://www.osp.ru/lp/data-ai2025
25 апреля - Merge 2025 – Казань, Россия - https://tatarstan2025.mergeconf.ru/
1 июня - Saint HighLoad++ 2025 - Санкт-Петербург, Россия - https://highload.ru/spb/2025
19 июня - IT IS conf 2025 – Екатеринбург, Россия - https://itisconf.ru/
23 сентября - Data Conf 2025 – Москва, Россия - https://datainternals.ru/2025
15-16 октября - Innovation Tech Days 2025 – Онлайн - https://smartgopro.com/innovation_tech_days/
awards.data-fusion.ru
Data Fusion Awards
Общероссийская кросс-отраслевая премия в области технологий работы с данными и ИИ
🤔Чем же отличаются Smart Data от Big Data?
В статье What’s Smart data and how it’s different from Big data? автор рассматривает особенности "Умных Данных". Ниже мы приведем свое видение этой концепции (оно может отличаться, а может и совпадать🥸).
Итак, Smart Data — это концепция, ориентированная на обработку, анализ и использование данных с учетом их актуальности, качества и пользы для принятия решений. В отличие от Big Data, где акцент делается на объем, Smart Data фокусируется на извлечении ценной информации из огромного массива данных.
🤔Особенности Smart Data:
✅Качество данных: Отбор только релевантных, точных и структурированных данных
✅Контекстуальность: Данные обрабатываются с учетом их значимости для конкретной задачи
✅Аналитика в реальном времени: Smart Data используются для возможности быстрого принятия решений
🤔Преимущества:
✅Эффективность: Экономия ресурсов за счет работы только с нужными данными
✅Персонализация: Возможность адаптировать услуги под конкретные потребности
✅Меньше ошибок: Фокус на высоком качестве данных снижает риски получения некорректных результатов
🥸Однако не все так радужно, есть и недостатки:
✅Этические и правовые вопросы: Работа с персональными данными несет риски нарушения конфиденциальности и неправомерного использования информации. Это может привести к штрафам и утрате доверия
✅Высокая зависимость от качества данных: Если исходные данные неполные, неточные или устаревшие, результаты анализа могут вводить в заблуждение и ухудшить принятие решений
✅Высокая стоимость внедрения: Требуется инвестиция в технологии, время и квалифицированный персонал
✅Проблемы интерпретации результатов: Даже с качественными данными аналитика может быть сложной для понимания неэкспертами, что требует дополнительных затрат на обучение сотрудников
✅Технические сбои: Инфраструктура для обработки данных может быть уязвима к сбоям, что особенно критично при работе с реальными процессами, такими как управление в финансовой или медицинской сфере
🧐Таким образом, Smart Data — это про осмысленное использование данных для достижения конкретных целей. Эта концепция позволяет компаниям не только справляться с информационным шумом, но и получать конкурентные преимущества. Однако внедрение требует продуманной стратегии и ресурсов, иначе есть риск понести огромные убытки
В статье What’s Smart data and how it’s different from Big data? автор рассматривает особенности "Умных Данных". Ниже мы приведем свое видение этой концепции (оно может отличаться, а может и совпадать🥸).
Итак, Smart Data — это концепция, ориентированная на обработку, анализ и использование данных с учетом их актуальности, качества и пользы для принятия решений. В отличие от Big Data, где акцент делается на объем, Smart Data фокусируется на извлечении ценной информации из огромного массива данных.
🤔Особенности Smart Data:
✅Качество данных: Отбор только релевантных, точных и структурированных данных
✅Контекстуальность: Данные обрабатываются с учетом их значимости для конкретной задачи
✅Аналитика в реальном времени: Smart Data используются для возможности быстрого принятия решений
🤔Преимущества:
✅Эффективность: Экономия ресурсов за счет работы только с нужными данными
✅Персонализация: Возможность адаптировать услуги под конкретные потребности
✅Меньше ошибок: Фокус на высоком качестве данных снижает риски получения некорректных результатов
🥸Однако не все так радужно, есть и недостатки:
✅Этические и правовые вопросы: Работа с персональными данными несет риски нарушения конфиденциальности и неправомерного использования информации. Это может привести к штрафам и утрате доверия
✅Высокая зависимость от качества данных: Если исходные данные неполные, неточные или устаревшие, результаты анализа могут вводить в заблуждение и ухудшить принятие решений
✅Высокая стоимость внедрения: Требуется инвестиция в технологии, время и квалифицированный персонал
✅Проблемы интерпретации результатов: Даже с качественными данными аналитика может быть сложной для понимания неэкспертами, что требует дополнительных затрат на обучение сотрудников
✅Технические сбои: Инфраструктура для обработки данных может быть уязвима к сбоям, что особенно критично при работе с реальными процессами, такими как управление в финансовой или медицинской сфере
🧐Таким образом, Smart Data — это про осмысленное использование данных для достижения конкретных целей. Эта концепция позволяет компаниям не только справляться с информационным шумом, но и получать конкурентные преимущества. Однако внедрение требует продуманной стратегии и ресурсов, иначе есть риск понести огромные убытки
Orchestrate Blog
What’s Smart data and how it’s different from Big data?
Big data has been employed in business metrics to focus on primary aspects such as improvements of retention and conversion rates.
Какой инструмент вы предпочли бы использовать для обработки потоковых данных?
Anonymous Poll
72%
Apache Spark
10%
Microsoft SQL Server
8%
Oracle Database
10%
Elasticsearch
😎💡Топ подборка полезных инструментов для работы с данными
gitingest — это утилита, созданная для автоматизации анализа данных из репозиториев Git. Она позволяет собирать информацию о коммитах, ветках и авторах, а затем преобразовывать её в удобные форматы для интеграции с языковыми моделями (LLM). Инструмент идеально подходит для анализа истории изменений, построения моделей на основе кода и автоматизации работы с репозиториями
datasketch — Python-библиотека для оптимизации работы с большими данными. Она предоставляет вероятностные структуры данных, включая MinHash для оценки схожести Jaccard и HyperLogLog для подсчёта уникальных объектов. Эти инструменты позволяют быстро выполнять задачи, такие как поиск похожих элементов и анализ кардинальности, с минимальными затратами памяти и времени.
Polars — высокопроизводительная библиотека для работы с табличными данными, разработанная на Rust с поддержкой Python. Библиотека интегрируется с NumPy, Pandas, PyArrow, Matplotlib, Plotly, Scikit-learn и TensorFlow. Polars поддерживает фильтрацию, сортировку, слияние, объединение и группировку данных, обеспечивая высокую скорость и эффективность для аналитики и обработки больших объемов данных.
SQLAlchemy — библиотека для работы с базами данных, поддерживающая взаимодействие с PostgreSQL, MySQL, SQLite, Oracle, MS SQL и другими СУБД. Она предоставляет инструменты для объектно-реляционного отображения (ORM), что упрощает управление данными, позволяя разработчикам работать с объектами Python вместо написания SQL-запросов, а также поддерживает гибкую работу с "сырыми" SQL для сложных сценариев.
SymPy — библиотека для работы с символьной математикой в Python. Она позволяет выполнять операции над выражениями, уравнениями, функциями, матрицами, векторами, полиномами и другими объектами. С помощью SymPy можно решать уравнения, упрощать выражения, вычислять производные, интегралы, приближения, подстановки, факторизации, а также работать с логарифмами, тригонометрией, алгеброй и геометрией.
DeepChecks — это Python-библиотека для автоматизированной проверки моделей и данных машинного обучения. Она выявляет проблемы с производительностью моделей, целостностью данных, несоответствием распределений и другими аспектами. DeepChecks позволяет легко создавать кастомные проверки, а результаты визуализируются в удобных таблицах и графиках, упрощая анализ и интерпретацию.
Scrubadub — Python-библиотека, предназначенная для обнаружения и удаления персонально идентифицируемой информации (PII) из текста. Она может распознавать и скрывать такие данные, как имена, номера телефонов, адреса, номера кредитных карт и многое другое. Инструмент поддерживает настройку правил и может быть интегрирован в различные приложения для обработки конфиденциальных данных.
gitingest — это утилита, созданная для автоматизации анализа данных из репозиториев Git. Она позволяет собирать информацию о коммитах, ветках и авторах, а затем преобразовывать её в удобные форматы для интеграции с языковыми моделями (LLM). Инструмент идеально подходит для анализа истории изменений, построения моделей на основе кода и автоматизации работы с репозиториями
datasketch — Python-библиотека для оптимизации работы с большими данными. Она предоставляет вероятностные структуры данных, включая MinHash для оценки схожести Jaccard и HyperLogLog для подсчёта уникальных объектов. Эти инструменты позволяют быстро выполнять задачи, такие как поиск похожих элементов и анализ кардинальности, с минимальными затратами памяти и времени.
Polars — высокопроизводительная библиотека для работы с табличными данными, разработанная на Rust с поддержкой Python. Библиотека интегрируется с NumPy, Pandas, PyArrow, Matplotlib, Plotly, Scikit-learn и TensorFlow. Polars поддерживает фильтрацию, сортировку, слияние, объединение и группировку данных, обеспечивая высокую скорость и эффективность для аналитики и обработки больших объемов данных.
SQLAlchemy — библиотека для работы с базами данных, поддерживающая взаимодействие с PostgreSQL, MySQL, SQLite, Oracle, MS SQL и другими СУБД. Она предоставляет инструменты для объектно-реляционного отображения (ORM), что упрощает управление данными, позволяя разработчикам работать с объектами Python вместо написания SQL-запросов, а также поддерживает гибкую работу с "сырыми" SQL для сложных сценариев.
SymPy — библиотека для работы с символьной математикой в Python. Она позволяет выполнять операции над выражениями, уравнениями, функциями, матрицами, векторами, полиномами и другими объектами. С помощью SymPy можно решать уравнения, упрощать выражения, вычислять производные, интегралы, приближения, подстановки, факторизации, а также работать с логарифмами, тригонометрией, алгеброй и геометрией.
DeepChecks — это Python-библиотека для автоматизированной проверки моделей и данных машинного обучения. Она выявляет проблемы с производительностью моделей, целостностью данных, несоответствием распределений и другими аспектами. DeepChecks позволяет легко создавать кастомные проверки, а результаты визуализируются в удобных таблицах и графиках, упрощая анализ и интерпретацию.
Scrubadub — Python-библиотека, предназначенная для обнаружения и удаления персонально идентифицируемой информации (PII) из текста. Она может распознавать и скрывать такие данные, как имена, номера телефонов, адреса, номера кредитных карт и многое другое. Инструмент поддерживает настройку правил и может быть интегрирован в различные приложения для обработки конфиденциальных данных.
GitHub
GitHub - cyclotruc/gitingest: Replace 'hub' with 'ingest' in any github url to get a prompt-friendly extract of a codebase
Replace 'hub' with 'ingest' in any github url to get a prompt-friendly extract of a codebase - GitHub - cyclotruc/gitingest: Replace 'hub' with &...
⚔️Kafka 🆚 RabbitMQ: столкновение лбами
В своей статье RabbitMQ vs Kafka: Head-to-head confrontation in 8 major dimensions автор сравнивает два известных инструмента: Apache Kafka и RabbitMQ.
Рассмотрим 2 основных различия между ними:
✅RabbitMQ — это брокер сообщений, обеспечивающий маршрутизацию и управление очередями
✅Kafka — распределённая платформа обработки потоков данных, обеспечивающая хранение и воспроизведение сообщений
🤔Ключевые характеристики:
✅Порядок сообщений: Kafka гарантирует упорядоченность внутри одной темы, тогда как RabbitMQ предоставляет только базовые гарантии
✅Маршрутизация: RabbitMQ поддерживает сложные правила маршрутизации, а Kafka требует дополнительной обработки для фильтрации сообщений
✅Срок хранения сообщений: Kafka сохраняет сообщения независимо от их обработки, в отличие от RabbitMQ, где сообщения удаляются после обработки
✅Масштабируемость: Kafka показывает более высокую производительность и лучше масштабируется
🤔Обработка ошибок:
✅RabbitMQ предлагает встроенные инструменты для управления неудачными сообщениями (например, Dead Letter Exchange)
✅В Kafka обработка ошибок требует реализации дополнительных механизмов на уровне приложени
Таким образом, RabbitMQ подходит для задач с гибкой маршрутизацией, управлением временем сообщений и сложными обработками ошибок, тогда, как Kafka лучше справляется с задачами с жёсткими требованиями к порядку, долговременным хранением сообщений и высокой масштабируемостью.
💡Статья также подчёркивает, что обе платформы могут использоваться вместе для решения разных задач в сложных системах.
В своей статье RabbitMQ vs Kafka: Head-to-head confrontation in 8 major dimensions автор сравнивает два известных инструмента: Apache Kafka и RabbitMQ.
Рассмотрим 2 основных различия между ними:
✅RabbitMQ — это брокер сообщений, обеспечивающий маршрутизацию и управление очередями
✅Kafka — распределённая платформа обработки потоков данных, обеспечивающая хранение и воспроизведение сообщений
🤔Ключевые характеристики:
✅Порядок сообщений: Kafka гарантирует упорядоченность внутри одной темы, тогда как RabbitMQ предоставляет только базовые гарантии
✅Маршрутизация: RabbitMQ поддерживает сложные правила маршрутизации, а Kafka требует дополнительной обработки для фильтрации сообщений
✅Срок хранения сообщений: Kafka сохраняет сообщения независимо от их обработки, в отличие от RabbitMQ, где сообщения удаляются после обработки
✅Масштабируемость: Kafka показывает более высокую производительность и лучше масштабируется
🤔Обработка ошибок:
✅RabbitMQ предлагает встроенные инструменты для управления неудачными сообщениями (например, Dead Letter Exchange)
✅В Kafka обработка ошибок требует реализации дополнительных механизмов на уровне приложени
Таким образом, RabbitMQ подходит для задач с гибкой маршрутизацией, управлением временем сообщений и сложными обработками ошибок, тогда, как Kafka лучше справляется с задачами с жёсткими требованиями к порядку, долговременным хранением сообщений и высокой масштабируемостью.
💡Статья также подчёркивает, что обе платформы могут использоваться вместе для решения разных задач в сложных системах.
Medium
RabbitMQ vs Kafka: Head-to-head confrontation in 8 major dimensions
introduce
🧐Распределённая обработка - пан или пропал
В статье Optimizing Parallel Computing Architectures for Big Data Analytics автор рассказывает, как оптимально распределить нагрузку при обработке Big Data на примере Apache Spark.
🤔Однако автор ничего не говорит про основные преимущества и недостатки распределенных вычислений, с которыми нам так или иначе приходиться мириться.
💡Преимущества:
✅Масштабируемость: легко увеличивать вычислительные мощности за счёт добавления новых узлов
✅Отказоустойчивость: система продолжает работать даже при сбоях отдельных узлов благодаря репликации и резервированию
✅Высокая производительность: одновременная обработка данных на разных узлах ускоряет выполнение задач
⚠️Теперь к недостаткам:
✅Сложность управления: координация между узлами и обеспечение их синхронной работы требует сложной архитектуры
✅Безопасность: распределённость данных усложняет их защиту от утечек и атак
✅Избыточность данных: для обеспечения отказоустойчивости часто создаются реплики данных, что увеличивает объём хранимой информации
✅Проблемы согласованности: в системах с большим количеством узлов сложно обеспечить согласованность данных в реальном времени (CAP-теорема)
✅Сложности обновления: внесение изменений в распределённую систему (например, обновление ПО) может быть длительным и рискованным процессом
✅Ограниченная пропускная способность сети: высокий объём передачи данных между узлами может перегружать сеть и замедлять работу
🥸Таким образом, распределённая обработка данных предоставляет мощные возможности для масштабирования, ускорения вычислений и обеспечения отказоустойчивости. Однако её внедрение связано с рядом технических, организационных и финансовых сложностей, включая управление сложной архитектурой, обеспечение безопасности и согласованности данных, а также высокие требования к сетевой инфраструктуре.
В статье Optimizing Parallel Computing Architectures for Big Data Analytics автор рассказывает, как оптимально распределить нагрузку при обработке Big Data на примере Apache Spark.
🤔Однако автор ничего не говорит про основные преимущества и недостатки распределенных вычислений, с которыми нам так или иначе приходиться мириться.
💡Преимущества:
✅Масштабируемость: легко увеличивать вычислительные мощности за счёт добавления новых узлов
✅Отказоустойчивость: система продолжает работать даже при сбоях отдельных узлов благодаря репликации и резервированию
✅Высокая производительность: одновременная обработка данных на разных узлах ускоряет выполнение задач
⚠️Теперь к недостаткам:
✅Сложность управления: координация между узлами и обеспечение их синхронной работы требует сложной архитектуры
✅Безопасность: распределённость данных усложняет их защиту от утечек и атак
✅Избыточность данных: для обеспечения отказоустойчивости часто создаются реплики данных, что увеличивает объём хранимой информации
✅Проблемы согласованности: в системах с большим количеством узлов сложно обеспечить согласованность данных в реальном времени (CAP-теорема)
✅Сложности обновления: внесение изменений в распределённую систему (например, обновление ПО) может быть длительным и рискованным процессом
✅Ограниченная пропускная способность сети: высокий объём передачи данных между узлами может перегружать сеть и замедлять работу
🥸Таким образом, распределённая обработка данных предоставляет мощные возможности для масштабирования, ускорения вычислений и обеспечения отказоустойчивости. Однако её внедрение связано с рядом технических, организационных и финансовых сложностей, включая управление сложной архитектурой, обеспечение безопасности и согласованности данных, а также высокие требования к сетевой инфраструктуре.
Medium
Optimizing Parallel Computing Architectures for Big Data Analytics
In the era of big data, the volume, velocity, and variety of information generated by digital technologies have surpassed the processing…
📚Небольшая подборочка книг по Data Science и Big Data
Software Engineering for Data Scientists - в книге объясняются механизмы и практики разработки ПО в Data Science. Здесь также приводится масса примеров реализации на Python
Graph Algorithms for Data Science - книга рассматривает ключевые алгоритмы и методы работы с графами в науке о данных, сопровождая их конкретными рекомендациями по реализации и применению. Для её освоения не требуется опыта работы с графами. Алгоритмы объясняются простым языком без лишнего жаргона и сопровождаются наглядными иллюстрациями, что делает их лёгкими для применения в ваших проектах
Big Data Management and Analytics - книга охватывает все аспекты работы с большими данными: от базового уровня до изучения конкретных примеров. Читатели получат представление о выборе моделей данных, извлечении и интеграции данных для решения задач больших данных, моделировании данных с использованием методов машинного обучения, масштабируемых технологий Spark, преобразовании задачи больших данных в графовую базу данных и выполнении аналитических операций над графами. Также рассматриваются различные инструменты и методы обработки больших данных и их применение, включая здравоохранение и финансы
Advanced Data Analytics Using Python - книга рассматривает архитектурные паттерны в аналитике данных, классификацию текста и изображений, методы оптимизации, обработку естественного языка и компьютерное зрение в облачной среде.
Minimalist Data Wrangling with Python - в книге предлагается как общее представление, так и детальное обсуждение ключевых концепций. Рассматриваются методы очистки данных, собранных из различных источников, их преобразования, выбора и извлечения признаков, проведения разведочного анализа данных и снижения размерности, выявления естественных кластеров, моделирования закономерностей, сравнения данных между группами и представления результатов
Software Engineering for Data Scientists - в книге объясняются механизмы и практики разработки ПО в Data Science. Здесь также приводится масса примеров реализации на Python
Graph Algorithms for Data Science - книга рассматривает ключевые алгоритмы и методы работы с графами в науке о данных, сопровождая их конкретными рекомендациями по реализации и применению. Для её освоения не требуется опыта работы с графами. Алгоритмы объясняются простым языком без лишнего жаргона и сопровождаются наглядными иллюстрациями, что делает их лёгкими для применения в ваших проектах
Big Data Management and Analytics - книга охватывает все аспекты работы с большими данными: от базового уровня до изучения конкретных примеров. Читатели получат представление о выборе моделей данных, извлечении и интеграции данных для решения задач больших данных, моделировании данных с использованием методов машинного обучения, масштабируемых технологий Spark, преобразовании задачи больших данных в графовую базу данных и выполнении аналитических операций над графами. Также рассматриваются различные инструменты и методы обработки больших данных и их применение, включая здравоохранение и финансы
Advanced Data Analytics Using Python - книга рассматривает архитектурные паттерны в аналитике данных, классификацию текста и изображений, методы оптимизации, обработку естественного языка и компьютерное зрение в облачной среде.
Minimalist Data Wrangling with Python - в книге предлагается как общее представление, так и детальное обсуждение ключевых концепций. Рассматриваются методы очистки данных, собранных из различных источников, их преобразования, выбора и извлечения признаков, проведения разведочного анализа данных и снижения размерности, выявления естественных кластеров, моделирования закономерностей, сравнения данных между группами и представления результатов
coberbooks.ru
Software Engineering for Data Scientists Catherine Nelson (2024)
Look, read and download a book for free "Software Engineering for Data Scientists. Catherine Nelson (2024) " in the format of PDF on the website of an online library on programming CoderBooks.ru
У вас есть разнородные данные (тексты, изображения, временные ряды), которые нужно хранить для аналитики и моделей ML. Что бы вы предпочли?
Anonymous Poll
17%
MongoDB с GridFS
54%
Data Lake на базе S3 и Delta Lake
14%
PostgreSQL с расширениями JSONB
14%
Google BigQuery
💡Небольшая подборка репозиториев для новичков и не только
SQL Roadmap for Data Science & Data Analytics - пошаговая программа изучения SQL. Эта программа размещена в виде репозитория на GitHub и дополнена ссылками на обучающие материалы
kh-sql-projects - репозиторий с исходным кодом популярных SQL-проектов для разработчиков разного уровня: от начинающих до опытных. Включает проекты на базе PostgreSQL для различных систем, таких как управление библиотеками, студентами, больницами, бронированием и инвентарем. Отличная возможность для практического изучения SQL
ds-cheatsheet - GitHub-репозиторий, собравший множество полезных шпаргалок для изучения и работы в сфере Data Science
GenAI Showcase - репозиторий, демонстрирующий использование MongoDB в генеративном искусственном интеллекте. Содержит примеры интеграции MongoDB с технологиями Retrieval-Augmented Generation (RAG) и различными ИИ-моделями
SQL Roadmap for Data Science & Data Analytics - пошаговая программа изучения SQL. Эта программа размещена в виде репозитория на GitHub и дополнена ссылками на обучающие материалы
kh-sql-projects - репозиторий с исходным кодом популярных SQL-проектов для разработчиков разного уровня: от начинающих до опытных. Включает проекты на базе PostgreSQL для различных систем, таких как управление библиотеками, студентами, больницами, бронированием и инвентарем. Отличная возможность для практического изучения SQL
ds-cheatsheet - GitHub-репозиторий, собравший множество полезных шпаргалок для изучения и работы в сфере Data Science
GenAI Showcase - репозиторий, демонстрирующий использование MongoDB в генеративном искусственном интеллекте. Содержит примеры интеграции MongoDB с технологиями Retrieval-Augmented Generation (RAG) и различными ИИ-моделями
GitHub
GitHub - andresvourakis/free-6-week-sql-roadmap-data-science: A roadmap to guide you through mastering SQL for Data Science in…
A roadmap to guide you through mastering SQL for Data Science in just 6 weeks for free - andresvourakis/free-6-week-sql-roadmap-data-science
💡😎Маленькая подборка больших интересных и полезных датасетов
Sky-T1-data-17k — разнообразный датасет, предназначенный для обучения модели Sky-T1-32B, являющейся ризонингом модели MiniMax-Text-01, которая стабильно обходит GPT-4o и Gemini-2 на бенчмарках с длинным контекстом
XMIDI Dataset — крупномасштабный музыкальный датасет с точными метками эмоций и жанров. Содержит 108 023 MIDI-файла, являясь крупнейшим из известных наборов данных такого рода
AceMath-Data - семейство датасетов, которые использовались NVIDIA для обучения флагманской модели AceMath-72B-Instruct, которая значительно превосходит GPT-4o и Claude-3.5 Sonnet в области решения математических задач
Sky-T1-data-17k — разнообразный датасет, предназначенный для обучения модели Sky-T1-32B, являющейся ризонингом модели MiniMax-Text-01, которая стабильно обходит GPT-4o и Gemini-2 на бенчмарках с длинным контекстом
XMIDI Dataset — крупномасштабный музыкальный датасет с точными метками эмоций и жанров. Содержит 108 023 MIDI-файла, являясь крупнейшим из известных наборов данных такого рода
AceMath-Data - семейство датасетов, которые использовались NVIDIA для обучения флагманской модели AceMath-72B-Instruct, которая значительно превосходит GPT-4o и Claude-3.5 Sonnet в области решения математических задач
huggingface.co
NovaSky-AI/Sky-T1_data_17k · Datasets at Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🤔💡Как Spotify создал платформу для масштабных аннотаций: опыт и результаты
Spotify в своей статье How We Generated Millions of Content Annotations поделился кейсом, как удалось масштабировать процесс аннотаций для разработки ML и GenAI моделей. Эти улучшения обеспечили обработку миллионов треков и подкастов, ускорив создание и обновление моделей.
Основные шаги:
1️⃣ Масштабирование человеческой экспертизы:
✅Основные команды: аннотаторы (первичный обзор), аналитики качества (решение сложных случаев), менеджеры проектов (обучение команд и связь с инженерами).
✅Автоматизация: внедрили систему на базе больших языковых моделей (LLM) для поддержки аннотаторов, что позволило значительно сократить затраты и усилия.
2️⃣ Новые инструменты для аннотаций:
✅Разработаны интерфейсы для сложных задач (например, аннотация аудио/видео сегментов или текстов).
✅Созданы метрики для мониторинга: количество выполненных задач, объем данных, продуктивность аннотаторов.
✅Введен показатель «согласованность» аннотаций, чтобы автоматически отправлять спорные случаи экспертам.
3️⃣ Интеграция с ML-инфраструктурой:
✅Построили гибкую архитектуру с возможностью использовать разные инструменты.
✅Добавили CLI и UI для быстрого запуска проектов.
✅Интегрировали аннотации в производственные ML-пайплайны.
😎Результаты:
✅Объем аннотаций увеличился в 10 раз.
✅Производительность аннотаторов выросла в 3 раза.
✅Снизилось время запуска новых моделей.
Spotify в своей статье How We Generated Millions of Content Annotations поделился кейсом, как удалось масштабировать процесс аннотаций для разработки ML и GenAI моделей. Эти улучшения обеспечили обработку миллионов треков и подкастов, ускорив создание и обновление моделей.
Основные шаги:
1️⃣ Масштабирование человеческой экспертизы:
✅Основные команды: аннотаторы (первичный обзор), аналитики качества (решение сложных случаев), менеджеры проектов (обучение команд и связь с инженерами).
✅Автоматизация: внедрили систему на базе больших языковых моделей (LLM) для поддержки аннотаторов, что позволило значительно сократить затраты и усилия.
2️⃣ Новые инструменты для аннотаций:
✅Разработаны интерфейсы для сложных задач (например, аннотация аудио/видео сегментов или текстов).
✅Созданы метрики для мониторинга: количество выполненных задач, объем данных, продуктивность аннотаторов.
✅Введен показатель «согласованность» аннотаций, чтобы автоматически отправлять спорные случаи экспертам.
3️⃣ Интеграция с ML-инфраструктурой:
✅Построили гибкую архитектуру с возможностью использовать разные инструменты.
✅Добавили CLI и UI для быстрого запуска проектов.
✅Интегрировали аннотации в производственные ML-пайплайны.
😎Результаты:
✅Объем аннотаций увеличился в 10 раз.
✅Производительность аннотаторов выросла в 3 раза.
✅Снизилось время запуска новых моделей.
Spotify Engineering
How We Generated Millions of Content Annotations
How We Generated Millions of Content Annotations - Spotify Engineering
Какой инструмент вы предпочли бы для автоматизации обработки и оркестрации задач Big Data?
Anonymous Poll
26%
Kubernetes
70%
Apache Airflow
2%
Apache Nifi
3%
Apache Hive
😱Ошибки в данных, которые привели к глобальным катасторофам
✅Снос не тех домов - из-за некорректных данных геоинформационных систем бригады сноса приезжали на неправильные участки из-за ошибок в данных адресов Google Maps и сносили не те дома. Это приводило к разрушенным жилищам, ущербу на десятки тысяч долларов и судебным тяжбам для компаний
✅Дефибрилляторы Zoll Medical - из-за проблем с качеством данных в процессе производства дефибрилляторы компании Zoll Medical могли отображать сообщения об ошибке или вовсе выходить из строя при использовании. Компания была вынуждена объявить отзыв продукции категории 1 — самой серьезной категории, при которой существует высокая вероятность серьезных травм или смерти. Это подорвало доверие и обошлось компании в $5,4 млн штрафов.
✅Паспортное агентство Великобритании - паспортное агентство Великобритании не раз сталкивалось с серьезными задержками при выдаче паспортов из-за ошибок миграции данных во время обновления системы. Задержки вызвали общественное недовольство и огромный объём накопившихся заявок. Исправление ошибок и найм дополнительного персонала для обработки заявок однажды обошлись агентству примерно в £12,6 млн.
✅Mars Climate Orbiter - Mars Climate Orbiter — зонд, запущенный для сбора данных о Марсе. К сожалению, аппарат сгорел при входе в атмосферу планеты, что сделало миссию полной неудачей и отбросило назад исследования Марса. Ущерб оценили в $327,6 млн. Ошибка в преобразовании единиц измерения между командами инженеров: одна использовала метрическую систему, а другая — английскую.
✅Ошибка Knight Capital - однажды ошибка в новом программном обеспечении Knight Capital привела к нежелательным биржевым сделкам, из-за чего компания закупила 150 различных акций на сумму $7 млрд всего за час. Последствия использования непроверенного ПО включали убыток в $440 млн и банкротство.
✅Сбой AWS от Amazon - во время планового обслуживания AWS из-за опечатки в данных в команде управления было случайно удалено больше серверов, чем предполагалось. На восстановление части системы потребовалось три часа, а на полное восстановление — четыре часа. Компании, использующие AWS, столкнулись с серьезными незапланированными простоями, которые привели к финансовым потерям в размере $150 млн.
✅Испанская подводная лодка "Isaac Peral" (S-81) - во время проектирования подводной лодки ошибка с десятичной точкой в расчётах водоизмещения привела к тому, что судно оказалось на 75–100 тонн тяжелее. Из-за этого подлодка была слишком тяжёлой, чтобы плавать, и её пришлось полностью перепроектировать, что вызвало значительные задержки и затраты более чем €2 млрд.
✅Boeing 737 Max - в 2018 и 2019 годах две катастрофы самолётов Boeing 737 Max унесли жизни 349 человек. В самолётах была установлена новая автоматическая система управления полётом, которая полагалась на данные только одного датчика угла атаки. Неверные данные с датчика активировали систему, которая переопределяла действия пилотов, что привело к катастрофам. Все самолёты 737 Max были затем отстранены от полетов, а Boeing потерял более $18 млрд.
✅Крах Lehman Brothers - низкое качество данных и слабый анализ рисков привели к тому, что Lehman Brothers взяли на себя больше рисков, чем могли себе позволить, а отсутствие точных данных скрывало реальную стоимость активов и обязательств. Что было дальше, известно всем: потери на $691 млрд активов и банкротство, вызвавшее глобальный финансовый кризис, который затронул экономики всего мира.
✅Снос не тех домов - из-за некорректных данных геоинформационных систем бригады сноса приезжали на неправильные участки из-за ошибок в данных адресов Google Maps и сносили не те дома. Это приводило к разрушенным жилищам, ущербу на десятки тысяч долларов и судебным тяжбам для компаний
✅Дефибрилляторы Zoll Medical - из-за проблем с качеством данных в процессе производства дефибрилляторы компании Zoll Medical могли отображать сообщения об ошибке или вовсе выходить из строя при использовании. Компания была вынуждена объявить отзыв продукции категории 1 — самой серьезной категории, при которой существует высокая вероятность серьезных травм или смерти. Это подорвало доверие и обошлось компании в $5,4 млн штрафов.
✅Паспортное агентство Великобритании - паспортное агентство Великобритании не раз сталкивалось с серьезными задержками при выдаче паспортов из-за ошибок миграции данных во время обновления системы. Задержки вызвали общественное недовольство и огромный объём накопившихся заявок. Исправление ошибок и найм дополнительного персонала для обработки заявок однажды обошлись агентству примерно в £12,6 млн.
✅Mars Climate Orbiter - Mars Climate Orbiter — зонд, запущенный для сбора данных о Марсе. К сожалению, аппарат сгорел при входе в атмосферу планеты, что сделало миссию полной неудачей и отбросило назад исследования Марса. Ущерб оценили в $327,6 млн. Ошибка в преобразовании единиц измерения между командами инженеров: одна использовала метрическую систему, а другая — английскую.
✅Ошибка Knight Capital - однажды ошибка в новом программном обеспечении Knight Capital привела к нежелательным биржевым сделкам, из-за чего компания закупила 150 различных акций на сумму $7 млрд всего за час. Последствия использования непроверенного ПО включали убыток в $440 млн и банкротство.
✅Сбой AWS от Amazon - во время планового обслуживания AWS из-за опечатки в данных в команде управления было случайно удалено больше серверов, чем предполагалось. На восстановление части системы потребовалось три часа, а на полное восстановление — четыре часа. Компании, использующие AWS, столкнулись с серьезными незапланированными простоями, которые привели к финансовым потерям в размере $150 млн.
✅Испанская подводная лодка "Isaac Peral" (S-81) - во время проектирования подводной лодки ошибка с десятичной точкой в расчётах водоизмещения привела к тому, что судно оказалось на 75–100 тонн тяжелее. Из-за этого подлодка была слишком тяжёлой, чтобы плавать, и её пришлось полностью перепроектировать, что вызвало значительные задержки и затраты более чем €2 млрд.
✅Boeing 737 Max - в 2018 и 2019 годах две катастрофы самолётов Boeing 737 Max унесли жизни 349 человек. В самолётах была установлена новая автоматическая система управления полётом, которая полагалась на данные только одного датчика угла атаки. Неверные данные с датчика активировали систему, которая переопределяла действия пилотов, что привело к катастрофам. Все самолёты 737 Max были затем отстранены от полетов, а Boeing потерял более $18 млрд.
✅Крах Lehman Brothers - низкое качество данных и слабый анализ рисков привели к тому, что Lehman Brothers взяли на себя больше рисков, чем могли себе позволить, а отсутствие точных данных скрывало реальную стоимость активов и обязательств. Что было дальше, известно всем: потери на $691 млрд активов и банкротство, вызвавшее глобальный финансовый кризис, который затронул экономики всего мира.
🌎ТОП февральских ивентов в Data Science
2 февраля - IT-сеанс: погружение в мир данных – Москва, Россия - https://cs.hse.ru/dpo/datascienceschool/winter2025/
6 февраля - PolyAnalyst для разработки решений на основе ИИ – Онлайн - https://megapyuter-intellidzhens.timepad.ru/event/3207461/
8 февраля – Пыхап – Москва, Россия - https://networkly.app/event/pykhap-08-02-2025_4684
15-16 февраля - Система Хак - Нижний Новгород, Россия - https://truetecharena.ru/contests/system-hack-nn#/
27 февраля-3 марта - Хакатон Б3 – Онлайн - https://codenrock.com/contests/b3-data-hack-codenrock#/
28 февраля - Siam ML Hack – Онлайн - https://codenrock.com/contests/siam-hack-ml#/
2 февраля - IT-сеанс: погружение в мир данных – Москва, Россия - https://cs.hse.ru/dpo/datascienceschool/winter2025/
6 февраля - PolyAnalyst для разработки решений на основе ИИ – Онлайн - https://megapyuter-intellidzhens.timepad.ru/event/3207461/
8 февраля – Пыхап – Москва, Россия - https://networkly.app/event/pykhap-08-02-2025_4684
15-16 февраля - Система Хак - Нижний Новгород, Россия - https://truetecharena.ru/contests/system-hack-nn#/
27 февраля-3 марта - Хакатон Б3 – Онлайн - https://codenrock.com/contests/b3-data-hack-codenrock#/
28 февраля - Siam ML Hack – Онлайн - https://codenrock.com/contests/siam-hack-ml#/
cs.hse.ru
Школа по аналитике и Data Science (зима 2025)
🚀 BigQuery Metastore: Единый сервис метаданных с поддержкой Apache Iceberg
Google анонсировала высокомасштабируемый сервис метаданных для архитектуры Lakehouse. Новое метахранилище работает во время выполнения и поддерживает несколько аналитических движков, включая BigQuery, Apache Spark, Apache Hive и Apache Flink.
BigQuery Metastore предлагает подход, основанный на унификации метаданных, позволяя разным движкам обращаться к одной копии данных. Он поддерживает Apache Iceberg, что упрощает работу с данными в lakehouse-архитектуре
😎 Ключевые преимущества:
✅ Кросс-совместимость – единый источник метаданных для всех аналитических движков
✅ Поддержка открытых форматов – Apache Iceberg, внешние таблицы BigQuery
✅ Встроенное управление данными – контроль доступа, аудит, маскирование
✅ Полностью управляемый сервис – без настройки, автоматически масштабируется
🤔 Зачем это нужно?
Традиционные метасторы привязаны к конкретным движкам, что вынуждает дублировать определения таблиц и синхронизировать метаданные вручную. Это приводит к неактуальным данным, сложностям с безопасностью и высоким затратам на администрирование.
🤔 Что это меняет?
BigQuery Metastore – шаг в сторону стандартизации управления данными. Он делает lakehouse-архитектуру более доступной, упрощает аналитику и снижает затраты на поддержку инфраструктуры.
🔎Подробнее тут
Google анонсировала высокомасштабируемый сервис метаданных для архитектуры Lakehouse. Новое метахранилище работает во время выполнения и поддерживает несколько аналитических движков, включая BigQuery, Apache Spark, Apache Hive и Apache Flink.
BigQuery Metastore предлагает подход, основанный на унификации метаданных, позволяя разным движкам обращаться к одной копии данных. Он поддерживает Apache Iceberg, что упрощает работу с данными в lakehouse-архитектуре
😎 Ключевые преимущества:
✅ Кросс-совместимость – единый источник метаданных для всех аналитических движков
✅ Поддержка открытых форматов – Apache Iceberg, внешние таблицы BigQuery
✅ Встроенное управление данными – контроль доступа, аудит, маскирование
✅ Полностью управляемый сервис – без настройки, автоматически масштабируется
🤔 Зачем это нужно?
Традиционные метасторы привязаны к конкретным движкам, что вынуждает дублировать определения таблиц и синхронизировать метаданные вручную. Это приводит к неактуальным данным, сложностям с безопасностью и высоким затратам на администрирование.
🤔 Что это меняет?
BigQuery Metastore – шаг в сторону стандартизации управления данными. Он делает lakehouse-архитектуру более доступной, упрощает аналитику и снижает затраты на поддержку инфраструктуры.
🔎Подробнее тут
Google Cloud Blog
Introducing BigQuery metastore fully managed metadata service | Google Cloud Blog
BigQuery metastore is a fully managed, unified metadata service that provides processing engine interoperability while enabling consistent data governance.
🔥 WILDCHAT-50M: крупнейший открытый датасет диалогов для языковых моделей
Исследователи представили WILDCHAT-50M — крупнейший в своем роде открытый датасет, содержащий огромный массив данных из реальных чатов. Этот набор данных создавался для улучшения обучения языковых моделей, особенно в контексте обработки диалогов и взаимодействия с пользователями. В основе WILDCHAT-50M лежат более 125 миллионов стенограмм чатов, охватывающих свыше миллиона разговоров. Это делает его важным ресурсом для исследователей и разработчиков, работающих над созданием продвинутых языковых моделей.
Одной из ключевых особенностей WILDCHAT-50M является его происхождение: он создан на основе проекта WildChat и предназначен для использования в разработке RE-WILD SFT — метода обучения с учителем (Supervised Fine-Tuning). Этот метод позволяет моделям лучше адаптироваться к реалистичным сценариям общения и повышает их способность к поддержанию диалога в долгосрочной перспективе.
Большинство существующих наборов данных для обучения языковых моделей сосредоточены на структурированных текстах, статьях или специально подготовленных диалогах, но WILDCHAT-50M выделяется тем, что содержит реальные диалоги пользователей. Это дает возможность моделям лучше понимать живую речь, контекст и динамику общения, делая их ответы более естественными и релевантными.
Важно отметить, что WILDCHAT-50M представляет собой один из самых масштабных открытых бенчмарков в своей категории. Это означает, что разработчики и исследователи могут свободно использовать его для тестирования своих моделей, проведения экспериментов и улучшения алгоритмов обработки естественного языка. Открытость данного датасета способствует развитию технологий диалоговых систем и созданию более интеллектуальных виртуальных помощников, чат-ботов и других AI-решений.
С появлением таких наборов данных, как WILDCHAT-50M, языковые модели получают возможность значительно повысить качество генерации текста, учитывать нюансы разговорной речи и становиться ближе к реальному человеческому общению.
Исследователи представили WILDCHAT-50M — крупнейший в своем роде открытый датасет, содержащий огромный массив данных из реальных чатов. Этот набор данных создавался для улучшения обучения языковых моделей, особенно в контексте обработки диалогов и взаимодействия с пользователями. В основе WILDCHAT-50M лежат более 125 миллионов стенограмм чатов, охватывающих свыше миллиона разговоров. Это делает его важным ресурсом для исследователей и разработчиков, работающих над созданием продвинутых языковых моделей.
Одной из ключевых особенностей WILDCHAT-50M является его происхождение: он создан на основе проекта WildChat и предназначен для использования в разработке RE-WILD SFT — метода обучения с учителем (Supervised Fine-Tuning). Этот метод позволяет моделям лучше адаптироваться к реалистичным сценариям общения и повышает их способность к поддержанию диалога в долгосрочной перспективе.
Большинство существующих наборов данных для обучения языковых моделей сосредоточены на структурированных текстах, статьях или специально подготовленных диалогах, но WILDCHAT-50M выделяется тем, что содержит реальные диалоги пользователей. Это дает возможность моделям лучше понимать живую речь, контекст и динамику общения, делая их ответы более естественными и релевантными.
Важно отметить, что WILDCHAT-50M представляет собой один из самых масштабных открытых бенчмарков в своей категории. Это означает, что разработчики и исследователи могут свободно использовать его для тестирования своих моделей, проведения экспериментов и улучшения алгоритмов обработки естественного языка. Открытость данного датасета способствует развитию технологий диалоговых систем и созданию более интеллектуальных виртуальных помощников, чат-ботов и других AI-решений.
С появлением таких наборов данных, как WILDCHAT-50M, языковые модели получают возможность значительно повысить качество генерации текста, учитывать нюансы разговорной речи и становиться ближе к реальному человеческому общению.
huggingface.co
WildChat-50m - a nyu-dice-lab Collection
All model responses associated with the WildChat-50m paper.
😎🛠Очередная подборка инструментов для работы с Big Data
NocoDB - это инновационная open-source платформа, которая превращает традиционные реляционные базы данных, такие как MySQL, PostgreSQL, SQLite и MSSQL, в удобный no-code инструмент для работы с данными. С её помощью можно легко управлять таблицами, создавать API и визуализировать информацию без написания кода. Гибкость NocoDB делает её отличной альтернативой Airtable, но с полной свободой развертывания. Вы можете установить её локально или на собственном сервере, сохраняя полный контроль над данными. Для бизнеса это важное преимущество, так как позволяет избегать ограничений SaaS-решений и потенциальных проблем с конфиденциальностью данных.
DrawDB - это инструмент для управления базами данных, который делает моделирование данных наглядным и удобным. Он предоставляет графический интерфейс для создания, редактирования и визуализации структуры БД, упрощая работу с данными и связями между таблицами. Этот инструмент особенно полезен разработчикам и аналитикам, которым нужно быстро спроектировать базу данных без глубоких знаний SQL. DrawDB поддерживает автоматическую генерацию SQL-кода, экспорт моделей и интеграцию с популярными СУБД, такими как MySQL, PostgreSQL и SQLite.
Dolt - это уникальная реляционная база данных, которая сочетает в себе традиционные SQL-функции с механизмом контроля версий, аналогичным Git. Она позволяет не только работать с данными с помощью SQL-запросов, но и отслеживать изменения на уровне строк, создавать ветки, объединять их, а также просматривать историю изменений.
ScyllaDB - это мощное и масштабируемое NoSQL-хранилище, совместимое с Apache Cassandra, но превосходящее его по производительности. Благодаря использованию фреймворка Seastar, ScyllaDB эффективно управляет многопоточными системами и оптимизирует работу на современных многоядерных процессорах. Асинхронная обработка запросов позволяет значительно снизить задержки и повысить пропускную способность, делая ScyllaDB отличным выбором для высоконагруженных систем и распределенных баз данных.
Metabase - это интуитивно понятная платформа для бизнес-аналитики, позволяющая визуализировать данные, создавать отчёты и дашборды без необходимости глубоких знаний SQL. Она поддерживает работу с различными базами данных, такими как MySQL, PostgreSQL, MongoDB и другие, обеспечивая удобный интерфейс для анализа данных и поиска инсайтов.
Azimutt - это мощный инструмент, предназначенный для визуализации, проектирования и анализа сложных баз данных. Он позволяет разработчикам и аналитикам создавать диаграммы сущностей и связей (ERD), исследовать связи между таблицами, искать данные в схемах и документировать структуру баз данных. Среди ключевых функций Azimutt — масштабируемая визуализация, удобный поиск и фильтрация таблиц, интерактивное отображение внешних ключей и механизм обнаружения потенциальных проблем в структуре базы. Это делает инструмент полезным как при разработке новых схем, так и при анализе существующих баз данных.
sync - это решение для синхронизации данных из рабочих баз данных в локальные экземпляры, поддерживающее MongoDB и MySQL. Оно позволяет передавать изменения в реальном времени, используя Change Streams для MongoDB и binlog для MySQL, обеспечивая инкрементальную синхронизацию. Инструмент поддерживает как полную начальную синхронизацию, так и постоянное обновление данных, гарантируя отказоустойчивость и возможность восстановления с последней обработанной точки в случае перезапуска. Это делает Sync удобным инструментом для работы с распределенными базами данных и аналитическими задачами.
NocoDB - это инновационная open-source платформа, которая превращает традиционные реляционные базы данных, такие как MySQL, PostgreSQL, SQLite и MSSQL, в удобный no-code инструмент для работы с данными. С её помощью можно легко управлять таблицами, создавать API и визуализировать информацию без написания кода. Гибкость NocoDB делает её отличной альтернативой Airtable, но с полной свободой развертывания. Вы можете установить её локально или на собственном сервере, сохраняя полный контроль над данными. Для бизнеса это важное преимущество, так как позволяет избегать ограничений SaaS-решений и потенциальных проблем с конфиденциальностью данных.
DrawDB - это инструмент для управления базами данных, который делает моделирование данных наглядным и удобным. Он предоставляет графический интерфейс для создания, редактирования и визуализации структуры БД, упрощая работу с данными и связями между таблицами. Этот инструмент особенно полезен разработчикам и аналитикам, которым нужно быстро спроектировать базу данных без глубоких знаний SQL. DrawDB поддерживает автоматическую генерацию SQL-кода, экспорт моделей и интеграцию с популярными СУБД, такими как MySQL, PostgreSQL и SQLite.
Dolt - это уникальная реляционная база данных, которая сочетает в себе традиционные SQL-функции с механизмом контроля версий, аналогичным Git. Она позволяет не только работать с данными с помощью SQL-запросов, но и отслеживать изменения на уровне строк, создавать ветки, объединять их, а также просматривать историю изменений.
ScyllaDB - это мощное и масштабируемое NoSQL-хранилище, совместимое с Apache Cassandra, но превосходящее его по производительности. Благодаря использованию фреймворка Seastar, ScyllaDB эффективно управляет многопоточными системами и оптимизирует работу на современных многоядерных процессорах. Асинхронная обработка запросов позволяет значительно снизить задержки и повысить пропускную способность, делая ScyllaDB отличным выбором для высоконагруженных систем и распределенных баз данных.
Metabase - это интуитивно понятная платформа для бизнес-аналитики, позволяющая визуализировать данные, создавать отчёты и дашборды без необходимости глубоких знаний SQL. Она поддерживает работу с различными базами данных, такими как MySQL, PostgreSQL, MongoDB и другие, обеспечивая удобный интерфейс для анализа данных и поиска инсайтов.
Azimutt - это мощный инструмент, предназначенный для визуализации, проектирования и анализа сложных баз данных. Он позволяет разработчикам и аналитикам создавать диаграммы сущностей и связей (ERD), исследовать связи между таблицами, искать данные в схемах и документировать структуру баз данных. Среди ключевых функций Azimutt — масштабируемая визуализация, удобный поиск и фильтрация таблиц, интерактивное отображение внешних ключей и механизм обнаружения потенциальных проблем в структуре базы. Это делает инструмент полезным как при разработке новых схем, так и при анализе существующих баз данных.
sync - это решение для синхронизации данных из рабочих баз данных в локальные экземпляры, поддерживающее MongoDB и MySQL. Оно позволяет передавать изменения в реальном времени, используя Change Streams для MongoDB и binlog для MySQL, обеспечивая инкрементальную синхронизацию. Инструмент поддерживает как полную начальную синхронизацию, так и постоянное обновление данных, гарантируя отказоустойчивость и возможность восстановления с последней обработанной точки в случае перезапуска. Это делает Sync удобным инструментом для работы с распределенными базами данных и аналитическими задачами.
GitHub
GitHub - nocodb/nocodb: 🔥 🔥 🔥 Open Source Airtable Alternative
🔥 🔥 🔥 Open Source Airtable Alternative. Contribute to nocodb/nocodb development by creating an account on GitHub.
🤔Векторные vs Графовые СУБД: что выбрать?
При работе с неструктурированными и взаимосвязанными данными важно подобрать оптимальную систему управления базами данных. Разберем ключевые отличия векторных и графовых СУБД.
😎Векторные СУБД
📌 Преимущества:
✅ Оптимизированы для поиска по сходству (например, в NLP и компьютерном зрении).
✅ Высокая скорость поиска ближайших соседей (ANN).
✅ Эффективны при работе с embedding-моделями.
⚠️ Недостатки:
❌ Не подходят для сложных взаимосвязей между объектами.
❌ Ограничены в традиционных реляционных запросах.
😎Графовые СУБД
📌 Преимущества:
✅ Отлично работают с разветвленными структурами данных (социальные сети, маршрутизация).
✅ Оптимизированы для сложных запросов по связям.
✅ Гибкость схемы хранения данных.
⚠️ Недостатки:
❌ Медленнее на больших объемах данных при линейном поиске.
❌ Неэффективны для обработки высокоразмерных векторов.
🧐Выводы:
✅ Если вам нужен поиск по embeddings — выбирайте векторные СУБД (Faiss, Milvus).
✅ Если важны сложные связи между данными — используйте графовые СУБД (Neo4j, ArangoDB).
При работе с неструктурированными и взаимосвязанными данными важно подобрать оптимальную систему управления базами данных. Разберем ключевые отличия векторных и графовых СУБД.
😎Векторные СУБД
📌 Преимущества:
✅ Оптимизированы для поиска по сходству (например, в NLP и компьютерном зрении).
✅ Высокая скорость поиска ближайших соседей (ANN).
✅ Эффективны при работе с embedding-моделями.
⚠️ Недостатки:
❌ Не подходят для сложных взаимосвязей между объектами.
❌ Ограничены в традиционных реляционных запросах.
😎Графовые СУБД
📌 Преимущества:
✅ Отлично работают с разветвленными структурами данных (социальные сети, маршрутизация).
✅ Оптимизированы для сложных запросов по связям.
✅ Гибкость схемы хранения данных.
⚠️ Недостатки:
❌ Медленнее на больших объемах данных при линейном поиске.
❌ Неэффективны для обработки высокоразмерных векторов.
🧐Выводы:
✅ Если вам нужен поиск по embeddings — выбирайте векторные СУБД (Faiss, Milvus).
✅ Если важны сложные связи между данными — используйте графовые СУБД (Neo4j, ArangoDB).
💡Новость дня: Гарвард запустил архив федеральных данных с data.gov
Library Innovation Lab при Гарвардском университете представил архив данных data.gov на платформе Source Cooperative. Коллекция объёмом 16 ТБ содержит свыше 311 000 датасетов, собранных в 2024–2025 годах, и представляет собой полную копию федеральных публичных данных, связанных с data.gov.
Архив будет ежедневно обновляться, обеспечивая доступ к актуальной информации для академических исследований, журналистов, аналитиков и общественного использования. В него включены разнообразные наборы данных, касающиеся экологии, здравоохранения, экономики, транспорта, сельского хозяйства и многих других сфер.
Кроме того, опубликовано открытое программное обеспечение (GitHub) для создания аналогичных репозиториев и архивирования данных. Это позволит другим организациям и исследовательским центрам развивать собственные хранилища государственных данных. Проект поддерживается Filecoin Foundation и Rockefeller Brothers Fund
Library Innovation Lab при Гарвардском университете представил архив данных data.gov на платформе Source Cooperative. Коллекция объёмом 16 ТБ содержит свыше 311 000 датасетов, собранных в 2024–2025 годах, и представляет собой полную копию федеральных публичных данных, связанных с data.gov.
Архив будет ежедневно обновляться, обеспечивая доступ к актуальной информации для академических исследований, журналистов, аналитиков и общественного использования. В него включены разнообразные наборы данных, касающиеся экологии, здравоохранения, экономики, транспорта, сельского хозяйства и многих других сфер.
Кроме того, опубликовано открытое программное обеспечение (GitHub) для создания аналогичных репозиториев и архивирования данных. Это позволит другим организациям и исследовательским центрам развивать собственные хранилища государственных данных. Проект поддерживается Filecoin Foundation и Rockefeller Brothers Fund