Ivan Begtin

В мире очень много данных о которых мало кто знает (с)

Большой срез научных данных - это данные о погоде, климате и наблюдениях за морями и океанами. Всё это является частью метеорологии и климатологии наук которые изначально про работу с большими данными, поскольку данные метеонаблюдений, спутниковых снимков и тд. - это реально большие объёмы данных поступающих в реальном времени.

Так вот большая часть этих данных в мире собирается с помощью открытого кода и публикуется в форме датасетов в каталогах данных на базе движка ERDDAP [1]. Это довольно старый программный продукт, разработанный Национальным управлением океанических и атмосферных исследований и используемый как каталог научных данных с возможностью работать с данными через API, в виде графов, таблиц и с первичными данными в формате NetCDF.

В общей сложности в мире более 100 инсталляций ERDDAP, большая их часть находится в США, но есть и в Австралии, Японии, странах ЕС и ряде других. В совокупности это более 100 тысяч наборов данных, а реальный объём данных сложно измерить, но можно исходить из того что там минимум сотни терабайт, а скорее больше.

В реестре Dateno тоже есть записи с серверами ERDDAP [2] и пока их там чуть менее 70, по большинству из них ещё не собраны нужные метаданные и сами данные ещё не индексируются.

В ближайшие недели/месяцы мы, конечно, индексировать их начнём, поскольку они неплохо стандартизированы и пригодны для индексации. Но это та область которая как бы существует сама по себе, узкая нишевая научная инфраструктура в которой, в принципе, большинство исследователей и так знают где что искать.

Поэтому для Dateno эти каталоги данных пока не первоприоритетны, но они несомненно интересны для понимания того как устроены данных в отдельных научных дисциплинах. А что то и так индексируется с существующих дата каталогов где есть ссылки на данные из ERDDAP [3]

Ссылки:
[1] https://github.com/ERDDAP
[2] https://dateno.io/registry/catalog/cdi00004521/
[3] https://dateno.io/search?query=ERDDAP

#opendata #dataportals #datasets #oceans #climatology

1.1K viewsIvan Begtin, 06:55

Ivan Begtin

Пишут что российское Минцифры предложило запретить использование иностранных мессенджеров в рабочих целях [1].

Очень трудно удержаться от того чтобы такое не прокомментировать. А что после этого и других подобных инициатив удивительно что все квалифицированные ИТ спецы кто могут стараются не работать из России и уезжают, кто далеко, кто недалеко? Я готов поспорить что есть прямая корреляция между запретами на коммуникацию, а также любыми ограничениями вызванными политической целесообразностью и профессиональной деятельностью.

Неважно где это происходит, в России, в Турции, или ещё в каких странах.

Государство не должно лезть в твою постель, в твой телефон и в твою голову.

P.S. И в твои данные, конечно же, тоже.

Ссылки:
[1] https://www.interfax.ru/russia/996664

#russia #government

1.1K viewsIvan Begtin, edited 14:58

Ivan Begtin

В рубрике закрытых данных в РФ с декабря 2021 года с портала данных Министерства культуры РФ [1] исчезло 8 наборов данных. Было 62 [2], а стало 54 на начало декабря 2024 г. Новости портала не обновлялись также с середины 2021 года [3]

Хорошая новость в том что оставшиеся наборы данных пока ещё обновляются.

А когда-то это был один из лучших порталов открытых данных в России. Говорю как человек которые уже пересмотрел тысячи сайтов с открытыми данными.

Ссылки:
[1] https://opendata.mkrf.ru/opendata
[2] https://web.archive.org/web/20211130053406/https://opendata.mkrf.ru/opendata
[3] https://opendata.mkrf.ru/item/newslist

#closeddata #data #opendata #russia #culture

945 viewsIvan Begtin, 17:49

Ivan Begtin

Продолжая тему данных о климате и наблюдении за океанами и морями, проект SeaDataNet [1] пан-Европейская инициатива по упрощению доступа к данным морских исследований. Включает поиск по более чем 3 миллионам наборам данных [2] которые являются пробами, наблюдениями и так далее.

Большая часть данных происходит из Франции, более 1.1 миллиона записей, но много данных и из России, порядка 182 тысяч записей.

Данные есть из практически всех европейских и многих околоевропейских стран с выходом к морю. Поэтому данные, к примеру, из Грузии есть, а из Армении нет.

Почти все данные под лицензией Creative Commons, но для доступа нужна регистрация.

Это другой пример очень специфических отраслевых данных, можно обратить внимание что поиск по ним по собственным уникальным фильтрам таким как: морской регион, координаты, научная дисциплина, способ получения данных и так далее.

Привязка данных связана скорее с географическим положением, чем с административными границами.

Ссылки:
[1] https://www.seadatanet.org/
[2] https://cdi.seadatanet.org/search

#opendata #climate #oceans #europe #datacatalogs #datasearch

1.0K viewsIvan Begtin, 20:01

Ivan Begtin

Полезные ссылки про данные, технологии и не только:
- The DuckDB Avro Extension [1] новое расширение для DuckDB для поддержки формата файлов Apache Avro. Не то чтобы Avro часто встречается в дикой природе, но во многих корпоративных стеках данных он есть и хорошо что к нему есть расширение. Заодно полезное чтение про внутреннее устройство и специфику этого формата.
- Prototype Fund: a successful story of project replication within the Open Knowledge Network [2] в блоке Open Knowledge Foundation видео с рассказом про Prototype Fund в Германии и Швейцарии. Это специальный фонд для поддержки проектов с открытым кодом, про открытые данные и вообще про технологические аспекты открытости (например, стандарты) в контексте цифровой общей инфраструктуры. Иначе говоря поддержка открытых проектов создаваемых для общественного блага. Жаль этот опыт трудновоспроизводим.
- The History of the Decline and Fall of In-Memory Database Systems [3] приятный текст про "взлет и падение" баз данных работавших только в памяти и о том почему почти все СУБД вернулись к модели постоянного хранения. Спойлер: потому что цены гигабайт на SSD падают быстрее чем цены за гигабайт RAM
- Researchers achieve 96% accuracy in detecting phishing emails with open-source AI [4] вот полезное применение LLM, ловить фишинговые письма. Правда, сдаётся мне что есть способы и попроще, но и этот весьма неплох. Причём 95% точности достигается довольно легковесной моделью, а 96% уже с существенно большими требованиями
- An Open Source Python Library for Anonymizing Sensitive Data [5] статья об анонимизации данных и открытой библиотеке авторов о том как ей пользоваться.

Ссылки:
[1] https://duckdb.org/2024/12/09/duckdb-avro-extension
[2] https://blog.okfn.org/2024/12/05/prototype-fund-a-successful-story-of-project-replication-within-the-open-knowledge-network/
[3] https://cedardb.com/blog/in_memory_dbms/
[4] https://the-decoder.com/researchers-achieve-96-accuracy-in-detecting-phishing-emails-with-open-source-ai/
[5] https://www.nature.com/articles/s41597-024-04019-z

#opensource #ai #rdbms #readings

944 viewsIvan Begtin, 09:03

Ivan Begtin

В рубрике как это устроено у них несколько проектов с открытыми данными по всем государственным доменам в США.

.gov data [1] база всех доменов в зоне .gov, создана и актуализируется Cybersecurity and Infrastructure Security Agency, доступно в виде датасетов CSV файлов и файлов зоны .gov для DNS. Ведётся как полноценный дата продукт, регулярно обновляется.

GDA/govt-urls [3] репозиторий от U.S. General Services Administration с актуальным перечнем доменов/ссылок на все домены относящиеся к государству федеральные, уровня штатов, локальные, квазигосударственные и др. Огромное их число не в домене .gov кстати

ScanGov [4] публичный проект сканирования госсайтов на предмет соблюдения обязательных требований, рекомендаций и тд. В общем, лучшие практики. Создано в Civic Hacking Agency, использует базы сайтов выше и доступны новые датасеты [5]

Analytics.USA.gov [6] монитор статистики по большинству федеральных сайтов США. Отдаёт данные датасетами и API.

Service Status Checker [7] сервис проверки, мониторинга и уведомлений о недоступности для геопространственных сервисов. Мониторит большое число государственных геопространственных API в США, в основном это сервисы на базе ArcGIS и Geoserver, но не только их.

Ссылки:
[1] https://github.com/cisagov/dotgov-data
[2] https://get.gov/about/data/
[3] https://github.com/GSA/govt-urls
[4] https://scangov.org/
[5] https://docs.scangov.org/data
[6] https://analytics.usa.gov/
[7] https://statuschecker.fgdc.gov/

#opendata #government #domains #datasets

1.0K viewsIvan Begtin, edited 12:55

Ivan Begtin

Свежий годовой отчет Cloudflare о связности интернета и основных трендах [1]. Интересно хотя бы из-за масштаба Cloudflare, его однозначно можно отнести к компании управляющей глобальной критичной инфраструктурой.

Несколько быстрых фактов из их отчета:
- Chrome по прежнему доминирующий браузер в мире с более чем 65.8%. Далее Safari со значимыми 15.5%, Edge с 6.9% и Firefox с 4%
- Google по прежнему доминирует в поиске с 88.5%, но, на втором месте идёт Яндекс с 3.1%. Baidu и Bing от Яндекс'а отстают
- GoogleBot создаёт наибольшую нагрузку на веб сайты чем все остальные боты
- AI краулер Bytespider от Bytedance значительно уменьшил сбор данных в 2024 году, а ClaudeBot от Anthropic существенно подрос
- интернет трафик через StarLink вырос в 3.3 раза. После доступности сервиса StarLink у нескольких стран трафик вырос в десятки и даже сотни раз.

И там ещё много всего любопытного, а также у них есть интересный продукт Cloudflare Radar с открытой аналитикой и данными и API.

Кстати, очень показательный пример [2] дата продукта, дашборда, продукта дата аналитики и тд. Потому что это качественное совмещение визуализации и возможности самостоятельно работать с данными через API.

Ссылки:
[1] https://blog.cloudflare.com/radar-2024-year-in-review/
[2] https://radar.cloudflare.com

#opendata #datasets #analytics #readings

960 viewsIvan Begtin, 06:55

Ivan Begtin

Пишут что Гарвард опубликовал датасет из более чем 1 миллиона книг которые не закрыты копирайтом и можно их свободно использовать при обучении ИИ [1].

Правда ссылки на сам датасет мне нигде не удалось найти, и даже первоисточник новости на сайте Гарварда тоже, но тем не менее.

1 миллион книг при работе с которыми нет юридических рисков - это очень много, втрое больше чем набор данных Books3 [2] к которому были как раз юридические претензии.

К вопросу о больших языковых моделей, они создаются на текстах, тексты надо откуда-то брать.

Если Ваше правительство не создаёт большие открытые наборы данных с текстами на национальном языке, значит за него это сделает кто-то ещё.

В этом смысле судьба языков малочисленных народов всё более будет под вопросом. Без большого пласта письменной истории они совсем выпадут из обихода.

Ссылки:
[1] https://www.wired.com/story/harvard-ai-training-dataset-openai-microsoft/
[2] https://www.wired.com/story/battle-over-books3/

#languages #datasets #ai

WIRED

Harvard Is Releasing a Massive Free AI Training Dataset Funded by OpenAI and Microsoft

The project’s leader says that allowing everyone to access the collection of public-domain books will help “level the playing field” in the AI industry.

1.0K viewsIvan Begtin, 12:11

Ivan Begtin

О, только я об этом написал, а тут у Кудрина в телеграм канале по поводу отчета Cloudflare и то что Яндекс на втором месте в мире;) Кстати, я бы не удивился что это ещё и из-за поиска по изображениям который у Яндекса реально один из лучших если не самый лучший в мире.

Ivan Begtin

1.0K viewsIvan Begtin, 13:05

Ivan Begtin

Forwarded from Национальный цифровой архив

Для тех кто работает с архивами сайтов в формате WARC свежий инструмент WARC-GPT [1] по исследованию содержимого WARC файлов с использованием большой языковой модели (ИИ).

С открытым кодом [2] и примерами. Для проверки можно взять их тестовый датасет, скачать из Руархива (ruarxive.org) или создать самостоятельно с помощью wget или wpull.

Ссылки:
[1] https://lil.law.harvard.edu/blog/2024/02/12/warc-gpt-an-open-source-tool-for-exploring-web-archives-with-ai/
[2] https://github.com/harvard-lil/warc-gpt

#opensource #digitalpreservation #ai #webarchives

913 viewsIvan Begtin, 16:03

Ivan Begtin

Кстати, ещё полезного из последнего отчета Cloudflare - это то какие домены наиболее популярны у спамеров и хакеров [1]. Можно увидеть что некоторые доменные зоны не просто популярны, а невероятно популярны именно у них. У доменных зон: .bar, .rest, .uno, .best, .click, .ws, .social, .shop, .cfd, .quest более 90% трафика email - это спам или вредоносные письма.

Вывод: использовать их для какого-либо легитимного бизнеса не рассылающего спам не стоит. Кстати из национальных зон более всего спама и вредоносов из зоны... правильно .ir (Иран), много из зон .ru и .cn.

Вообще интересная статистика, заставляет задуматься отчего так происходит.

Ссылки:
[1] https://radar.cloudflare.com/year-in-review/2024#most-observed-tlds

#internet #spam

1.0K viewsIvan Begtin, 19:30

Ivan Begtin

Для настоящих фанатов работы с командной строкой переосмысление работы с оболочками/терминалами в виде Wave Terminal [1] проекта с открытым кодом для который, с одной стороны даёт возможность работать с несколькими сессиями командной строки, а с другой позволяет организовывать пространство в виде виджетов. Сейчас эти виджеты включают:
- окно терминала
- системная информация по нагрузке памяти и CPU в реальном времени
- папки с файлами
- диалоговое окно с чатботом
- окно браузера

Для Windows прозрачная интеграция с WSL и дистанционным подключением к серверам, для других OS пока не пробовал.

Ко всему ещё и под открытой лицензией, в общем-то для тех кто живёт командной строкой не продукт, а мечта. Хотя я лично для W10 и W11 давно привык к Windows Terminal [2], но этот продукт может его потеснить потому что выглядит неплохо.

И, сразу понятно как создатели могут монетизировать такой продукт:
- виджеты для дистанционного подключения к Grafana, Prometheus, Datadog, Newrelic и тд.
- сервис взаимодействия с чат ботами через свои сервера с возможностью переключения на разные AI модели, собственно это уже проксируется через них для одной модели, просто пока денег за это не берут
- интеграция с дата инженерными платформами, базами данных и тд. где есть конвееры и нагрузка на ресурсы

При этом всё настраивается через файлы конфигурации и инструменты командной строки, организуется в рабочие пространства и можно создать рабочее пространство под конкретный проект, для работы, для работы с домашними устройствами и так далее.

Для дистанционной отладки продуктов и для операций DataOps и DevOps может быть весьма полезной прикладной штукой

Ссылки:
[1] https://github.com/wavetermdev/waveterm
[2] https://github.com/microsoft/terminal

#opensource #commandline

790 viewsIvan Begtin, 07:42

Ivan Begtin

Я тут думал было запилить гайд по сжатию данных для дата инженеров, но понял что он сведётся в итоге к формуле: сжимай всё в Parquet с компрессией Zstd

Это работает для если не всех, то большинства случаев, а всё остальное было бы просто обоснованием этого тезиса с результатами тестов на живых и синтетических данных.

Тем не менее несколько лайфхаков:
1. Сжимать CSV файлы с булевыми значениями в виде 0/1 эффективнее чем преобразовывать в Parquet потому что по умолчанию эти значения распознаются как числа int64 и даже сжатый parquet файл крупнее чем архивный.
2. Распространять файлы в унаследованных архиваторах типа ARJ - это жуткий моветон, они крайне неэффективны в потоковой обработке.
3. Большая часть инструментов загрузки датафреймов поддерживают сжатые csv файлы, но по разному. Pandas умеет открывать .xz,.gz,.zip,.zst,.bz2, а вот duckdb умеет только .gz и .zst, а остальные придётся распаковывать промежуточно куда-то ещё. Polars тоже умеет работать с .gz, а для остальных форматов сжатия надо прикладывать доп усилия.
4. Всё сводится в итоге к балансу между объёмов хранения данных, поддержкой основными инструментами аналитика и скоростью чтения данных. По этим категориям Parquet оказывается на первом месте потому что данные сжаты лучше чем большинством способов сжатия данных, чтение происходит чуть ли не быстрее чем читать файлы CSV и поддерживается он большинством современных инструментов.
5. Небольшие трюки с Parquet связаны с его колоночным сжатием данных. Уровень сжатия может зависеть и от формы представления данных. Например, если у Вас датасет с ежемесячными показаниями, то если период записывать как отдельные поля year и month, а не как дату начала месяца типа "2024-12-01", только на сжатии этой колонки можно сэкономить до 25%, потому что колонки year и month сожмутся куда лучше.
6. Аналогично с полями с булевыми значениями. Для сжатия лучше если это родное булевое поле в parquet, а не число или строка. И если булевые значения в CSV описаны как True/False, то при преобразовании/распознавании они идентифицируются как таковые. А если записаны как 0/1 или Yes/No и тд., то нет

В целом трюки со сжатием данных не так уж необходимы, реальная потребность в них возникает только в ситуациях больших регулярных потоков данных для которых оптимизация хранения и обработки даже на 10% имеет значение.

В итоге если хотите опубликовать большой набор данных - публикуйте в Parquet с внутренним сжатием, не ошибётесь.

#dataformats #dataengineering

693 viewsIvan Begtin, 08:00

Ivan Begtin

Какой хороший инструмент, но без открытого кода.

Я эту фразу в последние годы повторяю чаще чем хотелось бы. Применительно почти ко всем инструментам, кроме тех где отсутствие кода оправдано. Например, выбираю инструмент для создания резервных копий и это сводится в итоге к Borg или Restic, хотя есть коммерческие альтернативы и неплохие. Но зачем они нужны если есть не хуже, а иногда и лучше с открытым кодом?

Или инструменты обработки и очистки данных. Да, их много, но чаще всего достаточно OpenRefine, или инструментов вроде pandas, polars, duckdb и др. для работы с датафреймами.

Или для ведения заметок, зачем нужны другие если есть Obsidian ? Конечно много хороших инструментов, но реально Obsidian закрывает большую часть задач.

Я не единственный кто так рассуждает. Достаточно подсчитать ежемесячные/ежегодные расходы на ПО и сервисы по подписке чтобы понимать реальную нагрузку на свой кошелёк или кошелёк компании.

Всё это про ниши продуктов и про то какие их свойства и характеристики подталкивают к тому чтобы их купить и какие приводят к поиску бесплатных альтернатив. Главный критерий - это то сколько усилий нужно приложить и насколько продуктовые характеристики реально создают качество жизни, удобство работы и тд.

Я бы распределил эти фичи следующим образом:
1. AI powered. Там где это уместно, там где это логично, там где это необходимо, там где есть для этого потребность - это реально повышает качество продукта. У нас в Dateno такое давно назрело и мы всё ещё планируем и ищем человека под fulltime работу на эти задачи с учётом и оговоркой что у нас международный проект и у него есть своя специфика. Но AI powered для данных я вижу много где, в первую очередь в многочисленных аналитических сервисах которые на основе пользовательских данных генерируют разного рода дашборды. То на что аналитик может потратить несколько недель делается за несколько часов.
2. Интеграция с облаками. То что является маст-хэв фичами для почти всех инструментов для работы с данными. Так чтобы напрямую подключаться к S3 совместимому хранилищу, но с оговоркой что такие возможности стали уже по умолчанию у много каких открытых инструментов и зачем платить за коммерческую фичу.
3. Множество устройств. Особенно в части перехода с небольшого числа личных устройств на устройства для небольшой команды. У меня перед глазами есть как минимум такой инструмент и сервис как Tailscale, но это распространяется и на другие подобного рода zero-config сервисы.

Список не исчерпывающий, но важный в том что наиболее востребована комбинация стоимости воспроизведения сервиса или продукта и пользы которую он приносит.

А вот, к примеру, сейчас сложно сделать сервис ETL/ELT которому нет замены с открытым кодом

Поэтому работая над текущими продуктами всегда нужен ответ как минимум на 2 вопроса:
1) Есть ли у продукта открытая альтернатива?
2) Можно ли то же самое сделать с помощью ChatGPT ?

#thoughts #products

446 viewsIvan Begtin, edited 17:16

2024/12/17 00:58:03
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>