tgoop.com/begtin/6256
Last Update:
В мире очень много данных о которых мало кто знает (с)
Большой срез научных данных - это данные о погоде, климате и наблюдениях за морями и океанами. Всё это является частью метеорологии и климатологии наук которые изначально про работу с большими данными, поскольку данные метеонаблюдений, спутниковых снимков и тд. - это реально большие объёмы данных поступающих в реальном времени.
Так вот большая часть этих данных в мире собирается с помощью открытого кода и публикуется в форме датасетов в каталогах данных на базе движка ERDDAP [1]. Это довольно старый программный продукт, разработанный Национальным управлением океанических и атмосферных исследований и используемый как каталог научных данных с возможностью работать с данными через API, в виде графов, таблиц и с первичными данными в формате NetCDF.
В общей сложности в мире более 100 инсталляций ERDDAP, большая их часть находится в США, но есть и в Австралии, Японии, странах ЕС и ряде других. В совокупности это более 100 тысяч наборов данных, а реальный объём данных сложно измерить, но можно исходить из того что там минимум сотни терабайт, а скорее больше.
В реестре Dateno тоже есть записи с серверами ERDDAP [2] и пока их там чуть менее 70, по большинству из них ещё не собраны нужные метаданные и сами данные ещё не индексируются.
В ближайшие недели/месяцы мы, конечно, индексировать их начнём, поскольку они неплохо стандартизированы и пригодны для индексации. Но это та область которая как бы существует сама по себе, узкая нишевая научная инфраструктура в которой, в принципе, большинство исследователей и так знают где что искать.
Поэтому для Dateno эти каталоги данных пока не первоприоритетны, но они несомненно интересны для понимания того как устроены данных в отдельных научных дисциплинах. А что то и так индексируется с существующих дата каталогов где есть ссылки на данные из ERDDAP [3]
Ссылки:
[1] https://github.com/ERDDAP
[2] https://dateno.io/registry/catalog/cdi00004521/
[3] https://dateno.io/search?query=ERDDAP
#opendata #dataportals #datasets #oceans #climatology
BY Ivan Begtin
Share with your friend now:
tgoop.com/begtin/6256