Telegram Web
Для тех кто работает с архивами сайтов в формате WARC свежий инструмент WARC-GPT [1] по исследованию содержимого WARC файлов с использованием большой языковой модели (ИИ).

С открытым кодом [2] и примерами. Для проверки можно взять их тестовый датасет, скачать из Руархива (ruarxive.org) или создать самостоятельно с помощью wget или wpull.

Ссылки:
[1] https://lil.law.harvard.edu/blog/2024/02/12/warc-gpt-an-open-source-tool-for-exploring-web-archives-with-ai/
[2] https://github.com/harvard-lil/warc-gpt

#opensource #digitalpreservation #ai #webarchives
🤩7👍6
Forwarded from Ivan Begtin (Ivan Begtin)
В качестве регулярных напоминаний, с 1 по 7 марта 2025 года по всему миру пройдут мероприятия Дней открытых данных (Open Data Days, ODD) [1]. Это множество выступлений, лекций, семинаров и встреч по всему миру. Кто то слушает выступления других, кто-то проводит самостоятельно.

Ежегодно в России в Москве его проводит Инфокультура (@infoculture), с 2020 года в дистанционном формате. О прошлом ODD можно узнать на его сайте [2]. В 2025 году он, также, будет проходить дистанционно. Традиционно ключевая тема ODD - это открытые данные, мы также делаем акцент на данных связанных с культурой и историческим наследием, а также данными используемыми в исследовательских целях. В этот мероприятие также планируем и если у Вас есть желание выступить, то можно заранее писать мне.

В Армении мы также проводим день открытых данных, но вживую, организуя его от Open Data Armenia (@opendataam) и акцент делаем не только культурном наследии, но и на журналистике и практическом применении данных. Можно посмотреть программу прошлого ODD [3]. Если Вы в Армении и у Вас есть интересный доклад про данные и открытые данные, тоже обязательно напишите.

И, конечно, напишите, если Вы готовы выступить спонсором или иначе поддержать эти мероприятия. Наших скромных ресурсов хватает чтобы их организовать, но никогда не хватает чтобы сделать это идеально 😉

И, наконец, Open Data Day - это не только большие мероприятия, это ещё и сотни небольших митапов по всему миру, хороший повод собраться и поговорить о важном. Можно не только смотреть и участвовать в наших мероприятиях, но и организовать своё, в своём городе, университете или по какой-то своей специальной теме. О таких мероприятиях мы обязательно пишем на наших ресурсах и помогаем привлечь к ним внимание.

Ссылки:
[1] https://opendataday.org
[2] https://opendataday.ru/msk
[3] https://odd.opendata.am

#opendata #opendataday #data #events
👍8🔥3
Пишут что генеалогический сервис MyHeritage 31 декабря предупредил пользователей из России об удалении их учётных записей с 1 февраля 2025 года [1]. Весьма вероятно что это связано со штрафом в 6 млн рублей в отношении MyHeritage за отказ от локализации данных российских пользователей [2].

Сервис постепенно уходил из России начиная с 2020 года, в 2020 году из-за ограничений на пересылку генетических материалов MyHeritage перестали присылать в Россию наборы для взятия генетических проб [3].

К сожалению, невозможно автоматизировано сохранить все удаляемые данные пользователей и, к тому же, они являются персональными данными, но если Вы пользователь MyHeritage и находитесь в России, на всякий случай стоит воспользоваться инструкцией и сделать резервную копию геномных данных, данных генеалогического дерева и всего остального что может исчезнуть.

Ссылки:
[1] https://habr.com/ru/news/871058/
[2] https://www.forbes.ru/tekhnologii/498511-sud-ostrafoval-myheritage-na-6-mln-rublej-za-povtornyj-otkaz-lokalizovat-dannye
[3] https://www.myheritage.com/help-center?a=Why-isn%27t-MyHeritage-sending-DNA-kits-to-Russia-anymore---id--B2WZDFjXR9CRdvZqGR86eQ

#genealogy #genetics #myheritage
👨‍💻8🤔6👎4🥰2👍1
https://dhsprogram.com/

https://dhsprogram.com/data/available-datasets.cfm

https://www.idhsdata.org/idhs/

https://www.statcompiler.com/en/

https://dhsprogram.com/Countries/index.cfm?show=map#activeType=_all&printStyle=false&mLon=12.8&mLat=11.7&mLev=2&title=Where%20We%20Work&desc=

https://dhsprogram.com/search/

https://dhsprogram.com/Research/Featured-Studies.cfm

Самая лучшая в мире база данных демографических обследований по развивающимся странам может кануть в небытие уже завтра или на днях.
Если это случится, то "спасибо" Трампу, будь он неладен.
Выражение "СЛОН в посудной лавке" играет новыми красками, преимущественно чёрными.
Скачивайте всё, что можно.
Эти данные используются в т. ч. ООН для демографического прогнозирования.
По многим странам других данных нет, или они низкого качества.
👍6🤩3🎉2🤔1🤓1
Forwarded from Ivan Begtin (Ivan Begtin)
В рубрике интересных наборов данных много датасетов связанных с переходом власти в США, в первую очередь созданных активистами спасающими данные скрываемые/удаляемые администрацией Трампа.

End of term archive [1] совместный проект International Internet Preservation Consortium (IIPC), National Digital Infrastructure and Preservation Program (NDIIPP), Университетов Стенфорда и Джорджа Вашингтона, по архивации всех данных и цифровых материалов при смене президентов в США. Включает коллекции за 2008, 2012, 2016 и 2020 годы. Общий объём датасетов порядка 450TB.
Работа идёт в форме открытого кода [2] и открытых датасетов [3] и сейчас продолжается архивация ресурсов связанных с прошлой администрацией Байдена [4]. Копия данных хранится в Интернет Архиве [5] и, на сегодняшний день, составляет более 582 TB

Другой проект ForeignAssistance dot gov emergency backup [7] архив государственного сайта ForeignAssistance.gov где USAID раскрывали аналитику международной помощи. Он, также, был закрыт во время закрытия USAID. Всё что удалось сохранить автор проекта превратил в наборы данных CSV

Data.gov archive [8] проект по архивации данных из портала Data.gov от Harvard Law School Library и все данные они выложили в открытый каталог данных большого объёма Source Cooperative [9]. Лично я не ожидал что они выложат его именно туда, в Source Cooperative по большей части геоданные, но зато и хранение заточено под облачное хранение в амазоне данных большого объёма. Всего 16TB

Проект Environment Data & Governance Initiative продолжил работу после первого срока Трампа и с января месяца они постоянно сохраняют климатические данные и ресурсы. Подобнее в их блоге [10]

А также существует значительное число инициатив меньшего масштаба.

Сохранение данных, цифровых объектов и знаний становится всё более значимой задачей. Кто-то выделяет на него личное время, кто-то ресурсы и сотрудников (проект EOT Archive), кто-то быстро находит финансирование (проект архива Data.gov был профинансирован Фондом Братьев Рокфеллеров).

Ссылки:
[1] https://eotarchive.org
[2] https://github.com/end-of-term
[3] https://eotarchive.org/data/
[4] https://github.com/end-of-term/eot2024
[5] https://archive.org/details/EndofTermWebCrawls
[6] https://archive.org/details/EndOfTerm2024WebCrawls
[7] https://foreignassistance.andrewheiss.com/
[8] https://lil.law.harvard.edu/blog/2025/02/06/announcing-data-gov-archive/
[9] https://source.coop/repositories/harvard-lil/gov-data/description
[10] https://envirodatagov.org/blog/

#digitalpreservation #webarchives #trump #usa
5👍4🙏3🤓1
Forwarded from Инфокультура
Присоединяйтесь ко Дню открытых данных 2025 — #ODD2025

01.03.2024, 11:00-16:00 (GMT +3), День открытых данных 2025 (https://opendataday.ru/msk) — это ежегодное международное мероприятие, которое помогает продвигать концепцию открытых данных среди органов государственной власти, бизнес-корпораций, некоммерческих организаций и гражданского общества.

Мероприятие пройдет в онлайн формате.

Мы подготовили для аудитории сессии докладов, презентации кейсов и мастер-классы по актуальным вопросам различных направлений открытости и отдельных проектов.
Приглашаем исследователей, дата инженеров, аналитиков, урбанистов, разработчиков, ИТ-специалистов, дата-журналистов и других участников российского движения открытости и любителей данных во всех их формах.

#opendata #russia #events
6👍4
Forwarded from Ivan Begtin (Ivan Begtin)
В продолжение предыдущей публикации про API веб архива, приведу в пример текущее состояние архивации веб-сайтов российских ФОИВов Интернет Архивом (web.archive.org).

Это результаты самой поверхностной проверки, но можно увидеть что как минимум веб-сайты Минсельхоза РФ и Фельдъегерской службы не архивируются уже почти 3 года, а ряд других 9 месяцев. Если сайт Фельдъегерской службы никого не волнует, по большому счёту, то сайт Минсельхоза уже важнее. И это только поверхностная проверка потому что для ряда сайтов веб архив блокируется с возвращением 403 ошибки. Например, сайт Росархива тоже попадёт в этот список потому что веб архив сохранял его именно с ошибками.

Рано или поздно мы снова начнём архивационную кампанию по сохранению сайтов российских госорганов в рамках Национального цифрового архива (ruarxive.org). Это стало сильно сложнее поскольку теперь официальный контент часто просто невозможно индексировать, приходится прикладывать дополнительные усилия. Но хотя бы можно сохранить то что точно не попадает в веб-архив Интернет Архива.

P.S. Кроме сайтов ФОИВ аналогичная ситуация с большей частью сайтов региональных органов власти и государственных информационных систем.

#digitalpreservation #webarchives #ruarxive #russia
🔥7👍6🤔21👏1
Национальный архив США начал публиковать материалы рассекречивания дела по убийству Президента Кеннеди [1]. Материалы эти в виде сканов и оцифрованных аналоговых аудиозаписей, уже опубликовано 61400 страниц, это более чем 2000 PDF документов и это только за 18 марта. Ждём пополнения коллекции.

Ссылки:
[1] https://www.archives.gov/research/jfk/release-2025

#digitalpreservation #archives #usa #kennedy
👍17🔥5🎉1
Вот уже какое-то время недоступен портал Исторические материалы (istmat.org), последняя его сохранённая версия есть в Интернет Архиве на февраль 2025 года [1] и видно что ничего нового не публиковалось с ноября 2024 года.

ИстМат - это важный проект для всех историков исследователей, сообщество и библиотека с большим числом исторических документов размещённых под лицензией CC BY-SA.

Если кто-то знает что с ним случилось, временно ли он исчез или совсем, напишите нам в @ruarxivechat или @ibegtin или на почту [email protected]). Если проект закрылся, нам бы хотелось успеть его сохранить и оставить доступным хотя бы в виде архива сайта/документов.

P.S. Но хочется надеяться что он не закрыт, а это лишь временный сбой.

Ссылки:
[1] https://web.archive.org/web/20250214084718/https://istmat.org/

#digitalpreservation #archives #history
👍8🤔6🙏42🔥1🥰1
Forwarded from Ivan Begtin (Ivan Begtin)
Фонд Викимедия опубликовал статью о том что боты теперь создают около 65% трафика на сайты Википедии и остальных их проектов [1]. Сейчас они работают над тем как развить свою инфраструктуру чтобы всё это выдержать, открытым потому что AI боты агрессивно собирают изображения и это и создаёт трафик. Потому что знания бесплатны, а вот инфраструктура для их распространения нет.

Я подозреваю что всё это закончится тем что они начнут блокировать AI краулеры для доступа к тяжёлому контенту вроде изображений и предоставлять этот контент им для массовой выгрузки за деньги. Это было бы самым оптимистичным вариантом решения проблемы роста стоимости инфраструктуры.

Ссылки:
[1] https://diff.wikimedia.org/2025/04/01/how-crawlers-impact-the-operations-of-the-wikimedia-projects/

#openknowledge #opendata #ai #aibots
👍138🔥3👎1
Internet Archive разместили петицию на Change.org с призывом отменить $700 миллионный иск звукозаписывающих компаний который угрожает существованию Интернет архива. За сутки они собрали уже более 17 тысяч подписей. Иску угрожает полностью обанкротить Интернет архив и лишить пользователей не только звукового архива, но и архива сайтов и иных оцифрованных и цифровых коллекций.

Коллекции Интернет архива бесценны - это сайты, видео, аудио, книги, данные и многое другое. Потерять его будет большой катастрофой.

#internetarchive
👍1714👎2🔥2
Стал недоступен портал документации и отчетности поставщиков Минэкономразвития России (портал управления проектами госпрограммы Информационное общество) aisup.economy.gov.ru [1]. В Интернет архива последняя версия от 7 февраля 2022 года [2].

Мы последний раз архивировали этот сайт 8 лет назад, его копия есть в файловом хранилище Ruarxive и составляет 33ГБ в виде WARC файлов. Напишите, если она вам понадобится.

А если у вас есть более свежие архивные копии материалов этого сайта, присылайте нам, положим их в хранилище и сделаем общедоступными.

Ссылки:
[1] https://aisup.economy.gov.ru
[2] https://web.archive.org/web/20220207104559/https://aisup.economy.gov.ru/pubportal//

#digitalpreservation #webarchives
🔥9👎1
⚠️ Уважаемые читатели!
С 28 апреля и до отдельного объявления в связи с техническими проблемами будут недоступны:

- сайт РГБ,
- электронная библиотека РГБ, поиск по электронному каталогу и электронным ресурсам,
- электронный заказ документов,
- запись в библиотеку,
- Национальная электронная библиотека (НЭБ).

В библиотеке можно будет:
- получить книги, заказанные ранее,
- воспользоваться заказом на документы, изданные до 2015 года, через консультантов при помощи бумажных требований,
- получить издания из открытых и подсобных фондов.

По мере решения технических проблем будем информировать вас о подключении электронных услуг.

Приносим свои извинения!
🤔13🕊4🌚2
У CommonCrawl, некоммерческого проекта поискового индекса Интернета, появился новый набор данных cc-host-index [1].

В новом индексе хостов есть одна строка для каждого известного нам веб-хостинга в каждом отдельном обходе. Он содержит сводную информацию из обхода, индексов, веб-графика и наших необработанных журналов обхода. Вы можете использовать его непосредственно из AWS с помощью инструментов SQL, таких как Amazon Athena или duckdb, или загрузить на свой собственный диск (24 обхода по 7 гигабайт каждый).

Вот пример запроса к этому набору данных на получение всех хостов Ватикана где более 50% страниц на языках отличных от английского.

Подробнее в их блоге [2].

Ссылки:
[1] https://github.com/commoncrawl/cc-host-index
[2] https://commoncrawl.org/blog/introducing-the-host-index

#opendata #webarchives #datasets
🔥82
В связи с грядущей реформой статистического учёта в России и тем что до конца 2025 года планируется вывод из эксплуатации системы статистики ЕМИСС (fedstat.ru) мы начали архивацию всех их общедоступных ресурсов Росстата включая сайты ЕМИСС, Росстата и его территориальных подразделений, на случай если их материалы "случайно потеряются".

Если Вы знаете какие-либо онлайн ресурсы Росстата помимо перечисленных которые необходимо подвергнуть архивации, напишите в чате к этому телеграм каналу и мы их обязательно учтём при архивации.

#webarchives #digitalpreservation #statistics #rosstat #russia
🔥19👍15💯4
Forwarded from Ivan Begtin (Ivan Begtin)
Для тех кто работает с веб архивами я обновил инструмент metawarc [1] это утилита для извлечения метаданных из файлов WARC (формат файлов веб архива).

Инструмент нужен для тех кто извлекает метаданные и файлы из WARC файлов, например, можно скачать WARC файл архива сайта Минспорта за 2019 г. , он небольшой, всего около 1ГБ, проиндексировать его и извлечь все PDF файлы, или файлы MS Word, или сразу извлечь все метаданные из документов и изображений.

Штука которая полезна для OSINT задач анализа сайтов организаций, но тема OSINT меня интересует мало.

А основное применение - это анализ больших архивов и организация поиска по ним и поиск интересных данных.

Когда-то давно я делал эту штуку и через неё находил массовое использование пиратского офисного ПО на российских госсайтах, но это было давно и уже давно малоинтересно. Внутри там использовалась база sqlite и при индексации всех метаданных размер этой базы мог достигать до 20% от размера WARC файла. То есть для коллекции в 1ТБ WARC'ов это получалось до 200GB база. А это совсем никуда не годится. После переписывания всё на связку DuckDB + Parquet после индексации объём уменьшился на порядки. Для WARC файла в 4.5ГБ извлеченные метаданные занимают 3.5МБ. А это 0.07%. Реальное сжатие в 285 раз (!), не говоря уже о ускорении операций по анализу и извлечению документов.

Ссылки:
[1] https://github.com/datacoon/metawarc

#opensource #webarchives
🔥9👍7🙏3
2025/07/13 16:51:31
Back to Top
HTML Embed Code: