Forwarded from Национальный цифровой архив
Для тех кто работает с архивами сайтов в формате WARC свежий инструмент WARC-GPT [1] по исследованию содержимого WARC файлов с использованием большой языковой модели (ИИ).
С открытым кодом [2] и примерами. Для проверки можно взять их тестовый датасет, скачать из Руархива (ruarxive.org) или создать самостоятельно с помощью wget или wpull.
Ссылки:
[1] https://lil.law.harvard.edu/blog/2024/02/12/warc-gpt-an-open-source-tool-for-exploring-web-archives-with-ai/
[2] https://github.com/harvard-lil/warc-gpt
#opensource #digitalpreservation #ai #webarchives
С открытым кодом [2] и примерами. Для проверки можно взять их тестовый датасет, скачать из Руархива (ruarxive.org) или создать самостоятельно с помощью wget или wpull.
Ссылки:
[1] https://lil.law.harvard.edu/blog/2024/02/12/warc-gpt-an-open-source-tool-for-exploring-web-archives-with-ai/
[2] https://github.com/harvard-lil/warc-gpt
#opensource #digitalpreservation #ai #webarchives
tgoop.com/begtin/6271
Create:
Last Update:
Last Update:
Для тех кто работает с архивами сайтов в формате WARC свежий инструмент WARC-GPT [1] по исследованию содержимого WARC файлов с использованием большой языковой модели (ИИ).
С открытым кодом [2] и примерами. Для проверки можно взять их тестовый датасет, скачать из Руархива (ruarxive.org) или создать самостоятельно с помощью wget или wpull.
Ссылки:
[1] https://lil.law.harvard.edu/blog/2024/02/12/warc-gpt-an-open-source-tool-for-exploring-web-archives-with-ai/
[2] https://github.com/harvard-lil/warc-gpt
#opensource #digitalpreservation #ai #webarchives
С открытым кодом [2] и примерами. Для проверки можно взять их тестовый датасет, скачать из Руархива (ruarxive.org) или создать самостоятельно с помощью wget или wpull.
Ссылки:
[1] https://lil.law.harvard.edu/blog/2024/02/12/warc-gpt-an-open-source-tool-for-exploring-web-archives-with-ai/
[2] https://github.com/harvard-lil/warc-gpt
#opensource #digitalpreservation #ai #webarchives
BY Ivan Begtin
Share with your friend now:
tgoop.com/begtin/6271