BEGTIN Telegram 6459
Для тех кто пользуется Интернет Архивом (web.archive.org) не все знают что у него кроме официального API есть ещё и неофициальное с помощью которого, например, можно получить информацию о том проиндексирован ли сайт/веб страница и как давно и как часто.

Вот пример такого кода на Python

import http.client

conn = http.client.HTTPSConnection("
web.archive.org")
payload = ''
headers = {
'Sec-Fetch-Mode': 'cors',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:135.0) Gecko/20100101 Firefox/135.0',
'Referer': '
https://web.archive.org'
}
conn.request("GET", "/__wb/sparkline?output=json&url=
https://fas.gov.ru&collection=web&=null", payload, headers)
res = conn.getresponse()
data =
res.read()
print(data.decode("utf-8"))


Для сайта ФАС России (fas.gov.ru) ответ будет выглядеть вот так

{"years":{"2005":[0,2,1,1,0,2,2,2,1,0,1,2],"2006":[0,3,0,3,4,3,5,8,4,6,3,1],"2007":[6,5,3,2,1,3,2,0,1,13,2,3],"2008":[2,2,2,1,1,0,1,0,2,4,1,3],"2009":[1,4,3,3,2,2,2,2,3,1,1,7],"2010":[4,4,4,4,0,0,2,1,2,2,2,3],"2011":[2,2,2,2,4,1,7,2,3,5,1,1],"2012":[5,12,9,13,10,9,9,10,8,5,14,20],"2013":[25,12,13,8,4,2,3,6,4,4,8,29],"2014":[33,29,32,29,30,15,18,22,16,20,13,3],"2015":[14,4,7,3,5,18,0,11,3,16,28,25],"2016":[28,24,36,23,5,21,7,16,24,23,33,46],"2017":[30,30,32,18,12,14,14,15,14,18,20,18],"2018":[10,5,12,7,5,9,8,14,15,8,10,9],"2019":[8,6,13,13,10,12,12,10,26,21,15,24],"2020":[10,27,32,26,25,27,24,27,24,30,13,6],"2021":[20,23,18,24,20,39,18,34,19,33,19,27],"2022":[162,112,0,2,1,0,0,0,0,0,0,0],"2023":[0,0,0,0,0,3,2,0,0,1,2,6],"2024":[17,2,0,60,90,80,10,0,0,0,0,0]},"first_ts":"20050203182849","last_ts":"20240705005432","status":{"2005":"422242222422","2006":"424222222222","2007":"222222242222","2008":"222224242222","2009":"222222222222","2010":"222244222222","2011":"222222222222","2012":"222222222222","2013":"222222222222","2014":"222222222222","2015":"222222422222","2016":"222222222222","2017":"222222222222","2018":"222222222222","2019":"222222222222","2020":"222222222222","2021":"222222222222","2022":"224334444444","2023":"444443344222","2024":"234222344444"}}

Из него можно узнать что последняя его индексация была в июле 2024 года (!) и не было индексации в 2025 году. Это означает что, либо вся подсеть, либо краулер Интернет Архива там заблокированы как минимум уже 7 месяцев.

Аналогично со многими другими сайтами. Я об этом писал ранее, а теперь можно проверить насколько заархивированы сайты с помощью API.

Что это означает?
1. Значительная часть официального контента российских государственных сайтов теперь отсутствует в Интернет Архиве
2. Необходимо архивировать их самостоятельно и с IP адресов в России

#webarchives #digitalpreservation



tgoop.com/begtin/6459
Create:
Last Update:

Для тех кто пользуется Интернет Архивом (web.archive.org) не все знают что у него кроме официального API есть ещё и неофициальное с помощью которого, например, можно получить информацию о том проиндексирован ли сайт/веб страница и как давно и как часто.

Вот пример такого кода на Python

import http.client

conn = http.client.HTTPSConnection("
web.archive.org")
payload = ''
headers = {
'Sec-Fetch-Mode': 'cors',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:135.0) Gecko/20100101 Firefox/135.0',
'Referer': '
https://web.archive.org'
}
conn.request("GET", "/__wb/sparkline?output=json&url=
https://fas.gov.ru&collection=web&=null", payload, headers)
res = conn.getresponse()
data =
res.read()
print(data.decode("utf-8"))


Для сайта ФАС России (fas.gov.ru) ответ будет выглядеть вот так

{"years":{"2005":[0,2,1,1,0,2,2,2,1,0,1,2],"2006":[0,3,0,3,4,3,5,8,4,6,3,1],"2007":[6,5,3,2,1,3,2,0,1,13,2,3],"2008":[2,2,2,1,1,0,1,0,2,4,1,3],"2009":[1,4,3,3,2,2,2,2,3,1,1,7],"2010":[4,4,4,4,0,0,2,1,2,2,2,3],"2011":[2,2,2,2,4,1,7,2,3,5,1,1],"2012":[5,12,9,13,10,9,9,10,8,5,14,20],"2013":[25,12,13,8,4,2,3,6,4,4,8,29],"2014":[33,29,32,29,30,15,18,22,16,20,13,3],"2015":[14,4,7,3,5,18,0,11,3,16,28,25],"2016":[28,24,36,23,5,21,7,16,24,23,33,46],"2017":[30,30,32,18,12,14,14,15,14,18,20,18],"2018":[10,5,12,7,5,9,8,14,15,8,10,9],"2019":[8,6,13,13,10,12,12,10,26,21,15,24],"2020":[10,27,32,26,25,27,24,27,24,30,13,6],"2021":[20,23,18,24,20,39,18,34,19,33,19,27],"2022":[162,112,0,2,1,0,0,0,0,0,0,0],"2023":[0,0,0,0,0,3,2,0,0,1,2,6],"2024":[17,2,0,60,90,80,10,0,0,0,0,0]},"first_ts":"20050203182849","last_ts":"20240705005432","status":{"2005":"422242222422","2006":"424222222222","2007":"222222242222","2008":"222224242222","2009":"222222222222","2010":"222244222222","2011":"222222222222","2012":"222222222222","2013":"222222222222","2014":"222222222222","2015":"222222422222","2016":"222222222222","2017":"222222222222","2018":"222222222222","2019":"222222222222","2020":"222222222222","2021":"222222222222","2022":"224334444444","2023":"444443344222","2024":"234222344444"}}

Из него можно узнать что последняя его индексация была в июле 2024 года (!) и не было индексации в 2025 году. Это означает что, либо вся подсеть, либо краулер Интернет Архива там заблокированы как минимум уже 7 месяцев.

Аналогично со многими другими сайтами. Я об этом писал ранее, а теперь можно проверить насколько заархивированы сайты с помощью API.

Что это означает?
1. Значительная часть официального контента российских государственных сайтов теперь отсутствует в Интернет Архиве
2. Необходимо архивировать их самостоятельно и с IP адресов в России

#webarchives #digitalpreservation

BY Ivan Begtin




Share with your friend now:
tgoop.com/begtin/6459

View MORE
Open in Telegram


Telegram News

Date: |

How to Create a Private or Public Channel on Telegram? bank east asia october 20 kowloon fire bomb molotov November 18 Dylan Hollingsworth yau ma tei How to Create a Private or Public Channel on Telegram? Don’t publish new content at nighttime. Since not all users disable notifications for the night, you risk inadvertently disturbing them.
from us


Telegram Ivan Begtin
FROM American