tgoop.com/notjohnmu/1323
Last Update:
Вдохновившись роликом Ивана Зимина (@heymoneymaker) про ChatGPT для написания скриптов, решил попробовать создать решение для выгрузки и разбора больших сайтмапов.
Это просто демонстрация, как человек практически без знания python'а и минимальным опытом программирования может автоматизировать работу без привлечения разработчиков :) Потратил полчаса времени, в процессе было несколько уточняющих промтов после того, как столкнулся с ошибками при парсинге. Использовал GPT-4.
Что он делает:
- выгружает sitemap index, проходит по всем сайтмапам внутри
- выводит кол-во урлов в каждом сайтмапе и общее кол-во урлов
- складывает все полученные урлы в массив и сохраняет в текстовый файл
- выводит таблицу: Первый фрагмент урла | Кол-во вхождений
- сохраняет в SQLite-базу таблицу с фрагментами и датой для последующего поиска изменений.
Развивать его, безусловно есть куда (использовать регулярки для выделения разделов, а не просто первый уровень урла, добавить визуализацию изменений по датам и т.п.)
BY noindex, nofollow
![](https://photo2.tgoop.com/u/cdn4.cdn-telegram.org/file/Cq0_Hz5Sfst2cI9maYOFxhaF8dyMoxL9fsFLll-n-icufVAg5Ptgz4P3zwUc8fNKSeUN13zXWGSnaa4nz0V43tH_JXHfoXCe4O9mRFrHRcQp5HjpRspMPrBF93QdmYdzrY2ZT9PcL6WhrjOVjCxsog691oQEHpPLaVpufwF8_nzrAmacMJvIS1d2JgVtQGIKJJO-6jGMGSwCwx9GaE_WHEW_XohAvVCMN8CVldeBmcu9QUSX5wiW6exo0v3fqn79xBPALUrdu2AGIoxVq_9npXXKSBXuGhs8kCPwinDVD2sm7TcAKDaw-mjSkQJT39ZJmYi9LMOZqgbdFZFthNyLxA.jpg)
Share with your friend now:
tgoop.com/notjohnmu/1323