https://tracker.archiveteam.org/goo-gl/
AT 开始跑 goo.gl 了,欢迎大家去帮忙。
^^^ 可以把
* 需要海外 vps 或海外实机,不要在国内机子上跑,也不要挂代理跑!!
AT 开始跑 goo.gl 了,欢迎大家去帮忙。
git clone https://github.com/ArchiveTeam/goo-gl-grab.git
cd goo-gl-grab
docker build -t archiveteam/goo-gl-grab .
docker run -d -it --name googl --label=com.centurylinklabs.watchtower.enable=true --log-driver json-file --log-opt max-size=50m --restart=unless-stopped archiveteam/goo-gl-grab --concurrent 10 saveweb_community
^^^ 可以把
saveweb_community
改成你自己的 id ,单 ip 并发目前不建议 20+ 。* 需要海外 vps 或海外实机,不要在国内机子上跑,也不要挂代理跑!!
❤11
前情提要:「关于竹白的下线通知」
目前已经存完了 790 个竹白专栏(子域名),WARC 也已上传。但因为没有好方法发现全部的有效子域名,所以有遗漏。
擅长子域名发现的师傅可以试试找找 *.zhubai.love 的域名。
如发现了不在 subdomains-deduped.urls.txt 中的有效域名,欢迎 PR 。
#help
目前已经存完了 790 个竹白专栏(子域名),WARC 也已上传。但因为没有好方法发现全部的有效子域名,所以有遗漏。
擅长子域名发现的师傅可以试试找找 *.zhubai.love 的域名。
如发现了不在 subdomains-deduped.urls.txt 中的有效域名,欢迎 PR 。
#help
STWP 2025 第 9 周周报
- 存 zhubai @yzqzss
- biliarchiver 加了个 clean 子命令 @Ovler
STWP 2025 第 10 周周报
- day1: 写了个能将就工作的 CrawlHQ 实现
https://github.com/saveweb/altcrawlhq_server
- day2: 部分梳理了 Zeno v2 的框架设计
- day3: 开始给 Zeno V2 写 local queue
- day4: 写完了,微调,测试,发 PR: https://github.com/internetarchive/Zeno/pull/243
- day5: 之前注意到 Zeno 存新世界的大门 (https://blog.xinshijiededa.men) 会解析出一堆不存在的 url assets。
发现是因为 inline css url() 解析是简单正则提取,只是简单地把所有 html style 属性里的 () 括号里的东西当成 url 提取出来,于是把 css 中的函数 tokens (如 rgb() )也提取出来了。
看了 https://www.w3.org/TR/css-values-4/ 和 https://www.w3.org/TR/css-syntax-3/ ,css 里 url()、src() 和 @import <string> 都能用来发网络请求。
src() 现在还没有被任何浏览器实现,可以直接忽略。( https://cssdb.org/#src-function )
url() 分 unquoted/quoted 两种,解析方法不同,都有自己的转义规则。
然后在 github 上搜了下 /url =.*getPropertyValue\(/ AND (language:JavaScript OR language:TypeScript OR language:HTML),发现一堆往 css 里存自定义的 <string> url,然后在 js 里取值的代码。这种迷惑行为广泛存在,所以我觉得那些以 https?://|// 开头的 <string> 也有解析价值。
综上,用简单的正则提取 css 里的外链可能不太合适。
但目前 golang 这边的 css parser 库们都没做 url/string value 实际内容值的细提取,都是 lexer/tokenizer 粗切片的库,不太能用。
那么之后的计划就是写个小 parser,把粗的 <url> 和 <string> token 解析出实际值。然后和现有的粗 parser 拼一起就行了。
- day6: 一点微调,PR 合进去了。
- day7: 无。
- 存 zhubai @yzqzss
- biliarchiver 加了个 clean 子命令 @Ovler
STWP 2025 第 10 周周报
- day1: 写了个能将就工作的 CrawlHQ 实现
https://github.com/saveweb/altcrawlhq_server
- day2: 部分梳理了 Zeno v2 的框架设计
- day3: 开始给 Zeno V2 写 local queue
- day4: 写完了,微调,测试,发 PR: https://github.com/internetarchive/Zeno/pull/243
- day5: 之前注意到 Zeno 存新世界的大门 (https://blog.xinshijiededa.men) 会解析出一堆不存在的 url assets。
发现是因为 inline css url() 解析是简单正则提取,只是简单地把所有 html style 属性里的 () 括号里的东西当成 url 提取出来,于是把 css 中的函数 tokens (如 rgb() )也提取出来了。
看了 https://www.w3.org/TR/css-values-4/ 和 https://www.w3.org/TR/css-syntax-3/ ,css 里 url()、src() 和 @import <string> 都能用来发网络请求。
src() 现在还没有被任何浏览器实现,可以直接忽略。( https://cssdb.org/#src-function )
url() 分 unquoted/quoted 两种,解析方法不同,都有自己的转义规则。
然后在 github 上搜了下 /url =.*getPropertyValue\(/ AND (language:JavaScript OR language:TypeScript OR language:HTML),发现一堆往 css 里存自定义的 <string> url,然后在 js 里取值的代码。这种迷惑行为广泛存在,所以我觉得那些以 https?://|// 开头的 <string> 也有解析价值。
综上,用简单的正则提取 css 里的外链可能不太合适。
但目前 golang 这边的 css parser 库们都没做 url/string value 实际内容值的细提取,都是 lexer/tokenizer 粗切片的库,不太能用。
那么之后的计划就是写个小 parser,把粗的 <url> 和 <string> token 解析出实际值。然后和现有的粗 parser 拼一起就行了。
- day6: 一点微调,PR 合进去了。
- day7: 无。
GitHub
GitHub - saveweb/altcrawlhq_server: A simple CrawlHQ implementation
A simple CrawlHQ implementation. Contribute to saveweb/altcrawlhq_server development by creating an account on GitHub.
🥰6
Save The Web Project
前情提要:「关于竹白的下线通知」 目前已经存完了 790 个竹白专栏(子域名),WARC 也已上传。但因为没有好方法发现全部的有效子域名,所以有遗漏。 擅长子域名发现的师傅可以试试找找 *.zhubai.love 的域名。 如发现了不在 subdomains-deduped.urls.txt 中的有效域名,欢迎 PR 。 #help
https://github.com/ArchiveTeam/zhubai-grab
https://tracker.archiveteam.org/zhubai/
ArchiveTeam 侧的存档也开始了,不紧急,可以去帮忙,会进 wbm。
https://tracker.archiveteam.org/zhubai/
ArchiveTeam 侧的存档也开始了,不紧急,可以去帮忙,会进 wbm。
GitHub
GitHub - ArchiveTeam/zhubai-grab: Archiving 竹白 (Zhubai).
Archiving 竹白 (Zhubai). Contribute to ArchiveTeam/zhubai-grab development by creating an account on GitHub.
上周忙,无周报。
整两个小活:
- 和其它开源组织的 gitea 实例一样,我们的 https://git.saveweb.org 也被傻乎乎的 AI BOT 跟着 history 爬每个 commit 的 diff 和 raw ,虽然对我们没什么影响。受 anubis 启发,现已加上了手搓(素材从 anubis 复制的)的靠 CSS 就能工作的反 AI WAF (无需 JS)。之后会撤销 WAF。
- “丑搜”限时改名“挖抓搜”。
整两个小活:
- 和其它开源组织的 gitea 实例一样,我们的 https://git.saveweb.org 也被傻乎乎的 AI BOT 跟着 history 爬每个 commit 的 diff 和 raw ,
- “丑搜”限时改名“挖抓搜”。
❤8🤩1
STWP 2025 第 13 周周报
- 竹白存档结束。但竹白服务器暂时还没关。
- 又响应了几个画吧备份请求。
- 忙
预告:第 19 周周报时会提及 11~13 周发生的趣事。
- 竹白存档结束。但竹白服务器暂时还没关。
- 又响应了几个画吧备份请求。
- 忙
预告:第 19 周周报时会提及 11~13 周发生的趣事。
2023/5/28 17:12
# [PyPI] Your request for a new organization named 'saveweb' has been submitted
2025/4/1 05:43
# [PyPI] Your new organization named 'saveweb' has been approved and created
两年过去了,我们在 PyPI 上的组织申请竟然通过了。
现在包都迁过去了。
❤6🔥1
回顾一下,组织功能是在 2023-04-23 推出的,我们是在 2023-05-28 申请的。
https://blog.pypi.org/posts/2023-04-23-introducing-pypi-organizations/
也就等了 97 周而已,不多。🫠
https://blog.pypi.org/posts/2023-04-23-introducing-pypi-organizations/
Get started today
Both community projects (non-profits, NGO’s, hobbyists, etc) and corporate teams can sign up to request their organization name starting today. Submissions will begin seeing review and approval in the coming weeks, and corporate teams will be able to finalize their signup with billing details in May.
也就等了 97 周而已,不多。🫠
blog.pypi.org
Introducing PyPI Organizations - The Python Package Index Blog
Announcing the launch of a significant new collaboration feature for PyPI
🌚8😁3
两个 abusers:
1.
chatId: tg://user?id=5202245475 , fromUser: 'Dual'
这谁?滥用我们的公共 bot 向 IA 上传了500多个宅舞视频。已封禁该 Telegram 用户。这用户看起来还是小号,没有在任何公开群出现过。
2. https://archive.org/details/@anonymous_internet_archive_member
这又是谁?往 IA 上传了 800 多个“战斗吧歌姬”的直播录播,还在持续上传。这完全是滥用,等着被封号吧。
无话可说了。🤬🤬
1.
chatId: tg://user?id=5202245475 , fromUser: 'Dual'
这谁?滥用我们的公共 bot 向 IA 上传了500多个宅舞视频。已封禁该 Telegram 用户。这用户看起来还是小号,没有在任何公开群出现过。
2. https://archive.org/details/@anonymous_internet_archive_member
这又是谁?往 IA 上传了 800 多个“战斗吧歌姬”的直播录播,还在持续上传。这完全是滥用,等着被封号吧。
无话可说了。🤬🤬
😢14🤬6💊5
Save The Web Project
这又是谁?往 IA 上传了 800 多个“战斗吧歌姬”的直播录播,还在持续上传。这完全是滥用,等着被封号吧
平均一个录播 10G,你传了 800 个,总共 8T+。IA 每个 item 会有一个备份。也就是说你用掉了 16TiB 实际存储。
我们迄今为止整个 bilibili_videos 合集近 10 万个视频才不到 10TB。
这两位你好自为之。
我们迄今为止整个 bilibili_videos 合集近 10 万个视频才不到 10TB。
这两位你好自为之。
Save The Web Project
实时推送已被存档的 BiliBili 视频: https://www.tgoop.com/+ibNyu3ZpXeJlMzU1
Bot已改造,实时 log 已开启,后续所有请求均会在该频道留档
Save The Web Project
前情提要:「关于竹白的下线通知」 目前已经存完了 790 个竹白专栏(子域名),WARC 也已上传。但因为没有好方法发现全部的有效子域名,所以有遗漏。 擅长子域名发现的师傅可以试试找找 *.zhubai.love 的域名。 如发现了不在 subdomains-deduped.urls.txt 中的有效域名,欢迎 PR 。 #help
竹白服务器已于 2025-04-02 11:09:10 -5min (UTC+8) 前关闭。
#share
https://diff.wikimedia.org/2025/04/01/how-crawlers-impact-the-operations-of-the-wikimedia-projects/
https://diff.wikimedia.org/2025/04/01/how-crawlers-impact-the-operations-of-the-wikimedia-projects/
Diff
How crawlers impact the operations of the Wikimedia projects
Since the beginning of 2024, the demand for the content created by the Wikimedia volunteer community – especially for the 144 million images, videos, and other files on Wikimedia Commons – has grow…
Forwarded from tacwolfrevo
前端猫抬头看看天空说:“如果世界真象这天空这么安静就好了,但是就有一些爬虫,象Zeno,要搞乱这个新世界,他们是罪人。”说着,前端猫低下脑壳,从云焰里扒拉出一颗WAF,然后看着天空说:“该死的存档佬。”说着他把WAF奋力向上一掷。很快就见一颗机器突然爆发出耀眼的强光,然后就坠落下来。“这是IA的间谍机器,他们一直在新世界的大门前盘旋,侵犯我们的著作权,我已经忍了很久了。”前端猫愤愤地说。小朋友们都鼓起掌来,为前端有这样的程序员感到自豪。
🤣27😐2🌚1