Save The Web Project

https://tracker.archiveteam.org/goo-gl/
AT 开始跑 goo.gl 了，欢迎大家去帮忙。

git clone https://github.com/ArchiveTeam/goo-gl-grab.git
cd goo-gl-grab
docker build -t archiveteam/goo-gl-grab .
docker run -d -it --name googl --label=com.centurylinklabs.watchtower.enable=true --log-driver json-file --log-opt max-size=50m --restart=unless-stopped archiveteam/goo-gl-grab --concurrent 10 saveweb_community

^^^ 可以把 saveweb_community 改成你自己的 id ，单 ip 并发目前不建议 20+ 。
* 需要海外 vps 或海外实机，不要在国内机子上跑，也不要挂代理跑！！

1.1K viewsedited 13:49

Save The Web Project

STWP 2025 第 7 周周报

- 无事。摸鱼。天稍稍凉矣。

STWP 2025 第 8 周周报

- 摸鱼。

962 views23:34

Save The Web Project

前情提要：「关于竹白的下线通知」

目前已经存完了 790 个竹白专栏（子域名），WARC 也已上传。但因为没有好方法发现全部的有效子域名，所以有遗漏。

擅长子域名发现的师傅可以试试找找 *.zhubai.love 的域名。
如发现了不在 subdomains-deduped.urls.txt 中的有效域名，欢迎 PR 。

#help

竹白黑板报

关于竹白的下线通知

大家好，感谢过去大家对竹白的支持，因为种种原因，我们很遗憾的宣布「竹白」将于近期停止服务。关于产品下线的具体时间安排如下：2025 年 3 月 1 日 00:00 起进入只读状态（无法新增订阅者、发送新内容、保存草稿、支付等），网站、小程序可正常访问，历史内容仍然可查看；提供备份数据下载，包含全部订阅者信息和历史发布内容（我们会在 3 月 1 日发布备份数据获取方式）。2025 年 3 月 31 ...

908 views10:56

Save The Web Project

STWP 2025 第 9 周周报

- 存 zhubai @yzqzss
- biliarchiver 加了个 clean 子命令 @Ovler

STWP 2025 第 10 周周报

- day1: 写了个能将就工作的 CrawlHQ 实现
https://github.com/saveweb/altcrawlhq_server
- day2: 部分梳理了 Zeno v2 的框架设计
- day3: 开始给 Zeno V2 写 local queue
- day4: 写完了，微调，测试，发 PR: https://github.com/internetarchive/Zeno/pull/243
- day5: 之前注意到 Zeno 存新世界的大门 (https://blog.xinshijiededa.men) 会解析出一堆不存在的 url assets。
发现是因为 inline css url() 解析是简单正则提取，只是简单地把所有 html style 属性里的 () 括号里的东西当成 url 提取出来，于是把 css 中的函数 tokens （如 rgb() ）也提取出来了。
看了 https://www.w3.org/TR/css-values-4/ 和 https://www.w3.org/TR/css-syntax-3/ ，css 里 url()、src() 和 @import <string> 都能用来发网络请求。
src() 现在还没有被任何浏览器实现，可以直接忽略。( https://cssdb.org/#src-function )
url() 分 unquoted/quoted 两种，解析方法不同，都有自己的转义规则。
然后在 github 上搜了下 /url =.*getPropertyValue\(/ AND (language:JavaScript OR language:TypeScript OR language:HTML)，发现一堆往 css 里存自定义的 <string> url，然后在 js 里取值的代码。这种迷惑行为广泛存在，所以我觉得那些以 https?://|// 开头的 <string> 也有解析价值。
综上，用简单的正则提取 css 里的外链可能不太合适。
但目前 golang 这边的 css parser 库们都没做 url/string value 实际内容值的细提取，都是 lexer/tokenizer 粗切片的库，不太能用。
那么之后的计划就是写个小 parser，把粗的 <url> 和 <string> token 解析出实际值。然后和现有的粗 parser 拼一起就行了。
- day6: 一点微调，PR 合进去了。
- day7: 无。

GitHub

GitHub - saveweb/altcrawlhq_server: A simple CrawlHQ implementation

A simple CrawlHQ implementation. Contribute to saveweb/altcrawlhq_server development by creating an account on GitHub.

882 viewsyzqzss |一座桥在水上, edited 18:25

Save The Web Project

前情提要：「关于竹白的下线通知」目前已经存完了 790 个竹白专栏（子域名），WARC 也已上传。但因为没有好方法发现全部的有效子域名，所以有遗漏。擅长子域名发现的师傅可以试试找找 *.zhubai.love 的域名。如发现了不在 subdomains-deduped.urls.txt 中的有效域名，欢迎 PR 。 #help

https://github.com/ArchiveTeam/zhubai-grab
https://tracker.archiveteam.org/zhubai/

ArchiveTeam 侧的存档也开始了，不紧急，可以去帮忙，会进 wbm。

GitHub

GitHub - ArchiveTeam/zhubai-grab: Archiving 竹白 (Zhubai).

Archiving 竹白 (Zhubai). Contribute to ArchiveTeam/zhubai-grab development by creating an account on GitHub.

986 viewsyzqzss |一座桥在水上, edited 07:24

Save The Web Project

STWP 2025 第 11 周周报

无事。

960 views18:18

Save The Web Project

上周忙，无周报。

整两个小活：
- 和其它开源组织的 gitea 实例一样，我们的 https://git.saveweb.org 也被傻乎乎的 AI BOT 跟着 history 爬每个 commit 的 diff 和 raw ，~~虽然对我们没什么影响~~。受 anubis 启发，现已加上了手搓(素材从 anubis 复制的)的靠 CSS 就能工作的反 AI WAF （无需 JS）。之后会撤销 WAF。
- “丑搜”限时改名“挖抓搜”。

758 viewsedited 08:48

Save The Web Project

STWP 2025 第 13 周周报

- 竹白存档结束。但竹白服务器暂时还没关。
- 又响应了几个画吧备份请求。
- 忙

预告：第 19 周周报时会提及 11~13 周发生的趣事。

456 viewsedited 11:01

Save The Web Project

Please open Telegram to view this post

VIEW IN TELEGRAM

423 viewsedited 03:07

Save The Web Project

Please open Telegram to view this post

VIEW IN TELEGRAM

483 views03:21

Save The Web Project

昨天是世界备份日，你备份了吗？

https://worldbackupday.com/

World Backup Day

Home

Be prepared against data loss and data theft. March 31st is the day to backup and better protect your data.

689 views05:32

Save The Web Project

两个 abusers:
1.
chatId: tg://user?id=5202245475 , fromUser: 'Dual'

这谁？滥用我们的公共 bot 向 IA 上传了500多个宅舞视频。已封禁该 Telegram 用户。这用户看起来还是小号，没有在任何公开群出现过。

2. https://archive.org/details/@anonymous_internet_archive_member
这又是谁？往 IA 上传了 800 多个“战斗吧歌姬”的直播录播，还在持续上传。这完全是滥用，等着被封号吧。

无话可说了。🤬🤬

506 viewsedited 15:46

Save The Web Project

两个 abusers: 1. chatId: tg://user?id=5202245475 , fromUser: 'Dual' 这谁？滥用我们的公共 bot 向 IA 上传了500多个宅舞视频。已封禁该 Telegram 用户。这用户看起来还是小号，没有在任何公开群出现过。 2. https://archive.org/details/@anonymous_internet_archive_member 这又是谁？往 IA 上传了 800 多个“战斗吧歌姬”的直播录播，还在持续上传。这完全是滥用，等着被封号吧。…

Please open Telegram to view this post

VIEW IN TELEGRAM

520 viewsedited 15:53

Save The Web Project

实时推送已被存档的 BiliBili 视频： https://www.tgoop.com/+ibNyu3ZpXeJlMzU1

Bot已改造，实时 log 已开启，后续所有请求均会在该频道留档

539 viewsedited 18:38

Save The Web Project

前情提要：「关于竹白的下线通知」目前已经存完了 790 个竹白专栏（子域名），WARC 也已上传。但因为没有好方法发现全部的有效子域名，所以有遗漏。擅长子域名发现的师傅可以试试找找 *.zhubai.love 的域名。如发现了不在 subdomains-deduped.urls.txt 中的有效域名，欢迎 PR 。 #help

竹白服务器已于 2025-04-02 11:09:10 -5min (UTC+8) 前关闭。

558 viewsedited 04:36

Save The Web Project

#share
https://diff.wikimedia.org/2025/04/01/how-crawlers-impact-the-operations-of-the-wikimedia-projects/

Diff

How crawlers impact the operations of the Wikimedia projects

Since the beginning of 2024, the demand for the content created by the Wikimedia volunteer community – especially for the 144 million images, videos, and other files on Wikimedia Commons – has grow…

640 views04:43

Save The Web Project

Forwarded from tacwolfrevo

Please open Telegram to view this post

VIEW IN TELEGRAM

1.1K views05:25

Save The Web Project

喜报！

历经 5 个月的打磨，Zeno v2 的 PR 合并了。

https://github.com/internetarchive/Zeno/pull/166

594 views18:27

Save The Web Project

大家知道哪些还在用非主流编码的网站？（如 gbk、shift jis等，不局限于中文编码）

在处理非 utf8 的 html，找点现实例子做测试参考。👀

318 views14:21

Save The Web Project

以防万一，建议各位备份一下自己的 GitHub repo。

ref: https://github.com/orgs/community/discussions/156515
update: https://www.githubstatus.com/incidents/jfvgcls9swln

254 viewsedited 05:01

2025/04/13 21:28:33
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>