tgoop.com/saveweb/108
Last Update:
为了 STWP 不长期咕咕咕🌚,我们将每周发布项目进展简讯。
---
第 14 周项目摘要。
20230401 ~ 20230403:
@jsun969 在尝试给 uglysearch.othing.xyz 写前端:https://github.com/saveweb/saveweb-search-frontend
20230405:
saveweb/review-2022 收录 +1
20230403 ~ 20230406:
* 播客存档项目开工,写存档工具:https://github.com/saveweb/preserve-those-podcasts
20230408:
* 播客存档工具GA了,试着存档了 30 个播客,占用 140GiB。(之后会扩大存档规模)
* 把某国内应用市场的存档计划对应的存档服务器的数据库拉回本地,做分库。
* 抓包,探索了国内知名播客应用「小宇宙」的API。
20230409:
* wikiapiary.com 上的 wikiteam bot 机器人已经宕机 8 年了。这 8 年 wikiapiary、IA、pywikibot、MediaWiki、WikiTeam 等软件或服务的 API 都有变化, wikiteam/wikiteam repo 里原来的那个bot脚本已经用不了了。
于是写了个新 bot ,尝试复活它。
https://github.com/saveweb/wikiapiary-wikiteam-bot
正在尝试联系原 wikiteam bot 的账号持有人,如果联系不到,咱们就联系 wikiapiary 申请个机器人账号自己跑。🌚
---
近日讨论摘要:
1. https://github.com/saveweb/see-agreement/ 这个项目一直搁置……
2. 日经讨论:吐槽网络、哀嚎缺存储空间、吐槽SSD寿命。
3. https://www.podcastrepublic.net/ 可以作为博客存档项目的爬取源。
4. Mac 软件:Little Snitch Network Monitor 的流量可视化有点酷。
5. xuite.net 「Xuite 隨意窩」 博客平台要关站了。
---
接下来的工作/待办事项:
1. 需要继续维护 rss-list ,缺人。
2. 软盘存档项目,写具体的存档流程和方法(写手册,也可能录视频)。
3. mediawiki 存档相关:
3.1 优化 wikiteam3 的 launcher.py ,只把 history.xml 打进一个压缩包。
3.2 弃用 wikiteam3 给每个媒体文件下载 .desc 文件的“特性”。
3.3 流式解析 wikiteam3 生成的 wikidump xml,做 xml 校验器。
3.4 写个保存 fandom wiki 的 comments 的小脚本。(wikiteam#456)
4. 做 DokuWiki 存档。小目标:完成 100 个 DokuWiki 的存档(目前存了20多个)。最好能吸引“国际友人”参与(目前只有一个)。
5. @jsun969 写博客搜索引擎的前端。
6. 将 FreshRSS 的 MariaDB 与 MeiliSearch 对接,使博客搜索引擎全文索引能实时更新。(目前是手动全库导入)
7. @oveRidea_China 开发 BiliBili 每日 Top 100 视频存档。
8. 继续探索:播客存档的方法。
---
咕咕咕(停摆)的项目:
1. see-agreement (收集各网站/软件的用户协议,隐私协议等) 2. 互联网公墓 wiki (记录关站的网站和服务) 3. 天涯论坛存档(元数据爬取都还没做好,元数据通过 web 爬取行不通,得走API) 4. Git 博客仓库存档(需要人维护,停摆) 5. 语雀公开知识库存档(语雀现在能开公开知识库的都是付费用户,给付费用户做存档,感觉有点……提不起兴趣)
BY Save The Web Project
Share with your friend now:
tgoop.com/saveweb/108