Save The Web Project
STWP 2024 第 45 周周报 本周新闻: - IA S3 本周基本恢复了,现在只允许 https 访问。 倒闭观察: - Hertown 社区停运,定于 2025-1-5 完全关闭服务。 - mangaz.com 月初被信用卡公司取消支付服务合同,预计于 2024-11-26 12:00 (UTC+9) 关闭,站方称仍在寻求重启网站的办法。[link] STWP 本周趣闻: - 4号上午我们手动删库并回滚了一个 mongodb 数据库,意外发现 mongodb replicat 貌似会重用 oplog…
STWP 2024 第 46 周周报
> 各项目缺人,帮帮我们!呜呜~
- 我们向 CloudFlare 申请 wikiteam3 成为 verified bots,希望申请能过。祝我们好运!
- 982263/6186010 (即15.87%),这是 AcFun ~2019-3-14 前的视频的存活率。
> 各项目缺人,帮帮我们!呜呜~
- 我们向 CloudFlare 申请 wikiteam3 成为 verified bots,希望申请能过。祝我们好运!
- 982263/6186010 (即15.87%),这是 AcFun ~2019-3-14 前的视频的存活率。
Please open Telegram to view this post
VIEW IN TELEGRAM
https://huggingface.co/datasets/alpindale/two-million-bluesky-posts
啥?数据集里才两百万条帖子?大家根本不用慌好吧,肯定是抽样数据。
随便网上找个非全球性的、小有名气的、垂直领域的社交媒体,哪个没有千万起步的帖子量的。
还有人不知道任何人都能订阅 Bluesky 全站事件吗(这TM才是开放的互联网!
(群友谁来做个亿级的数据集,吓死业界。)
#玩笑 上下文
啥?数据集里才两百万条帖子?大家根本不用慌好吧,肯定是抽样数据。
随便网上找个非全球性的、小有名气的、垂直领域的社交媒体,哪个没有千万起步的帖子量的。
#玩笑 上下文
huggingface.co
alpindale/two-million-bluesky-posts · Datasets at Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
Save The Web Project
STWP 2024 第 47 周周报 None.
STWP 2024 第 48 周周报
- Bilibili 字幕投毒
我们发现 Bilibili 开始在视频字幕 API 里投毒。目前如果不预先访问视频详情(网页/API)或者不做 wbi 签名,字幕 API 会返回随机的驴头不对马嘴的别的视频的字幕。
投毒具体开始时间尚不清楚,至少一个月前就存在这情况了。
也就是说,我们过去一个月存的 10k 多个视频的字幕都需要消毒。
- goo.gl 新进展
前段时间,“一位不可思议、了不起、才华横溢的志愿者”(看懂这个梗的掌声 )ーー @prnake 联系了我们,带来了从 GitHub 镜像里提取出的 goo.gl 和 page.link 链接,去重后,新增了 485966 个有效链接。
- 复活 SkinMe Mod
> SkinMe 是曾非常流行的盗版 Minecraft 皮肤站,不过早已停止服务。
@catme0w 发现 SkinMe Mod 内置了一些 fallback 服务,可惜当年的 fallback 服务们现在也都挂了,不过其中有两个已过期域名可注册。于是买下了它两并将请求重定向到 mojang 和现存的皮肤站。[repo]
- 其它项目都是小修小补,不在此列出。
- Bilibili 字幕投毒
我们发现 Bilibili 开始在视频字幕 API 里投毒。目前如果不预先访问视频详情(网页/API)或者不做 wbi 签名,字幕 API 会返回随机的驴头不对马嘴的别的视频的字幕。
投毒具体开始时间尚不清楚,至少一个月前就存在这情况了。
也就是说,我们过去一个月存的 10k 多个视频的字幕都需要消毒。
- goo.gl 新进展
前段时间,“一位不可思议、了不起、才华横溢的志愿者”(
- 复活 SkinMe Mod
> SkinMe 是曾非常流行的盗版 Minecraft 皮肤站,不过早已停止服务。
@catme0w 发现 SkinMe Mod 内置了一些 fallback 服务,可惜当年的 fallback 服务们现在也都挂了,不过其中有两个已过期域名可注册。于是买下了它两并将请求重定向到 mojang 和现存的皮肤站。[repo]
- 其它项目都是小修小补,不在此列出。
Save The Web Project
STWP 2024 第 48 周周报 - Bilibili 字幕投毒 我们发现 Bilibili 开始在视频字幕 API 里投毒。目前如果不预先访问视频详情(网页/API)或者不做 wbi 签名,字幕 API 会返回随机的驴头不对马嘴的别的视频的字幕。 投毒具体开始时间尚不清楚,至少一个月前就存在这情况了。 也就是说,我们过去一个月存的 10k 多个视频的字幕都需要消毒。 - goo.gl 新进展 前段时间,“一位不可思议、了不起、才华横溢的志愿者”(看懂这个梗的掌声 )ーー @prnake 联系了我们,带来了从…
GitHub
GitHub - saveweb/aixifan: 爱稀饭 - AcFun video archiver
爱稀饭 - AcFun video archiver. Contribute to saveweb/aixifan development by creating an account on GitHub.
Save The Web Project
STWP 2024 第 49 周周报 - AcFun AcFun 视频下载器已经写好了。等搓好 IA S3 上传库,就可以开始存档远古的 AcFun 视频了。
STWP 2024 第 50 周周报
- 小鸡词典
小鸡词典撑了几年还是撑不住了,官宣解散。
- 某新兴板聊APP
本来只是觉得好玩然后想存它,结果发现它数据库的 row security polices (Row Level Security) 有逻辑问题,所以在此不公布APP的名字。三天前就把问题电邮给开发者了,中途又通过其他渠道尝试反馈了,但都没有收到回复,问题也一直没修……
---
接下来三周 STWP 放假,没有周报。
- 小鸡词典
小鸡词典撑了几年还是撑不住了,官宣解散。
- 某新兴板聊APP
---
接下来三周 STWP 放假,没有周报。
Save The Web Project
主要有 posts 和 comments 两个表。(还有个 users 表,不过权限限得很死)
用户只能删除由自己创建的 post (if post.created_by == <user>.id),没毛病。(comment 同理)
但是它没有限制用户 update 别人的 post 或 comment,所以可以把别的 post/comment 的 created_by 改成自己。然后就能删任意帖子了。
——
用 PostgREST 这类中间件,让客户端直通数据库时要注意权限设计啊!毕竟没有传统意义上的“后端”来隔离客户端与数据库了。
用户只能删除由自己创建的 post (if post.created_by == <user>.id),没毛病。(comment 同理)
但是它没有限制用户 update 别人的 post 或 comment,所以可以把别的 post/comment 的 created_by 改成自己。然后就能删任意帖子了。
——
用 PostgREST 这类中间件,让客户端直通数据库时要注意权限设计啊!毕竟没有传统意义上的“后端”来隔离客户端与数据库了。
Save The Web Project
STWP 2024 第 49 周周报 - AcFun AcFun 视频下载器已经写好了。等搓好 IA S3 上传库,就可以开始存档远古的 AcFun 视频了。
开始存档 AcFun 视频!
回顾一些经典老物.jpg:
https://archive.org/details/AcFun-1984_p1
https://archive.org/details/AcFun-1411_p1
https://archive.org/details/AcFun-3784_p1
https://archive.org/details/AcFun-7579_p1
https://archive.org/details/AcFun-2123_p1
......
(目前还存在的早期 douga id 的视频基本是后期补档出来的)
——
https://github.com/saveweb/aixifan
回顾一些经典老物.jpg:
https://archive.org/details/AcFun-1984_p1
https://archive.org/details/AcFun-1411_p1
https://archive.org/details/AcFun-3784_p1
https://archive.org/details/AcFun-7579_p1
https://archive.org/details/AcFun-2123_p1
......
(目前还存在的早期 douga id 的视频基本是后期补档出来的)
——
https://github.com/saveweb/aixifan