Telegram Web
今天是国际档案日。
🥰13👍5
最近那篇说中文互联网寄了的微信文章很火,我们想用实测说话。🫠🫠
大家好,请帮助我们测量 2014 年(十年前)的中文互联网资讯类链接的腐烂情况。

https://docs.google.com/spreadsheets/d/16XX9E6iUxWbWXoZNl7W_VJntL3aGSoX0hL76GJnZTyo/edit?usp=sharing

目前有 8k+ 抽样链接,但统计结果收敛之后就停。
6
#安全警告 #GitHub

如果你有 GitHub 组织,并且将 Member privileges 的 Base permissions 手动设为了 No permission (默认是 Read)。那么您组织的 Owner 名单(包括 Private Owner)就可以被通过一种妙妙地方式泄漏出来(Private Member 名单不会被泄漏)。

几天前我们无意间发现了这个小 bug,报给 GitHub 了,但现在还没收到回复。

建议各位用 Team/Repo 细粒度划分权限的组织暂时将 Base permissions 设为 Read。

不信邪的可以在评论区发下您的组织名

update: GitHub 已确认此 bug 。
update: GitHub 已修复。
🌚16
https://mp.weixin.qq.com/s/5WjsLVXhdhEm8ew5W3sdBA

小编你好,我们的 Logo 能不能缩小一点点。🤔
🤣181🤯1
https://git.saveweb.org/saveweb/acfunction_go/releases

尝试存档 AcFun 全站弹幕。(目标高度:2亿)
Coming s∞n: AcFun 视频存档。

#FunWithoutB
8
Save The Web Project
Photo
感谢 ArchiveTeam。
来自抽屉的 13,623,632 个外部网页链接(多为新闻、帖子)已全部完成爬取,其中有效的网页(预计 >20% <70%)已编入 Wayback Machine 中。
👍9
Save The Web Project
https://git.saveweb.org/saveweb/acfunction_go/releases 尝试存档 AcFun 全站弹幕。(目标高度:2亿) Coming s∞n: AcFun 视频存档。 #FunWithoutB
目前所有的 DPoS 项目都已获得半官方的 docker 容器支持(目前仅提供 Linux amd64/arm64 镜像)
容器运行不污染环境,不会遇到依赖项无法满足的问题,且开箱就能获得不错的安全隔离,推荐 Linux/macOS 用户使用
🥰4
Q: 雨天时,当地的互联网带宽用量会比平时高一些吗?
我们统计了历年 AcFun 的全站弹幕数量,不出所料,发现 AcFun 用户触目惊心地巨量流失。
目前弹幕发送量不及其 2016 年的 3%,甚至不如当年(2018年)“倒闭”时的 16%。

(考虑到 2024 年才过去一半,于是在表上将它今年的数据翻了倍。)

#互联网观察

(另外。刚才两条消息发出后发现是误判,故撤回)
😁17😢7👍1
喜讯喜讯,特大喜讯,CentOS7 EOL 了!
🎉🎊🎉
👏17
抽屉新热榜 已于 2024-06-30 彻底关停。
😭4😇3
Save The Web Project
https://www.cnblogs.com/cmt/p/18302049 ...靠银行贷款的资金维持周转,每个月还了再借出来。 ...意外的悲剧来袭,几乎所有渠道的贷款持续断流(还款后借不出来或者被降额) ???
#help

STWP 存档冲击!
要你敢运行——
2024-07-17 完全 DPoS 化!
来势汹汹的一千八百万文章激爆太阳追踪器,加上飞快的 golang,将你推向 internet abuser 之极地,不用等待,一起情不自禁HI起来,飞起来……

download https://example.org/releases/download/v-{蛋糕} now!

(注: 蛋糕预制口味自选↓↓“创”用户请自行 clone 制作蛋糕)

darwin-amd64
darwin-arm64
linux-amd64
linux-arm
linux-arm64
windows-amd64.exe


———

担心食品安全,又不愿意自己做蛋糕?把它放进集装箱里!

echo Hello World

⭐️某位写着 Dockerfile 写睡着的帕鲁喜。
🤣205🤩3🥰1
Save The Web Project
译文:「如何成为“海盗”存档者?」出炉啦 片面地说,这是篇讲如何给盗版资源做存档的入门文章。 翻译自 Pirate Library Mirror 项目的关联博客(anna's blog),原文:http://annas-blog.org/blog-how-to-become-a-pirate-archivist.html > Pirate Library Mirror 就是那个给 Z-Library 做全站镜像并做种分发的项目。 翻译已得到了作者允许。
https://annas-archive.org/blog/critical-window-chinese.html

仍然存在许多小型馆藏的长尾,每天都有新书被扫描或出版,但增长速度可能会逐渐减缓。我们的规模可能还会翻一番甚至增加两倍,但这将在更长的时间内发生。

过去10年中,硬盘成本每TB大致减少了三分之一,并且可能会继续以类似的速度下降。磁带似乎也在类似的轨迹上。固态硬盘价格下降速度更快,可能会在本世纪末超过硬盘价格。

一直以来都有第三种选择,但它的质量如此糟糕,以至于我们从未考虑过它:OCR,即光学字符识别。这是通过使用AI检测照片中的字符,将照片转换为纯文本的过程。这方面的工具长期以来一直存在,而且相当不错,但对于保存目的来说,"相当不错"是不够的。

然而,最近的多模态深度学习模型取得了极其快速的进步,尽管成本仍然很高。我们预计准确性和成本在未来几年内将大幅提高,到那时将有可能应用于我们整个图书馆。

总的来说,预计总文件大小至少会减少5-10倍,甚至更多。即使保守地减少5倍,即使我们的图书馆规模增加了三倍,在10年内我们也只需要1,000美元到3,000美元。


不幸的是,大语言模型的出现及其对数据的饥渴训练,使许多版权持有者变得更加防御性。甚至比他们已经如此的程度还要更多。许多网站正在使得抓取和归档变得更加困难,诉讼案不断涌现,与此同时,实体图书馆和档案馆继续被忽视。

我们只能预料到这些趋势将继续恶化,许多作品将在进入公有领域之前就丢失。

我们正处于保存革命的前夕,但"失去的无法挽回。"我们有一个大约5-10年的关键时期,在这个时期,运营一个影子图书馆并在世界各地创建许多镜像仍然相当昂贵,而且在这个时期,访问权限还没有被完全关闭。


#阅读材料
10👍2
2025/07/14 16:14:22
Back to Top
HTML Embed Code: