JIDEXIAOCANG Telegram 4858
Forwarded from [[ ]] 404 KIDS SEE GHOSTS (志筑仁美)
人类知识之光丨安娜的档案/读秀数据库/ LLM data
Exclusive access for LLM companies to largest Chinese non-fiction book collection in the world

昨天影子图书馆 Anna’s Archive 宣布已获取「超星」旗下读秀数据库的 750 多万份、共计 359TB 的电子图书,超过 Library Genesis 530 万本存量,且大多数都是学术图书的扫描存储,这意味着很多中文书籍都可以直接在「安娜的档案」找到。

另外,前不久「安娜的档案 LLM data」就已经宣布其所有存储内容,书籍/论文/杂志都已经开放可用作 LLM 的数据获取和训练,而且大多数都已经 OCR 处理,内容几乎没有重叠。(包括这次的读秀数据)

数字存储、知识开放、数据训练、法权抗争,知识和信息没有永恒,但知识的自我保存会在每一次下载存储和阅读传播中生根繁衍,寄生岁月。

Reference
人类 10% 的文本遗产被永久保存
Sci-Hub 创始人荣获「EFF」颁发的奖项
Zlib,海盗镜像图书项目

#books



tgoop.com/jidexiaocang/4858
Create:
Last Update:

人类知识之光丨安娜的档案/读秀数据库/ LLM data
Exclusive access for LLM companies to largest Chinese non-fiction book collection in the world

昨天影子图书馆 Anna’s Archive 宣布已获取「超星」旗下读秀数据库的 750 多万份、共计 359TB 的电子图书,超过 Library Genesis 530 万本存量,且大多数都是学术图书的扫描存储,这意味着很多中文书籍都可以直接在「安娜的档案」找到。

另外,前不久「安娜的档案 LLM data」就已经宣布其所有存储内容,书籍/论文/杂志都已经开放可用作 LLM 的数据获取和训练,而且大多数都已经 OCR 处理,内容几乎没有重叠。(包括这次的读秀数据)

数字存储、知识开放、数据训练、法权抗争,知识和信息没有永恒,但知识的自我保存会在每一次下载存储和阅读传播中生根繁衍,寄生岁月。

Reference
人类 10% 的文本遗产被永久保存
Sci-Hub 创始人荣获「EFF」颁发的奖项
Zlib,海盗镜像图书项目

#books

BY 一个不正经的资源站🥰


Share with your friend now:
tgoop.com/jidexiaocang/4858

View MORE
Open in Telegram


Telegram News

Date: |

How to create a business channel on Telegram? (Tutorial) The administrator of a telegram group, "Suck Channel," was sentenced to six years and six months in prison for seven counts of incitement yesterday. “[The defendant] could not shift his criminal liability,” Hui said. Find your optimal posting schedule and stick to it. The peak posting times include 8 am, 6 pm, and 8 pm on social media. Try to publish serious stuff in the morning and leave less demanding content later in the day. SUCK Channel Telegram
from us


Telegram 一个不正经的资源站🥰
FROM American