BEGTIN Telegram 6267
Пишут что Гарвард опубликовал датасет из более чем 1 миллиона книг которые не закрыты копирайтом и можно их свободно использовать при обучении ИИ [1].

Правда ссылки на сам датасет мне нигде не удалось найти, и даже первоисточник новости на сайте Гарварда тоже, но тем не менее.

1 миллион книг при работе с которыми нет юридических рисков - это очень много, втрое больше чем набор данных Books3 [2] к которому были как раз юридические претензии.

К вопросу о больших языковых моделей, они создаются на текстах, тексты надо откуда-то брать.

Если Ваше правительство не создаёт большие открытые наборы данных с текстами на национальном языке, значит за него это сделает кто-то ещё.

В этом смысле судьба языков малочисленных народов всё более будет под вопросом. Без большого пласта письменной истории они совсем выпадут из обихода.

Ссылки:
[1] https://www.wired.com/story/harvard-ai-training-dataset-openai-microsoft/
[2] https://www.wired.com/story/battle-over-books3/

#languages #datasets #ai



tgoop.com/begtin/6267
Create:
Last Update:

Пишут что Гарвард опубликовал датасет из более чем 1 миллиона книг которые не закрыты копирайтом и можно их свободно использовать при обучении ИИ [1].

Правда ссылки на сам датасет мне нигде не удалось найти, и даже первоисточник новости на сайте Гарварда тоже, но тем не менее.

1 миллион книг при работе с которыми нет юридических рисков - это очень много, втрое больше чем набор данных Books3 [2] к которому были как раз юридические претензии.

К вопросу о больших языковых моделей, они создаются на текстах, тексты надо откуда-то брать.

Если Ваше правительство не создаёт большие открытые наборы данных с текстами на национальном языке, значит за него это сделает кто-то ещё.

В этом смысле судьба языков малочисленных народов всё более будет под вопросом. Без большого пласта письменной истории они совсем выпадут из обихода.

Ссылки:
[1] https://www.wired.com/story/harvard-ai-training-dataset-openai-microsoft/
[2] https://www.wired.com/story/battle-over-books3/

#languages #datasets #ai

BY Ivan Begtin




Share with your friend now:
tgoop.com/begtin/6267

View MORE
Open in Telegram


Telegram News

Date: |

To view your bio, click the Menu icon and select “View channel info.” Private channels are only accessible to subscribers and don’t appear in public searches. To join a private channel, you need to receive a link from the owner (administrator). A private channel is an excellent solution for companies and teams. You can also use this type of channel to write down personal notes, reflections, etc. By the way, you can make your private channel public at any moment. Telegram Android app: Open the chats list, click the menu icon and select “New Channel.” The initiatives announced by Perekopsky include monitoring the content in groups. According to the executive, posts identified as lacking context or as containing false information will be flagged as a potential source of disinformation. The content is then forwarded to Telegram's fact-checking channels for analysis and subsequent publication of verified information. How to Create a Private or Public Channel on Telegram?
from us


Telegram Ivan Begtin
FROM American