tgoop.com/dataset_ru/22
Last Update:
Лингвистические датасеты
Тональный словарь русского языка КартаСловСент — слова и выражения русского языка, снабжённые тональной меткой («положительное», «отрицательное», «нейтральное») и скалярным значением силы эмоционально-оценочного заряда из непрерывного диапазона [-1, 1].
Открытая семантика русского языка — разметка слов и выражений русского языка по семантическим срезам («люди», «животные», «сооружения», «вещи», «действия» и т.д.).
Ассоциации к словам и выражениям русского языка — ассоциации к словам и выражениям русского языка, придуманные реальными людьми. Кроме общего набора публикуются данные срезов по гендеру, т.е. включающие частоты ассоциаций, подсчитанные отдельно для мужчин и для женщин.
Орфографические ошибки и опечатки — слова русского языка и варианты их неправильного написания. Включает в себя как орфографические ошибки, так и опечатки. Все ошибочные написания снабжены весами, позволяющими оценить относительную частоту встречаемости тех или иных ошибок.
Датасет состоящий из русских предложений.
Event2Mind для русского языка
Данные: github.com/Alenush/russian_event2mind
Отслеживание семантических сдвигов для русского языка
Прилагательные вручную аннотированные для временных семантических сдвигов в промежутке времени от 2000 до 2014 года.
RULEC-GEC - это набор предложений, написанных изучающими русский язык и помеченных на ошибки.
Определение композиционности существительных с использованием распределительной семантики для русского языка
Математический набор данных переведен на русский язык
The Knowledge Base Question Answering
Рукописные символы русских берестяных грамот
Открытая семантика русского языка
Национальный корпус русского языка
@dataset_ru
BY RU Dataset | Датасеты
Share with your friend now:
tgoop.com/dataset_ru/22