Telegram Web
Текстовые данные

Датасет с анекдотами
www.tgoop.com/NeuralShit/2321

Датасет с анекдотами
github.com/e1four15f/TFS19s-NLP-Jokes/blob/master/experiment_1/jokes.csv

Датасет с цитатами
www.tgoop.com/NeuralShit/2202

Корпус лемматизированных (морфологически нормализованных) текстов российских СМИ
github.com/maxoodf/russian_news_corpus

Сборник новостей gazeta.ru
kaggle.com/phoenix120/gazeta-summaries

Сборник новостей "Россия сегодня"
https://github.com/RossiyaSegodnya/ria_news_dataset

Корпус новостей с Lenta.Ru
github.com/yutkin/Lenta.Ru-News-Datase

Русскоязычный корпус коротких текстов RuTweetCorp состоящий из 17,639,674 записей
study.mokoron.com/#corpora

RuAdapt: параллельный датасет упрощенного русского языка
github.com/Digital-Pushkin-Lab/RuAdapt

Фамилии
www.tgoop.com/dataset_chat/40

Репозиторий включает в себя Датасет гороскопов с сайта https://horoscopes.rambler.ru
https://github.com/ArmageddonReloadedDK/astro

Русскоязычные NLP датасеты
github.com/Koziev/NLP_Datasets

Набор данных содержит более 40 тысяч игр из магазина Steam с подробными данными.
https://www.kaggle.com/trolukovich/steam-games-complete-dataset

Набор данных из популярного российского коллективного блога Habrahabr
https://github.com/romovpa/habrahabr-dataset

Набор данных с 10 тыс. Решений хозяйственных судов РФ и анализом ggplot2 / dplyr.
https://github.com/alexeyknorre/Rbitrazh

Данные по законопроектам Государственной Думы.
https://github.com/infoculture/lawmon

Датасет русских поэм
https://github.com/Laefye/RussionDatasetPoems

Русские романы
https://github.com/JoannaBy/RussianNovels

Мемы с текстовыми описаниями
https://www.tgoop.com/lovedeathtransformers/4792

@dataset_ru
Фотографии

Размеченная капча (20 тыс)
https://www.tgoop.com/lovedeathtransformers/4771

Stanford Drone Dataset
cvgl.stanford.edu/projects/uav_data

xView — один из самых больших общедоступных наборов воздушных снимков земли. Он содержит изображения различных сцен со всего мира, аннотированных с помощью ограничительных рамок
xviewdataset.org/#dataset

@dataset_ru
Музыка

Специально подобранная коллекция классической музыки с пометками.
homes.cs.washington.edu/~thickstn/musicnet.html

База данных русской речи : записанная в 1996-1998 годах, база данных русской речи STC была создана для исследования индивидуальной вариативности говорящего и проверки алгоритмов распознавания говорящего.
catalogue.elra.info/en-us/repository/browse/ELRA-S0050/

Набор данных: CSS10 - это набор наборов данных одного диктора на русском языке для 10 языков, включая русский.
kaggle.com/bryanpark/russian-single-speaker-speech-dataset

M-AILABS Speech Dataset : большой набор аудиоданных на русском языке, свободно используемый в качестве обучающих данных для распознавания и синтеза речи.
caito.de/2019/01/the-m-ailabs-speech-dataset/

Набор данных Russian Open Speech To Text (STT / ASR) : набор данных, содержащий более 4000 разнообразных, междоменных речей для обучения моделей преобразования речи в текст на русском языке.
towardsdatascience.com/russian-open-speech-to-text-stt-asr-dataset-4c4e5d6a292c

Крупномасштабный набор данных вручную аннотированных аудиособытий.
research.google.com/audioset

Набор данных « Миллион песен» свободно доступная коллекция звуковых функций и метаданных для миллиона современных популярных музыкальных треков.
millionsongdataset.com



@dataset_ru
Видеозаписи

Старый Телевизор - архив старых теле- и радиозаписей. Отдельное внимание уделено теме телевизионного дизайна и рекламы.
staroetv.su

Датасет состоит из видеозаписей людей, произносящих различные фразы. Данный датасет был сформирован на базе НИУ ВШЭ Нижний Новгород
github.com/avenaki/speech-recognition-dataset

@dataset_ru
Мода

База данных крупномасштабной моды
http://mmlab.ie.cuhk.edu.hk/projects/DeepFashion.html

@dataset_ru
Федеральные порталы открытых данных

Портал открытых данных России
Открытые данные Министерства Финансов
Открытые данные Федерального Казначейства
Открытые данные Министерства Культуры
Открытые данные Министерства внутренних дел
Открытые данные Министерства Здравоохранения
Открытые данные Министерства науки и высшего образования
Открытые данные Министерства просвещения
Открытые данные Министерства Спорта
Открытые данные Министерства транспорта
Открытые данные Министерства энергетики
Открытые данные Центральной избирательной комиссии
Портал Безопасные дороги
Портал Работа в России
Портал ГИС ЖКХ
Портал Вся.Культура.РФ
Связанные микроданные переписи населения 2002 г.: двадцатипроцентная выборка по частным домохозяйствам и индивидам
Связанные микроданные переписи населения 2010 г.: двадцатипроцентная выборка по частным домохозяйствам и индивидам

@dataset_ru
Лингвистические датасеты

Тональный словарь русского языка КартаСловСент — слова и выражения русского языка, снабжённые тональной меткой («положительное», «отрицательное», «нейтральное») и скалярным значением силы эмоционально-оценочного заряда из непрерывного диапазона [-1, 1].

Открытая семантика русского языка — разметка слов и выражений русского языка по семантическим срезам («люди», «животные», «сооружения», «вещи», «действия» и т.д.).

Ассоциации к словам и выражениям русского языка — ассоциации к словам и выражениям русского языка, придуманные реальными людьми. Кроме общего набора публикуются данные срезов по гендеру, т.е. включающие частоты ассоциаций, подсчитанные отдельно для мужчин и для женщин.

Орфографические ошибки и опечатки — слова русского языка и варианты их неправильного написания. Включает в себя как орфографические ошибки, так и опечатки. Все ошибочные написания снабжены весами, позволяющими оценить относительную частоту встречаемости тех или иных ошибок.

Датасет состоящий из русских предложений.

Event2Mind для русского языка
Данные: github.com/Alenush/russian_event2mind

Отслеживание семантических сдвигов для русского языка
Прилагательные вручную аннотированные для временных семантических сдвигов в промежутке времени от 2000 до 2014 года.

RULEC-GEC - это набор предложений, написанных изучающими русский язык и помеченных на ошибки.

Определение композиционности существительных с использованием распределительной семантики для русского языка

Математический набор данных переведен на русский язык

The Knowledge Base Question Answering

Рукописные символы русских берестяных грамот

Открытая семантика русского языка

Национальный корпус русского языка


@dataset_ru
Токсичность, троллинг, эмоции

Токсичность. Токсичные комментарии на русском языке
kaggle.com/blackmoon/russian-language-toxic-comments

Датасет определения токсичности на английском языке
kaggle.com/c/jigsaw-toxic-comment-classification-challenge

Набор данных социальных сетей для анализа настроений (эмоций) на русском языке
github.com/strawberrypie/rusentiment

3 million Russian troll tweets
github.com/fivethirtyeight/russian-troll-tweets
github.com/bet4a/russian-troll-tweets-by-author

Наборы данных для анализа настроений в России
github.com/antongolubev5/Russian-Sentiment-Analysis-Evaluation-Datasets

RuReviews: автоматически аннотированный набор данных для анализа настроений для обзоров продуктов на русском языке
github.com/sismetanin/rureviews

Настроение смайликов Emoji
github.com/snakers4/emoji-sentiment-dataset/tree/master#dataset

@dataset_ru
Рецензии | Отзывы

Рецензии на фильмы Кинопоиск
kaggle.com/mikhailklemin/kinopoisks-movies-reviews

Kinopoisk-TOP250 Russian Dataset
kaggle.com/alexandertesemnikov/kinopoisktop250russiandataset

База данных аниме рекомендаций — рекомендации от 76 000 пользователей на myanimelist.net
kaggle.com/CooperUnion/anime-recommendations-database

Русские и казахстанские отзывы
https://github.com/akanat/russian_reviews_dataset

Отзывы на мобильные телефоны
https://www.kaggle.com/theovall/phonereviews

@dataset_ru
Финансы

Показатели валового регионального продукта в России: объединенные данные за 1998—2019 гг.
Динамика ключевой ставки и процентной ставки рефинансирования в России за 1992—2021 гг.
Валютные курсы: архивные и текущие данные о стоимости иностранных валют по отношению к рублю
Средние цены и демографические показатели по Российской Федерации и ее субъектам
Цены и объемы реализации продуктовых товаров и ГСМ в субъектах РФ (по данным ККТ)
Статистические данные о занятости и безработице среди населения по возрастным группам
Сведения из реестра субъектов малого и среднего предпринимательства
Реестр юридических и физических лиц из числа субъектов МСП (малого и среднего предпринимательства), осуществляющих услуги конструкторского бюро на территории РФ
Демографическая ситуация по субъектам РФ
Мониторинг социально-экономических показателей по Арктической зоне РФ
База данных муниципальных образований
Список юридических лиц из числа субъектов МСП (малого и среднего предпринимательства), осуществляющих юридические услуги на территории РФ
Производство основных транспортных средств в РФ
Пример сведений о недобросовестных поставщиках в рамках государственных и муниципальных закупок
Список крупнейших контрактов в рамках государственных и муниципальных закупок по 94-ФЗ (до 2014 года)
Список крупнейших контрактов в рамках государственных и муниципальных закупок по 94-ФЗ (до 2014 года)
Сведения о недобросовестных поставщиках в рамках государственных и муниципальных закупок по 44-ФЗ
База данных проекта «Госрасходы»
Реестры расходных обязательств регионов РФ: исполнение и текущие расходы в 2018-2019 гг.; плановые показатели на 2020-2021 гг.
БД соглашений о предоставлении субсидий
Бюджеты регионов России: исполнение доходов, расходов и источники финансирования дефицита за 2011-2020 гг.
Доходы и имущество госслужащих: объединенные сведения из антикоррупционных деклараций сотрудников российских министерств
Пенсионные начисления в России: объединенные данные за 2011—2020 гг. с детализацией до региона
Сведения об обращениях граждан за пособием по безработице
Регистрируемая безработица в России: обезличенные микроданные о характеристиках граждан и полученных услугах за 2017-2021 гг.

Датасет «Гуманизация экономического роста в глобальном хозяйстве: большие данные и цифровое моделирование – 2020»
Датасет "Большие данные современной мировой экономики: цифровая платформа для интеллектуальной аналитики – 2020"
Датасет «Интерактивная статистика и интеллектуальная аналитика сбалансированности региональной экономики россии на основе больших данных и блокчейн – 2020»
Датасет «Социальное предпринимательство в мировой экономике: путь от виртуальных оценок к большим данным - 2020»

@dataset_ru
Экология

База данных проекта «Госрасходы»
Загрязнение атмосферы в России: объем выбросов в воздух в разрезе муниципальных образований за 2019-2020 гг.
«Зеленые» инвестиции: затраты крупных российских предприятий на охрану окружающей среды по классификации CEPA
«Зеленые» инвестиции: затраты на охрану окружающей среды в регионах РФ по классификации CEPA
Гидрология по реке Лена и притокам: ежедневные характеристики состояния водных объектов за 1985-2019 гг. и мероприятия по ослаблению льда в 2011-2020 гг.
Метеорология района реки Лена и притоков: месячные, ежедневные и восьмисрочные погодные характеристики за 1985–2020 гг.
Наводнения в России: оперативные данные МЧС о затоплениях за 2013-2020 гг.
Загрязнение поверхностных вод в России: ежемесячные данные о высоком и экстремально высоком загрязнении водных объектов за 2008—2021 гг.
Большие данные для цифрового мониторинга биоразнообразия, сельского хозяйства и продовольственной безопасности – 2020
Корпоративная социальная ответственность, устойчивое развитие и борьба с изменением климата: имитационное моделирование и нейросетевой анализ в регионах мира – 2020

@dataset_ru
2024/12/26 00:40:11
Back to Top
HTML Embed Code: