tgoop.com/bminaiev_blog/49
Last Update:
Telegram ML Competition
Вчера объявили результаты очередного соревнования от Telegram (я даже что-то выиграл
Но недостатки тоже есть — часто задачи сформулированы недостаточно однозначно, а получить какие-то уточнения по условию возможности нет. Поэтому часто приходится угадывать что именно от тебя хотят. Из-за этого обычно не хочется тратить много сил на оптимизацию своего решения — всегда есть шанс, что неправильно понял условие и все эти оптимизации ничего не принесут.
В этот раз предлагалось написать библиотеку, которая по куску кода определяет язык программирования, который в нем используется. Всего нужно было поддержать около 100 разных языков, а также научиться определять ситуацию, когда вместо кода передали что-то совсем другое. Решение должно работать быстрее чем за 10мс для куска кода размером 4кб.
Тестировались решения на кусках кода, которые взяты из публичных Telegram чатов. Чем лучше accuracy — тем лучше.
По такому описанию было довольно сложно понять как именно будет выглядеть датасет. Будут ли взяты просто случайные куски сообщений, которые обернуты в тройные кавычки
типа такогоили датасет специально составят так, чтобы в нем языки программирование присутствовали равномерно?
Продолжение.