BMINAIEV_BLOG Telegram 49
Telegram ML Competition

Вчера объявили результаты очередного соревнования от Telegram (я даже что-то выиграл 🥳). Пользуясь случаем, хочу всем порекомендовать их контесты. Обычно нужно за короткий срок (~две недели) решить интересную задачу, которую теоретически можно встретить в реальной жизни. В тех соревнованиях, в которых я участвовал, задания были про области, в которых я совсем не разбираюсь, так что это еще и отличный шанс узнать что-то новое. И призы относительно хорошие!

Но недостатки тоже есть — часто задачи сформулированы недостаточно однозначно, а получить какие-то уточнения по условию возможности нет. Поэтому часто приходится угадывать что именно от тебя хотят. Из-за этого обычно не хочется тратить много сил на оптимизацию своего решения — всегда есть шанс, что неправильно понял условие и все эти оптимизации ничего не принесут.

В этот раз предлагалось написать библиотеку, которая по куску кода определяет язык программирования, который в нем используется. Всего нужно было поддержать около 100 разных языков, а также научиться определять ситуацию, когда вместо кода передали что-то совсем другое. Решение должно работать быстрее чем за 10мс для куска кода размером 4кб.

Тестировались решения на кусках кода, которые взяты из публичных Telegram чатов. Чем лучше accuracy — тем лучше.

По такому описанию было довольно сложно понять как именно будет выглядеть датасет. Будут ли взяты просто случайные куски сообщений, которые обернуты в тройные кавычки
типа такого
или датасет специально составят так, чтобы в нем языки программирование присутствовали равномерно?

Продолжение.
Please open Telegram to view this post
VIEW IN TELEGRAM



tgoop.com/bminaiev_blog/49
Create:
Last Update:

Telegram ML Competition

Вчера объявили результаты очередного соревнования от Telegram (я даже что-то выиграл 🥳). Пользуясь случаем, хочу всем порекомендовать их контесты. Обычно нужно за короткий срок (~две недели) решить интересную задачу, которую теоретически можно встретить в реальной жизни. В тех соревнованиях, в которых я участвовал, задания были про области, в которых я совсем не разбираюсь, так что это еще и отличный шанс узнать что-то новое. И призы относительно хорошие!

Но недостатки тоже есть — часто задачи сформулированы недостаточно однозначно, а получить какие-то уточнения по условию возможности нет. Поэтому часто приходится угадывать что именно от тебя хотят. Из-за этого обычно не хочется тратить много сил на оптимизацию своего решения — всегда есть шанс, что неправильно понял условие и все эти оптимизации ничего не принесут.

В этот раз предлагалось написать библиотеку, которая по куску кода определяет язык программирования, который в нем используется. Всего нужно было поддержать около 100 разных языков, а также научиться определять ситуацию, когда вместо кода передали что-то совсем другое. Решение должно работать быстрее чем за 10мс для куска кода размером 4кб.

Тестировались решения на кусках кода, которые взяты из публичных Telegram чатов. Чем лучше accuracy — тем лучше.

По такому описанию было довольно сложно понять как именно будет выглядеть датасет. Будут ли взяты просто случайные куски сообщений, которые обернуты в тройные кавычки

типа такого
или датасет специально составят так, чтобы в нем языки программирование присутствовали равномерно?

Продолжение.

BY Боря программирует


Share with your friend now:
tgoop.com/bminaiev_blog/49

View MORE
Open in Telegram


Telegram News

Date: |

How to create a business channel on Telegram? (Tutorial) The group also hosted discussions on committing arson, Judge Hui said, including setting roadblocks on fire, hurling petrol bombs at police stations and teaching people to make such weapons. The conversation linked to arson went on for two to three months, Hui said. Co-founder of NFT renting protocol Rentable World emiliano.eth shared the group Tuesday morning on Twitter, calling out the "degenerate" community, or crypto obsessives that engage in high-risk trading. Find your optimal posting schedule and stick to it. The peak posting times include 8 am, 6 pm, and 8 pm on social media. Try to publish serious stuff in the morning and leave less demanding content later in the day. For crypto enthusiasts, there was the “gm” app, a self-described “meme app” which only allowed users to greet each other with “gm,” or “good morning,” a common acronym thrown around on Crypto Twitter and Discord. But the gm app was shut down back in September after a hacker reportedly gained access to user data.
from us


Telegram Боря программирует
FROM American