NN_FOR_SCIENCE Telegram 2510
🎧 Perch 2.0 - простая supervised-модель для биоакустики

DeepMind показали новую модель для распознавания звуков животных. Без self-supervised магии, без миллиардов параметров. Просто хорошо сделанная supervised-модель которая рвет все бенчмарки

Звуки природы — это данные.

Для биологов и экологов это ключ к выживанию видов: по записям звуков можно понять, кто живёт в лесу, сколько их, размножаются ли они и не вытесняет ли их человек.

Но расшифровывать эти саундскейпы - адский труд. Час записи в тропиках = звуки десятки животных, наслаивающихся друг на друга.

И вот тут приходит AI.

🐦 Что делает Perch 2.0?

Это универсальный эмбеддер для звуков животных: берёт аудио (5 секунд), выдаёт вектор, с которым можно:
• искать похожие фрагменты (nearest neighbor)
• делать кластеризацию
• обучать линейный классификатор для нового вида (few-shot)

И всё это без GPU и fine-tuning.

Модель натренирована на 1.5 миллионах аудио-записей: птицы, насекомые, млекопитающие, даже урбанистический шум из FSD50k.

🛠 Как работает?

Perch 2.0 — это EfficientNet‑B3 (всего 12M параметров) + три головы:
1. Основная — классифицирует ~15k видов.
2. Прототипная — даёт семантически богатые логиты (для distillation).
3. Source prediction — угадывает, из какой записи взят кусок (а-ля self-supervised).

Фишка: модель обучается в два этапа. Сначала прототипная голова учится сама, потом её логиты становятся soft-label’ами для основной головы. Это и есть self-distillation.

📊 И как оно по качеству?

Perch 2.0 побила все предыдущие модели:
• На BirdSet и BEANS — новые SOTA по ROC-AUC и mAP.
• Даже на морских звуках китов и дельфинов показала отличную переносимость — при том, что почти не видела морских данных.

И да, всё это — без fine-tuning, просто на фиксированных эмбеддингах.

🤯 Почему это вообще важно?

Пока весь ML уходит в миллиардные LLM’ы и self-supervised pretraining, Perch напоминает: качественная разметка + хорошо сформулированная задача решают всё.

🌍 Что это меняет?
• Для биологов - теперь можно кластеризовать звуки из джунглей Бразилии без обучения своих моделей
• Для ML-инженеров - отличная демонстрация, как можно обучать компактные модели, не теряя качества
• Для исследователей - напоминание: не всегда нужно делать GPT-4, чтобы бы сделать что-то полезное

📎 Кто хочет поиграться — модель и датасеты уже на Kaggle

Статья
Блог-пост
28👍12🔥7



tgoop.com/nn_for_science/2510
Create:
Last Update:

🎧 Perch 2.0 - простая supervised-модель для биоакустики

DeepMind показали новую модель для распознавания звуков животных. Без self-supervised магии, без миллиардов параметров. Просто хорошо сделанная supervised-модель которая рвет все бенчмарки

Звуки природы — это данные.

Для биологов и экологов это ключ к выживанию видов: по записям звуков можно понять, кто живёт в лесу, сколько их, размножаются ли они и не вытесняет ли их человек.

Но расшифровывать эти саундскейпы - адский труд. Час записи в тропиках = звуки десятки животных, наслаивающихся друг на друга.

И вот тут приходит AI.

🐦 Что делает Perch 2.0?

Это универсальный эмбеддер для звуков животных: берёт аудио (5 секунд), выдаёт вектор, с которым можно:
• искать похожие фрагменты (nearest neighbor)
• делать кластеризацию
• обучать линейный классификатор для нового вида (few-shot)

И всё это без GPU и fine-tuning.

Модель натренирована на 1.5 миллионах аудио-записей: птицы, насекомые, млекопитающие, даже урбанистический шум из FSD50k.

🛠 Как работает?

Perch 2.0 — это EfficientNet‑B3 (всего 12M параметров) + три головы:
1. Основная — классифицирует ~15k видов.
2. Прототипная — даёт семантически богатые логиты (для distillation).
3. Source prediction — угадывает, из какой записи взят кусок (а-ля self-supervised).

Фишка: модель обучается в два этапа. Сначала прототипная голова учится сама, потом её логиты становятся soft-label’ами для основной головы. Это и есть self-distillation.

📊 И как оно по качеству?

Perch 2.0 побила все предыдущие модели:
• На BirdSet и BEANS — новые SOTA по ROC-AUC и mAP.
• Даже на морских звуках китов и дельфинов показала отличную переносимость — при том, что почти не видела морских данных.

И да, всё это — без fine-tuning, просто на фиксированных эмбеддингах.

🤯 Почему это вообще важно?

Пока весь ML уходит в миллиардные LLM’ы и self-supervised pretraining, Perch напоминает: качественная разметка + хорошо сформулированная задача решают всё.

🌍 Что это меняет?
• Для биологов - теперь можно кластеризовать звуки из джунглей Бразилии без обучения своих моделей
• Для ML-инженеров - отличная демонстрация, как можно обучать компактные модели, не теряя качества
• Для исследователей - напоминание: не всегда нужно делать GPT-4, чтобы бы сделать что-то полезное

📎 Кто хочет поиграться — модель и датасеты уже на Kaggle

Статья
Блог-пост

BY AI для Всех




Share with your friend now:
tgoop.com/nn_for_science/2510

View MORE
Open in Telegram


Telegram News

Date: |

Polls Step-by-step tutorial on desktop: Choose quality over quantity. Remember that one high-quality post is better than five short publications of questionable value. Telegram message that reads: "Bear Market Screaming Therapy Group. You are only allowed to send screaming voice notes. Everything else = BAN. Text pics, videos, stickers, gif = BAN. Anything other than screaming = BAN. You think you are smart = BAN. A few years ago, you had to use a special bot to run a poll on Telegram. Now you can easily do that yourself in two clicks. Hit the Menu icon and select “Create Poll.” Write your question and add up to 10 options. Running polls is a powerful strategy for getting feedback from your audience. If you’re considering the possibility of modifying your channel in any way, be sure to ask your subscribers’ opinions first.
from us


Telegram AI для Всех
FROM American