AI_TABLET Telegram 160
TabM: Advancing Tabular Deep Learning with Parameter-Efficient Ensembling

Новая Sota (ли ?) от Яндекса в табличных задачах, TabM, — это MLP-архитектура, которая имитирует ансамбль из k (в статье 32) сетей. Она делает несколько предсказаний на один объект, а подмодели обучаются одновременно и разделяют большую часть весов почти как в BatchEnsemble. Это позволило отказаться от attention, ускорить обучение и улучшить метрики за счет ассемблирования. В статье утверждают что метрики лучше чем у бустингов, но кажется метрики стат. значимо не отличаются. Забавно что excel сильнее базового MLP из чего и состоит текущее решение

Протестировал сравнение метрик базового LightGBM и этого решения. Это было, конечно, намного легче, чем с TabR (прошлая Sota от Яндекса), код которого в виде библиотеки не выкладывали, но всё равно из коробки модель не обучалась. Пришлось взять параметры из статьи; на чуть больших датасетах это всё падает по памяти, ошибки cuda ☠️, еще и train loop нужен свой. Так что получил результаты на двух датасетах

Как итог, LightGBM оказался существенно лучше на 2-м датасете, но на 1-м — почти паритет. Но какой же TabM медленный, на CPU время обучения отличается х1000раз и это на 100 эпохах, в статье предлают обучать еще больше! И всё же результат достойный, но статью имеет смысл перепроверить с точки зрения метрик

Average LGB Test AUC: 0.7659
Average TabM Test AUC: 0.7421
Average LGB Time: 0.23s
Average TabM Time (CPU amd 7700): 234.55s
Average TabM Time (gpu T4): 15.68s
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥62🤔2👌2



tgoop.com/ai_tablet/160
Create:
Last Update:

TabM: Advancing Tabular Deep Learning with Parameter-Efficient Ensembling

Новая Sota (ли ?) от Яндекса в табличных задачах, TabM, — это MLP-архитектура, которая имитирует ансамбль из k (в статье 32) сетей. Она делает несколько предсказаний на один объект, а подмодели обучаются одновременно и разделяют большую часть весов почти как в BatchEnsemble. Это позволило отказаться от attention, ускорить обучение и улучшить метрики за счет ассемблирования. В статье утверждают что метрики лучше чем у бустингов, но кажется метрики стат. значимо не отличаются. Забавно что excel сильнее базового MLP из чего и состоит текущее решение

Протестировал сравнение метрик базового LightGBM и этого решения. Это было, конечно, намного легче, чем с TabR (прошлая Sota от Яндекса), код которого в виде библиотеки не выкладывали, но всё равно из коробки модель не обучалась. Пришлось взять параметры из статьи; на чуть больших датасетах это всё падает по памяти, ошибки cuda ☠️, еще и train loop нужен свой. Так что получил результаты на двух датасетах

Как итог, LightGBM оказался существенно лучше на 2-м датасете, но на 1-м — почти паритет. Но какой же TabM медленный, на CPU время обучения отличается х1000раз и это на 100 эпохах, в статье предлают обучать еще больше! И всё же результат достойный, но статью имеет смысл перепроверить с точки зрения метрик

Average LGB Test AUC: 0.7659
Average TabM Test AUC: 0.7421
Average LGB Time: 0.23s
Average TabM Time (CPU amd 7700): 234.55s
Average TabM Time (gpu T4): 15.68s

BY AI.Insaf




Share with your friend now:
tgoop.com/ai_tablet/160

View MORE
Open in Telegram


Telegram News

Date: |

fire bomb molotov November 18 Dylan Hollingsworth yau ma tei While the character limit is 255, try to fit into 200 characters. This way, users will be able to take in your text fast and efficiently. Reveal the essence of your channel and provide contact information. For example, you can add a bot name, link to your pricing plans, etc. So far, more than a dozen different members have contributed to the group, posting voice notes of themselves screaming, yelling, groaning, and wailing in various pitches and rhythms. The SUCK Channel on Telegram, with a message saying some content has been removed by the police. Photo: Telegram screenshot. To view your bio, click the Menu icon and select “View channel info.”
from us


Telegram AI.Insaf
FROM American