MACHINELEARNING_RU Telegram 2189
Alibaba только что выпустила Marco-o1

Marco-o1 основан на тонкой настройке цепочки (CoT), поиске по дереву Монте-Карло (MCTS), механизмах рефлексии и инновационных стратегиях рассуждения, оптимизированных для решения сложных задач в реальном мире.

Благодаря файнтюнингу Qwen2-7B-Instruct с использованием комбинации отфильтрованного набора данных Open-O1 CoT, набора данных Marco-o1 CoT и набора данных инструкций Marco-o1, Marco-o1 улучшил обработку сложных задач.

MCTS позволяет исследовать множество путей рассуждения, используя показатели достоверности, полученные на основе логарифмических вероятностей, применяемых softmax для топ-k альтернативных токенов, что приводит модель к оптимальным решениям.

Более того, такая стратегия обоснованных действий предполагает изменение степени детализации действий в рамках шагов и мини-шагов для оптимизации эффективности и точности поиска.

HF: https://huggingface.co/AIDC-AI/Marco-o1
Github: https://github.com/AIDC-AI/Marco-o1
Paper: https://arxiv.org/abs/2411.14405
Data: https://github.com/AIDC-AI/Marco-o1/tree/main/data

@machinelearning_ru
5👍2🤬2🔥1



tgoop.com/machinelearning_ru/2189
Create:
Last Update:

Alibaba только что выпустила Marco-o1

Marco-o1 основан на тонкой настройке цепочки (CoT), поиске по дереву Монте-Карло (MCTS), механизмах рефлексии и инновационных стратегиях рассуждения, оптимизированных для решения сложных задач в реальном мире.

Благодаря файнтюнингу Qwen2-7B-Instruct с использованием комбинации отфильтрованного набора данных Open-O1 CoT, набора данных Marco-o1 CoT и набора данных инструкций Marco-o1, Marco-o1 улучшил обработку сложных задач.

MCTS позволяет исследовать множество путей рассуждения, используя показатели достоверности, полученные на основе логарифмических вероятностей, применяемых softmax для топ-k альтернативных токенов, что приводит модель к оптимальным решениям.

Более того, такая стратегия обоснованных действий предполагает изменение степени детализации действий в рамках шагов и мини-шагов для оптимизации эффективности и точности поиска.

HF: https://huggingface.co/AIDC-AI/Marco-o1
Github: https://github.com/AIDC-AI/Marco-o1
Paper: https://arxiv.org/abs/2411.14405
Data: https://github.com/AIDC-AI/Marco-o1/tree/main/data

@machinelearning_ru

BY Машинное обучение RU








Share with your friend now:
tgoop.com/machinelearning_ru/2189

View MORE
Open in Telegram


Telegram News

Date: |

In the “Bear Market Screaming Therapy Group” on Telegram, members are only allowed to post voice notes of themselves screaming. Anything else will result in an instant ban from the group, which currently has about 75 members. Telegram channels enable users to broadcast messages to multiple users simultaneously. Like on social media, users need to subscribe to your channel to get access to your content published by one or more administrators. A Hong Kong protester with a petrol bomb. File photo: Dylan Hollingsworth/HKFP. Matt Hussey, editorial director at NEAR Protocol also responded to this news with “#meIRL”. Just as you search “Bear Market Screaming” in Telegram, you will see a Pepe frog yelling as the group’s featured image. End-to-end encryption is an important feature in messaging, as it's the first step in protecting users from surveillance.
from us


Telegram Машинное обучение RU
FROM American