Notice: file_put_contents(): Write of 2771 bytes failed with errno=28 No space left on device in /var/www/tgoop/post.php on line 50

Warning: file_put_contents(): Only 8192 of 10963 bytes written, possibly out of free disk space in /var/www/tgoop/post.php on line 50
This is Data@thisisdata P.228
THISISDATA Telegram 228
Доброго послепраздничного утра всем!

Все начинается с простого. Так подумал Rohit Patel, руководитель отдела по работе с данными в Meta* GenAI, и принялся объяснять, как работают большие языковые модели с помощью базовой арифметики. Цель статьи — демистифицировать LLM, сделав концепции доступными для всех. Несмотря на название, легким материал не назовешь. Автор рассказывает о структуре и обучении нейронных сетей и разъясняет, как машина может угадывать и генерировать предложения. Если вы давно порывались разобраться в теме, статья станет хорошим началом для первого погружения.
* деятельность организации запрещена на территории РФ

Один крупный региональный банк выкупил банк поменьше и собирается объединить две клиентские базы. Дата-инженеры переглянулись — задача ведь со звездочкой. Во-первых, нужно учесть пересечение клиентских записей. Во-вторых, избавиться от уже имеющихся внутри систем дубликатов — повторных записей с ошибками, опечатками и устаревшими данными вроде девичьих фамилий. При этом нужно умудриться не объединить братьев-близнецов с созвучными именами. В-третьих, не допустить ошибок, переписав кредит на другое имя. Ребята из HFLabs решили задачу за три месяца. Их алгоритм способен за час найти дубликаты среди 100 миллионов записей.

Опытные дата-аналитики знают все про хранение и версионирование кода, понимают разницу между Git и GitHub, правильно форматируют SQL-запросы и шарят за CI/CD. Слишком много новых слов? Не унывай! Настя Кузнецова и Дмитрий Аношин подготовили две статьи о том, как работать с SQL-запросами. Первая статья объясняет, почему хранить варианты кода в виде файлов на Google Диске — плохая идея. Вторую можно назвать гайдом по работе с Git применительно к SQL-запросам.

#дайджест



tgoop.com/thisisdata/228
Create:
Last Update:

Доброго послепраздничного утра всем!

Все начинается с простого. Так подумал Rohit Patel, руководитель отдела по работе с данными в Meta* GenAI, и принялся объяснять, как работают большие языковые модели с помощью базовой арифметики. Цель статьи — демистифицировать LLM, сделав концепции доступными для всех. Несмотря на название, легким материал не назовешь. Автор рассказывает о структуре и обучении нейронных сетей и разъясняет, как машина может угадывать и генерировать предложения. Если вы давно порывались разобраться в теме, статья станет хорошим началом для первого погружения.
* деятельность организации запрещена на территории РФ

Один крупный региональный банк выкупил банк поменьше и собирается объединить две клиентские базы. Дата-инженеры переглянулись — задача ведь со звездочкой. Во-первых, нужно учесть пересечение клиентских записей. Во-вторых, избавиться от уже имеющихся внутри систем дубликатов — повторных записей с ошибками, опечатками и устаревшими данными вроде девичьих фамилий. При этом нужно умудриться не объединить братьев-близнецов с созвучными именами. В-третьих, не допустить ошибок, переписав кредит на другое имя. Ребята из HFLabs решили задачу за три месяца. Их алгоритм способен за час найти дубликаты среди 100 миллионов записей.

Опытные дата-аналитики знают все про хранение и версионирование кода, понимают разницу между Git и GitHub, правильно форматируют SQL-запросы и шарят за CI/CD. Слишком много новых слов? Не унывай! Настя Кузнецова и Дмитрий Аношин подготовили две статьи о том, как работать с SQL-запросами. Первая статья объясняет, почему хранить варианты кода в виде файлов на Google Диске — плохая идея. Вторую можно назвать гайдом по работе с Git применительно к SQL-запросам.

#дайджест

BY This is Data




Share with your friend now:
tgoop.com/thisisdata/228

View MORE
Open in Telegram


Telegram News

Date: |

The group’s featured image is of a Pepe frog yelling, often referred to as the “REEEEEEE” meme. Pepe the Frog was created back in 2005 by Matt Furie and has since become an internet symbol for meme culture and “degen” culture. As of Thursday, the SUCK Channel had 34,146 subscribers, with only one message dated August 28, 2020. It was an announcement stating that police had removed all posts on the channel because its content “contravenes the laws of Hong Kong.” Telegram offers a powerful toolset that allows businesses to create and manage channels, groups, and bots to broadcast messages, engage in conversations, and offer reliable customer support via bots. Just as the Bitcoin turmoil continues, crypto traders have taken to Telegram to voice their feelings. Crypto investors can reduce their anxiety about losses by joining the “Bear Market Screaming Therapy Group” on Telegram. Matt Hussey, editorial director at NEAR Protocol also responded to this news with “#meIRL”. Just as you search “Bear Market Screaming” in Telegram, you will see a Pepe frog yelling as the group’s featured image.
from us


Telegram This is Data
FROM American