tgoop.com/ai_newz/2426
Last Update:
А вот и подоспел новый образовательный контент от Карпатого после его ухода из OpenAI. #ликбез
Андрей написал минимальную имплементацию Byte Pair Encoding (BPE) токенайзера, который широко используется в современных LLM, в том числе и в GPT-4.
Токенайзер - это алгоритм, который преобразует текст в последовательность токенов (целых чисел), перед тем, как его скормить в LLM.
Идея BPE очень простая:
Видео лекция про BPE у Карпатого уже в производстве, он обещал скоро ей поделиться!
А пока можете посмотреть разбор BPE (пост+видео) из NLP курса на HuggingFace: ссылка.
@ai_newz