📉 The Hidden Cost of Readability

Машиннное обучение | Наука о данных Библиотека

📉 The Hidden Cost of Readability

Учёные проверили простой приём: убрать из кода *всё форматирование* перед подачей в LLM — и оказалось, что это экономит в среднем 24,5% входных токенов, при этом точность моделей почти не падает.

🔎 Почему так работает
- Отступы, пробелы и переносы строк помогают людям, но заставляют модель платить больше за каждый токен.
- Они удаляли только косметику, сохраняя смысл программы (контроль через сравнение AST).
- Тест: задача Fill-in-the-Middle на Java, C++, C# и Python.

📊 Результаты
- Большие модели почти не теряют в качестве, маленькие слегка «шатаются».
- В Python экономия меньше, так как пробелы — часть синтаксиса.
- Интересно: даже если на вход подать «смятый» код, модели всё равно печатают красиво отформатированный вывод. Поэтому экономия на выходе мала.

⚡ Решение
- Явный промпт «выводи без форматирования» или лёгкий дообучение на неформатированных примерах.
- В таком случае выходные токены сокращаются ещё на 25–36%, а pass-rate остаётся прежним.
- Авторы предлагают утилиту: она стирает форматирование перед инференсом и восстанавливает после — человек читает аккуратный код, а модель тратит меньше.

📑 Статья: *The Hidden Cost of Readability: How Code Formatting Silently Consumes Your LLM Budget*

👉 arxiv.org/abs/2508.13666

❤4🔥3

www.tgoop.com/machinelearning_books/1144

1.63K viewsAug 25 at 11:04

tgoop.com/machinelearning_books/1144

Create: 2025-08-25
Last Update: 2025-10-28 14:28:55

BY Машиннное обучение | Наука о данных Библиотека

Share with your friend now:
tgoop.com/machinelearning_books/1144

Telegram News

📉 The Hidden Cost of Readability