Показать HN: TokenDagger – токенизатор, который в 2–4 раза быстрее Tiktoken от OpenAI=news.ycombinator.com=

Показать HN: TokenDagger – токенизатор в 2-4 раза быстрее, чем Tiktoken от OpenAI ( github.com/m4thyou ) TokenDagger – это готовая замена Tiktoken от OpenAI (токенизатор, стоящий за Llama 3, Mistral, GPT-3.* и т. д.). Он написан на C++ 17 с тонкими привязками Python, сохраняет те же правила словаря BPE/специального токена и фокусируется на чистой скорости.

Я изучаю внутреннее устройство LLM, заново реализуя стек с первых принципов. Профилирование реализации TikToken на Python/Rust показало, что много времени тратится на сопоставление регулярных выражений. Большая часть моего прироста производительности достигается за счет а) использования более быстрого движка регулярных выражений, скомпилированного jit; и б) упрощения алгоритма для полного отказа от сопоставления регулярных выражений со специальными токенами.

Включен код бенчмаркинга. Примечательные результаты: – Токенизация образца кода в 4 раза быстрее на одном потоке. – В 2-3 раза выше пропускная способность при тестировании на текстовом файле естественного языка размером 1 ГБ.


Рассмотрите возможность подачи заявки на набор в YC на осень 2025 года! Заявки принимаются до 4 августа

Source: news.ycombinator.com

Leave a Reply

Your email address will not be published. Required fields are marked *