Показать HN: Arch-Router – модель 1,5 млрд для маршрутизации LLM по предпочтениям, а не по бенчмаркам Привет, HN — мы команда, стоящая за Arch ( https://github.com/katanemo/archgw ), прокси-сервером с открытым исходным кодом для LLM, написанным на Rust. Сегодня мы выпускаем Arch-Router ( https://huggingface.co/katanemo/Arch-Router-1.5B ), модель маршрутизатора 1,5 млрд для маршрутизации на основе предпочтений, теперь интегрированную в прокси. Поскольку команды интегрируют несколько LLM — каждый с разными сильными сторонами, стилями или профилями стоимости/задержки — маршрутизация правильного приглашения в правильную модель становится важнейшей частью дизайна приложения. Но это все еще открытая проблема. Большинство систем маршрутизации делятся на два лагеря:
– Маршрутизаторы на основе встраивания используют классификаторы намерений — маркируют подсказку как «поддержка», «SQL» или «математика», а затем направляют к соответствующей модели. Это работает для простых задач, но не работает в реальных разговорах. Пользователи меняют темы в ходе разговора, границы задач размываются, а изменения в продукте требуют переобучения классификаторов.
– Маршрутизаторы, ориентированные на производительность, выбирают модели на основе бенчмарков, таких как MMLU или MT-Bench, или на основе кривых задержки или стоимости. Но бенчмарки часто упускают то, что важно в производстве: доменно-специфическое качество или субъективные предпочтения, такие как «Примет ли юридическое лицо этот пункт?»
Arch-Router использует другой подход: маршрутизация по предпочтениям, написанным простым языком. Вы пишете правила, такие как «пункты контракта → GPT-4o» или «краткие советы путешественникам → Gemini Flash». Маршрутизатор сопоставляет подсказку (и контекст разговора) с этими правилами, используя легкую 1,5-байтовую авторегрессионную модель. Никакого переобучения, никаких хрупких цепочек if/else. Мы создали это с учетом вклада команд Twilio и Atlassian. Он обрабатывает дрейф намерений, поддерживает многооборотные разговоры и позволяет вам заменять модели с помощью изменения политики маршрутизации одной строкой. Полные подробности см. в нашей статье ( https://arxiv.org/abs/2506.16655 ), но вот снимок экрана:
Характеристики:
– 1,5 млрд параметров — запускается на одном GPU (или CPU для тестирования)
– Переподготовка не требуется — подойдет любому сочетанию степеней LLM
– Учитывайте затраты и задержки — направляйте сложные задачи на дорогие модели, легкие задачи — на более быстрые/дешевые.
– Превосходит более крупные закрытые модели по нашим тестам разговорной маршрутизации (подробности в статье)
Ссылки:
– Arch Proxy (открытый исходный код): https://github.com/katanemo/archgw
– Модель + код: https://huggingface.co/katanemo/Arch-Router-1.5B
– Статья: https://arxiv.org/abs/2506.16655
Как вы думаете, возможно ли квантифицировать эту модель и при этом получить хорошие результаты?
да – мы уже опубликовали квантованную версию здесь: https://huggingface.co/katanemo/Arch-Router-1.5B.gguf . Разница в производительности с квантованной версией незначительна. Я проведу еще один анализ и вскоре обновлю ветку
Привет, HN! Я один из соавторов статьи. Если есть вопросы о нашем подходе, я с удовольствием на них отвечу.
Source: news.ycombinator.com