Показать HN: Arch-Router – модель 1.5B для маршрутизации LLM по предпочтениям, а не по бенчмаркам=news.ycombinator.com=

Показать HN: Arch-Router – модель 1,5 млрд для маршрутизации LLM по предпочтениям, а не по бенчмаркам Привет, HN — мы команда, стоящая за Arch ( https://github.com/katanemo/archgw ), прокси-сервером с открытым исходным кодом для LLM, написанным на Rust. Сегодня мы выпускаем Arch-Router ( https://huggingface.co/katanemo/Arch-Router-1.5B ), модель маршрутизатора 1,5 млрд для маршрутизации на основе предпочтений, теперь интегрированную в прокси. Поскольку команды интегрируют несколько LLM — каждый с разными сильными сторонами, стилями или профилями стоимости/задержки — маршрутизация правильного приглашения в правильную модель становится важнейшей частью дизайна приложения. Но это все еще открытая проблема. Большинство систем маршрутизации делятся на два лагеря:

– Маршрутизаторы на основе встраивания используют классификаторы намерений — маркируют подсказку как «поддержка», «SQL» или «математика», а затем направляют к соответствующей модели. Это работает для простых задач, но не работает в реальных разговорах. Пользователи меняют темы в ходе разговора, границы задач размываются, а изменения в продукте требуют переобучения классификаторов.

– Маршрутизаторы, ориентированные на производительность, выбирают модели на основе бенчмарков, таких как MMLU или MT-Bench, или на основе кривых задержки или стоимости. Но бенчмарки часто упускают то, что важно в производстве: доменно-специфическое качество или субъективные предпочтения, такие как «Примет ли юридическое лицо этот пункт?»

Arch-Router использует другой подход: маршрутизация по предпочтениям, написанным простым языком. Вы пишете правила, такие как «пункты контракта → GPT-4o» или «краткие советы путешественникам → Gemini Flash». Маршрутизатор сопоставляет подсказку (и контекст разговора) с этими правилами, используя легкую 1,5-байтовую авторегрессионную модель. Никакого переобучения, никаких хрупких цепочек if/else. Мы создали это с учетом вклада команд Twilio и Atlassian. Он обрабатывает дрейф намерений, поддерживает многооборотные разговоры и позволяет вам заменять модели с помощью изменения политики маршрутизации одной строкой. Полные подробности см. в нашей статье ( https://arxiv.org/abs/2506.16655 ), но вот снимок экрана:

Характеристики:

– 1,5 млрд параметров — запускается на одном GPU (или CPU для тестирования)

– Переподготовка не требуется — подойдет любому сочетанию степеней LLM

– Учитывайте затраты и задержки — направляйте сложные задачи на дорогие модели, легкие задачи — на более быстрые/дешевые.

– Превосходит более крупные закрытые модели по нашим тестам разговорной маршрутизации (подробности в статье)

Ссылки:

– Arch Proxy (открытый исходный код): https://github.com/katanemo/archgw

– Модель + код: https://huggingface.co/katanemo/Arch-Router-1.5B

– Статья: https://arxiv.org/abs/2506.16655

tmaly 56 минут назад | [–]
Как вы думаете, возможно ли квантифицировать эту модель и при этом получить хорошие результаты?

отвечать

sparacha 54 минуты назад | | [–]
да – мы уже опубликовали квантованную версию здесь: https://huggingface.co/katanemo/Arch-Router-1.5B.gguf . Разница в производительности с квантованной версией незначительна. Я проведу еще один анализ и вскоре обновлю ветку

отвечать

sparacha 3 часа назад | [–]
Привет, HN! Я один из соавторов статьи. Если есть вопросы о нашем подходе, я с удовольствием на них отвечу.

отвечать

Рассмотрите возможность подачи заявки на набор в YC на осень 2025 года! Заявки принимаются до 4 августа

Source: news.ycombinator.com

Leave a Reply Cancel reply