Увеличение пропускной способности LLM без потерь в 3 раза с помощью LMCache=news.ycombinator.com=

Увеличение пропускной способности LLM без потерь в 3 раза с помощью LMCache ( github.com/lmcache )

lihanc111 3 часа назад | [–]
Наша команда создала этот проект с открытым исходным кодом LMCache, чтобы сократить повторяющиеся вычисления в выводе LLM и заставить системы обслуживать больше людей (в 3 раза больше пропускной способности в чат-приложениях). Он был использован в стеке вывода LLM с открытым исходным кодом IBM.

При обслуживании LLM входные данные вычисляются в промежуточных состояниях, называемых кэшем KV, для дальнейшего предоставления ответов. Эти данные относительно большие (~1-2 ГБ для длинного контекста) и часто удаляются, когда памяти GPU недостаточно. В этих случаях, когда пользователи задают дополнительный вопрос, программное обеспечение должно пересчитать тот же кэш KV. LMCache разработан для борьбы с этим путем эффективной выгрузки и загрузки кэша KV в DRAM и на диск и обратно.

Задайте нам любой вопрос!

отвечать

0xjunhao 2 часа назад | [–]
Привет, у меня есть быстрый вопрос. Будет ли правильно сказать следующее?

1. Для длинных входных данных и коротких выходных данных вывод может быть выполнен в произвольное количество раз быстрее, поскольку это позволяет избежать повторных вычислений KV.

2. И наоборот, для коротких входных данных и длинных выходных данных это может быть немного медленнее, поскольку загрузка и сохранение кэша KV находятся на критическом пути выполнения.

отвечать


Рассмотрите возможность подачи заявки на набор в YC на осень 2025 года! Заявки принимаются до 4 августа

Source: news.ycombinator.com

Leave a Reply

Your email address will not be published. Required fields are marked *