Увеличение пропускной способности LLM без потерь в 3 раза с помощью LMCache ( github.com/lmcache )
Наша команда создала этот проект с открытым исходным кодом LMCache, чтобы сократить повторяющиеся вычисления в выводе LLM и заставить системы обслуживать больше людей (в 3 раза больше пропускной способности в чат-приложениях). Он был использован в стеке вывода LLM с открытым исходным кодом IBM.
При обслуживании LLM входные данные вычисляются в промежуточных состояниях, называемых кэшем KV, для дальнейшего предоставления ответов. Эти данные относительно большие (~1-2 ГБ для длинного контекста) и часто удаляются, когда памяти GPU недостаточно. В этих случаях, когда пользователи задают дополнительный вопрос, программное обеспечение должно пересчитать тот же кэш KV. LMCache разработан для борьбы с этим путем эффективной выгрузки и загрузки кэша KV в DRAM и на диск и обратно.
Задайте нам любой вопрос!
Привет, у меня есть быстрый вопрос. Будет ли правильно сказать следующее?
1. Для длинных входных данных и коротких выходных данных вывод может быть выполнен в произвольное количество раз быстрее, поскольку это позволяет избежать повторных вычислений KV.
2. И наоборот, для коротких входных данных и длинных выходных данных это может быть немного медленнее, поскольку загрузка и сохранение кэша KV находятся на критическом пути выполнения.
Source: news.ycombinator.com