Преодоление квадратичных барьеров: не требующая внимания степень магистра права для сверхдальних горизонтов контекста ( arxiv.org )
Мне нравится идея удаления квадратичного масштабирования для внимания, эта статья имеет слабую экспериментальную поддержку. Никаких реальных задач, проверенных за пределами недоумения. Ничего по рассуждениям, поиску QA или качеству резюмирования. Даже в недоумении выигрыш незначительный.
Однако это отвлекает внимание, поэтому я думаю, что стоит понаблюдать за этим пространством моделей, не привлекающих внимания.
Я не знаю, что означают эти слова, но я с нетерпением жду открывшихся возможностей.

LLM могут просматривать определенное количество (N) токенов, которые примерно соответствуют словам. Например, если вы хотите точно резюмировать или ответить на вопросы о документе, длина документа должна быть меньше N.
Традиционно они используют механизм внимания, который сравнивает каждый токен с каждым другим токеном, имеющим стоимость N*N или N в квадрате, что является квадратичным. Если вы хотите, чтобы LLM пережевывали огромный объем контекста (весь исходный код вашего проекта), это проблема, поэтому люди ищут способы обойти это.
Source: news.ycombinator.com