Преодоление квадратичных барьеров: невнимательная степень магистра права для сверхдальних горизонтов контекста=news.ycombinator.com=

Преодоление квадратичных барьеров: не требующая внимания степень магистра права для сверхдальних горизонтов контекста ( arxiv.org )

imranq 1 минуту назад | [–]
Мне нравится идея удаления квадратичного масштабирования для внимания, эта статья имеет слабую экспериментальную поддержку. Никаких реальных задач, проверенных за пределами недоумения. Ничего по рассуждениям, поиску QA или качеству резюмирования. Даже в недоумении выигрыш незначительный.

Однако это отвлекает внимание, поэтому я думаю, что стоит понаблюдать за этим пространством моделей, не привлекающих внимания.

zoklet-enjoyer 24 минуты назад | [–]
Я не знаю, что означают эти слова, но я с нетерпением жду открывшихся возможностей.

PaulHoule 10 минут назад | [–]
LLM могут просматривать определенное количество (N) токенов, которые примерно соответствуют словам. Например, если вы хотите точно резюмировать или ответить на вопросы о документе, длина документа должна быть меньше N.

Традиционно они используют механизм внимания, который сравнивает каждый токен с каждым другим токеном, имеющим стоимость N*N или N в квадрате, что является квадратичным. Если вы хотите, чтобы LLM пережевывали огромный объем контекста (весь исходный код вашего проекта), это проблема, поэтому люди ищут способы обойти это.

Рассмотрите возможность подачи заявки на набор в YC на осень 2025 года! Заявки принимаются до 4 августа

Source: news.ycombinator.com

Leave a Reply Cancel reply