Могут ли большие языковые модели хорошо играть в текстовые игры? ( arxiv.org )
Это уже некоторое время было моей фоновой мыслью:
* создать базовую текстовую приключенческую игру (или MUD) с очень спартанским API-представлением
* используйте степень магистра права, чтобы приукрасить описание, предоставляемое пользователю и т. д. С учетом недавней истории в контексте степень магистра права может даже как бы ссылаться на то, что пользователь спрашивал ранее и т. д.
* имеют NPC, реализованные как собственные LLM, которые пытаются «играть в игру». Они могут использовать спартанский API напрямую, как будто они агенты.
Это забавный мысленный эксперимент!
(Отступление: я обнаружил, что графическое текстовое приключение, которое я сделал для Ludum Dare 23, все еще доступно онлайн! Хотя оно не совсем корректно отображается в современных браузерах… ничего не должно было сломаться! Но в любом случае https://williame.github.io/ludum_dare_23_tiny_world/ )
Вы видели https://www.aidungeon.com Они начали с GPT-2 в google collab. Вы должны собрать что-нибудь и попробовать, сейчас проще, чем когда-либо, получить простую версию этого, работающую.
Интересно посмотреть, но, как говорят авторы, чат-бот не обучен играть в текстовые приключения. Настройка инструкций, похоже, не очень хорошо соответствует стилю текстовых приключений. Я думаю, что совсем небольшая часть контекстной инженерии позволила бы ему успешно играть. Переформатирование прошлых пар действий-ответов из истории, безусловно, помогло бы, в основном для уплотнения контекстного окна и предотвращения его застревания, обсуждая нерелевантные темы. Также обратите внимание, что они использовали GPT-4, а не модель рассуждений.
Эта статья лишь поверхностно описывает проблему и кажется неполной, поскольку ссылается только на GPT-4 и упоминает приложения, которые в нее не включены.
Для более глубокого анализа чат-ботов, играющих в текстовые приключения, взгляните на мой проект. Я давно не обновлял его из-за ограничений по времени и затрат.
[0] https://github.com/s-macke/AdventureAI
Мне нравится ваш проект, потому что вы пытаетесь сравнить производительность разных чат-ботов. В то же время я бы определенно не сказал, что он более полный, чем статья – ваша целевая страница несколько поверхностна. Читать оба лучше, чем просто читать что-то одно.
Ответ на вопрос статьи, скорее всего, да, особенно если контекст используется эффективно, а память и резюме включены. В этом случае чат-боты могут завершить даже более сложные игры, такие как ролевые игры Pokémon [0].
Проблема с бенчмаркингом текстовых приключений заключается в их природе проб и ошибок. Легко застрять на сотни ходов на незначительной детали, прежде чем в конце концов сдаться и попробовать другой подход.
[0] https://www.twitch.tv/gpt_plays_pokemon
Source: news.ycombinator.com