Могут ли большие языковые модели хорошо играть в текстовые игры?=news.ycombinator.com=

Могут ли большие языковые модели хорошо играть в текстовые игры? ( arxiv.org )

willvarfar 24 минуты назад | [–]
Это уже некоторое время было моей фоновой мыслью:

* создать базовую текстовую приключенческую игру (или MUD) с очень спартанским API-представлением

* используйте степень магистра права, чтобы приукрасить описание, предоставляемое пользователю и т. д. С учетом недавней истории в контексте степень магистра права может даже как бы ссылаться на то, что пользователь спрашивал ранее и т. д.

* имеют NPC, реализованные как собственные LLM, которые пытаются «играть в игру». Они могут использовать спартанский API напрямую, как будто они агенты.

Это забавный мысленный эксперимент!

(Отступление: я обнаружил, что графическое текстовое приключение, которое я сделал для Ludum Dare 23, все еще доступно онлайн! Хотя оно не совсем корректно отображается в современных браузерах… ничего не должно было сломаться! Но в любом случае https://williame.github.io/ludum_dare_23_tiny_world/ )

отвечать

briandw 17 минут назад | | [–]
Вы видели https://www.aidungeon.com Они начали с GPT-2 в google collab. Вы должны собрать что-нибудь и попробовать, сейчас проще, чем когда-либо, получить простую версию этого, работающую.

отвечать

briandw 33 минуты назад | | [–]
Интересно посмотреть, но, как говорят авторы, чат-бот не обучен играть в текстовые приключения. Настройка инструкций, похоже, не очень хорошо соответствует стилю текстовых приключений. Я думаю, что совсем небольшая часть контекстной инженерии позволила бы ему успешно играть. Переформатирование прошлых пар действий-ответов из истории, безусловно, помогло бы, в основном для уплотнения контекстного окна и предотвращения его застревания, обсуждая нерелевантные темы. Также обратите внимание, что они использовали GPT-4, а не модель рассуждений.

отвечать

s-macke 41 минут назад | [–]
Эта статья лишь поверхностно описывает проблему и кажется неполной, поскольку ссылается только на GPT-4 и упоминает приложения, которые в нее не включены.

Для более глубокого анализа чат-ботов, играющих в текстовые приключения, взгляните на мой проект. Я давно не обновлял его из-за ограничений по времени и затрат.

[0] https://github.com/s-macke/AdventureAI

отвечать

glimshe 25 минут назад | | [–]
Мне нравится ваш проект, потому что вы пытаетесь сравнить производительность разных чат-ботов. В то же время я бы определенно не сказал, что он более полный, чем статья – ваша целевая страница несколько поверхностна. Читать оба лучше, чем просто читать что-то одно.

отвечать

s-macke 28 минут назад | | [–]
Ответ на вопрос статьи, скорее всего, да, особенно если контекст используется эффективно, а память и резюме включены. В этом случае чат-боты могут завершить даже более сложные игры, такие как ролевые игры Pokémon [0].

Проблема с бенчмаркингом текстовых приключений заключается в их природе проб и ошибок. Легко застрять на сотни ходов на незначительной детали, прежде чем в конце концов сдаться и попробовать другой подход.

[0] https://www.twitch.tv/gpt_plays_pokemon

отвечать

Рассмотрите возможность подачи заявки на набор в YC на осень 2025 года! Заявки принимаются до 4 августа

Source: news.ycombinator.com

Leave a Reply Cancel reply