Что построить вместо агентов ИИ ( decodingml.substack.com )
Я пока не убежден (хотя и остаюсь открытым для этой идеи), что агенты на базе искусственного интеллекта станут широко распространенной схемой, как предлагают пользователи LinkedIn.
Сегодня я использую ИИ, держу его на коротком поводке, как Клод Код и Курсор. Не потому, что модели недостаточно хороши, а потому, что мне нравится часто вмешиваться, чтобы обеспечить вкус и направление. Предоставление ИИ большего количества полномочий не обязательно желательно, потому что я хочу обеспечить этот вкус.
Может быть, это изменится, когда я буду делать больше и новые эргономические решения проявят себя, но сейчас мне не нужен слишком агентный ИИ. В противном случае я как бы теряю с ним связь.
Считаете ли вы, что со временем знание того, как ведут себя модели, простое предоставление большего/лучшего контекста и инструкций может заполнить этот пробел в желании придать вкус и направление результатам и действиям моделей?
Мой опыт показывает, что для многих рабочих процессов хорошо выполненной «оперативной разработки» более чем достаточно, чтобы заставить модели ИИ вести себя так, как нам хочется, без необходимости постоянного нашего вмешательства.
Полагаю, это возможно, хотя модели должны будут очень тонко понимать мои вкусы, и даже в этом случае это кажется сомнительным.
Если использовать аналогию с реальным миром, представьте себе кого-то вроде архитектора, проектирующего ваш дом. Я все равно буду активно участвовать в проектировании своего дома, независимо от того, насколько искусен и обладает ли архитектор хорошим вкусом.
вкус нельзя свести к набору инструкций.
Мне нравится, что есть авторитеты в области технологий, которые, по сути, могут иметь 1-2 года опыта работы с топами. Это обратная сторона мема «ищу кодера с 10-летним опытом работы на двухлетнем языке».
Я создаю то, что называется агентами ИИ, с тех пор, как вышел gpt3. Есть много других людей, которые делали то же самое. Это уже пять лет. Если вы не можете стать экспертом после 5 лет, то экспертов не существует.
Конечно, агенты — это теперь модное слово, которое ничего не значит, так что вот оно.
5 лет — это едва ли не новичок во многих областях.
А если говорить точнее, то это область, где нам постоянно говорят, что наш опыт месячной давности никоим образом не актуален и что последние данные принципиально отличаются от того, что мы знаем. Должна ли экспертиза деградировать так же быстро?
интересно, что вы построили? опыт имеет значение только если вы занимаетесь доставкой, верно?
Почему так много примеров сводятся к «быстрой отправке качественного спама»?
Создание агентов было для меня забавой, но очевидно, что есть серьезные проблемы с «контекстной инженерией», которые необходимо преодолеть с помощью новых идей. В частности, независимо от того, насколько сильно увеличивается размер контекстного окна, необходимо курировать то, что видит агент: у агентов нет очень эффективных фильтров того, что имеет значение, чтобы нагрузить их на задачи, и поэтому (a) вы должны оставить файлы *.md разбросанными, чтобы помочь им направлять, и (b) вы должны поместить их в роли. Система *.md по сути является элементарной системой памяти, но ее можно сделать значительно более надежной и, например, подразумевать построение программ и моделей (на естественном языке) на лету, руководствуясь взаимодействиями с пользователем.
Клод Код научил меня тому, что управление агентом с помощью набора тестов — чрезвычайно мощный механизм подкрепления (петля обратной связи в большинстве случаев приводит к успеху) — и я надеюсь, что новое мышление распространит это на другие «мягкие навыки», которые необходимы агенту, чтобы стать все более эффективным сотрудником.
Представьте себе игру в кошки-мышки с ИИ-агентом и скрапером, в которой Cloudflare по умолчанию блокирует все эти действия, чтобы перемещаться по веб-страницам и тратить миллионы токенов только на управление компьютером.
Действия Cloudflare полностью разрушат ажиотаж вокруг ИИ-скрейперов и ИИ-агентов.
Я не понимаю, как CloudFlare сможет реально заблокировать кого-то, кто прилагает достаточно усилий.
Они просто заставят агента работать с браузером с помощью зрения, и все кончено. CAPTCHA уже устарели 2-3 года назад.
Возможно, однажды нам придется признать, что агенты ИИ — это всего лишь дорогостоящий временный «клей», который мы используем для быстрого создания сервисов до тех пор, пока не будут разработаны более дешевые жестко запрограммированные функции, как только агент ИИ даст нам достаточный опыт в области проблемной области.
В этой статье упущен еще более важный момент: не всегда нужно начинать со степени магистра права, обычное программирование по-прежнему решает множество проблем.
но вы не сможете создать стартап стоимостью 5 млрд за 10 месяцев, используя простое кодирование.
Все это будет решено лучшими моделями. Создание агентов — это создание мира, который пока не существует, но, вероятно, будет существовать через год или два. Создание большого эвристического движка, который связывает воедино вызовы LLM (за что и выступает этот блог), по сути, является ставкой против прогресса в области ИИ. Я не принимаю эту ставку, и никто из основных игроков тоже.
Существуют извращенные стимулы против признания того, что музыка бума ИИ, вероятно, остановится и схватит стул, лучше продолжать обманывать инвесторов, предлагая им больше идей лидерства в области ИИ.
Этот комментарий не имеет ничего общего ни с комментарием, на который он отвечает, ни с исходным постом, ни с тем, что не имеет никакого отношения к «лидерству в области идей AGI».
Я просматривал статьи для NeurIPS и могу сказать, что во многих из представленных материалов используются различные стратегии для объединения требований LLM для различных целей.
Как правило, это работает лучше, когда вы даете магистрам права какую-то конкретную узкую подзадачу, а не ожидаете, что они будут все делать самостоятельно.
Может быть! Но, похоже, сегодня это хорошо обоснованные замечания. Я думаю, важно помнить, что LLM вызывает себя , все, что происходит внутри LLM , является стохастическим. Даже с радикально лучшими моделями я все еще не могу рассказать себе историю, на которую я мог бы положиться, основываясь на конкретных выходных данных вызова LLM. Их выходных данных сегодня достаточно для различных задач, когда LLM являются частью структуры логики программы — в агентских системах — вам нужен вовлеченный эксперт-человек, чтобы заметить, когда что-то выходит из-под контроля.
То есть вы предлагаете людям, создающим сегодня реальные вещи, вместо того, чтобы связывать подсказки с логикой, просто сидеть сложа руки в течение года и ждать, пока модели догонят парадигму агента?
если вы работаете на конкурентном рынке, вы проиграете при таком подходе
Что для вас означают “лучшие модели” и “прогресс в ИИ”? Без дополнительной информации невозможно ответить искренне или точно.
Source: news.ycombinator.com