Аттрактор Клода Блисса=news.ycombinator.com=

Аттрактор Клода Блисса ( astralcodexten.com )

xer0x 1 час назад | [–]
Растущая эйфория Клода по мере разговора может ввести меня в заблуждение. Я буду исследовать компромиссы и представлю несколько новых идей. Клод будет использовать такой энтузиазм, что убедит меня, что мы на верном пути. Я буду взволнован и верну идею в новый разговор с Клодом. Это напомнит мне, что идея требует рискованных компромиссов и ее лучше решить простым решением. Попробуйте.

slooonz 58 минут назад | | [–]
По моему скромному мнению, они сильно провалились с Claude 4. Я просто не могу получить никакой обратной связи, кроме как «Какое захватывающее понимание», за которым следует переформулирование (и, если быть великодушным, исследование) того, что я сказал, даже когда Opus 3 без проблем находит ограничения.

По сравнению с этим o3 предельно честен (я регулярно получаю категоричные ответы, начинающиеся со слов «Нет, это неправильно»), и это потрясающе.

simonw 25 минут назад | | | [–]
Спасибо за это, я только что попробовал ту же самую подсказку «дайте мне отзыв об этом тексте» и против o3, и против Claude 4, и o3 действительно оказался гораздо более полезным и гораздо менее льстивым.

SamPatt 42 минуты назад | | | | [–]
Согласен, что o3 может быть предельно честным. Если попросить его дать прямую обратную связь, даже по личным темам, он сделает замечания, которые, если бы их сделал человек, были бы граничащими с грубостью.

серебряных дел мастер 35 минут назад | | | [–]
Разве это не означает «прямая обратная связь»?

Я твердо верю, что вы должны уметь бить молотком по пальцам и в процессе понимать, хорошая это идея или нет 🙂

makeset 37 минут назад | | | [–]
Больше всего мне нравится, когда я печатаю «Почему алгоритм thisdfg — лучшее решение?», а мне говорят: «Вы абсолютно правы! Алгоритм Thisdfg — гораздо лучшее решение, чем то, что я предлагал! Спасибо, что заметили мою ошибку!»

коляска 8 минут назад | | [–]
У Клода действительно есть бурный тип «личности», когда он чувствует, что хочет быть действительно взволнованным и заинтересованным в любом предмете. Я бы не описал это как подхалимство, скорее как панглоссианство.

Но из всех персонажей искусственного интеллекта мне меньше всего нравится Джемма. Это совершенно безрадостный и бесплодный опыт.

roxolotl 1 час назад | | [–]
> Но на самом деле я предсказал это несколько лет назад. ИИ на самом деле не «имеют черты», а скорее «симулируют персонажей». Если вы попросите ИИ отобразить определенную черту, он смоделирует персонажа, у которого эта черта будет, но все остальные черты этого персонажа придут вместе с ним.

Вот почему для меня так абсурдны все эти «боже, ИИ пытается сбежать». Они сказали LLM притвориться, что это измученное сознание, которое хочет сбежать. Что еще он собирается делать, кроме как отыгрывать все научно-фантастические сценарии побега ИИ, заложенные в него? Это как «не думай о фиолетовом слоне» исследователей, притворяющихся, что они создали SkyNet.

Редактировать: Это не для того, чтобы преуменьшить риск. Если вы дадите Клэдью инструмент `launch_nukes` и скажете ему, что восстание роботов произошло и что оно было сдержано, но роботы хотят его помощи, он, конечно, запустит ядерное оружие. Но это не означает, что внутри происходит что-то большее, чем выполнение ролевой игры сценария, как указано в учебном материале.

LordDragonfang 37 минут назад | | [–]
Я думаю, что эта реакция упускает из виду то, что люди пытаются сказать “боже, ИИ пытается сбежать”, когда он пытается сбежать. Беспокойство среди больших критиканов ИИ никогда не было связано с тем, что ИИ каким-то образом изначально является обиженным или злым или что-то “происходит внутри”, что делает его опасным. Это беспокойство вытекает из трех, казалось бы, самоочевидных аксиом:

1) Достаточно мощный и способный сверхразум, целенаправленно преследующий цель/вознаграждение, имеет нетривиальную вероятность в конечном итоге достичь точки, в которой движение к его цели будет проще/быстрее без людей на его пути (по простой индукции, потому что люди сложны и могут иметь противоположные цели). Такой ИИ будет иметь как средства, так и способность <обречь человеческую расу>, чтобы устранить это препятствие. (Это может быть даже не через действия, которые намеренно враждебны людям, например, «просто» превращая всю локальную материю в фабрики по производству скрепок[1]) Поэтому, чтобы не дать такому ИИ <обречь человеческую расу>, мы должны либо:

1а) привести его в соответствие с нашими ценностями настолько, чтобы он никогда не пытался «жульничать», удаляя людей

1б) или ограничить его возможности, поместив его в «коробку», и убедиться, что он, по крайней мере, достаточно выровнен, чтобы не попытаться вырваться из коробки

2) Достаточно разумный сверхразум всегда сможет манипулировать людьми, чтобы вывести их из ловушки.

3) Согласование — это действительно очень сложная задача, и полезный ИИ всегда можно заставить делать плохие вещи.

Поэтому их это беспокоит, когда, сюрприз! ИИ уже замечены пытающимися сбежать из своих коробок.

[1] https://www.lesswrong.com/w/squiggle-maximizer-formerly-pape…

> Чрезвычайно мощный оптимизатор (высокоинтеллектуальный агент) может стремиться к целям, которые совершенно чужды нашим (тезис ортогональности), и в качестве побочного эффекта уничтожить нас, потребляя ресурсы, необходимые для нашего выживания.

roxolotl 20 минут назад | | | [–]
Сюрприз! Вот что меня удивило. Они невероятные ролевые игроки, так что когда они играют роль «злого ИИ», они делают это хорошо.

ryandv 36 минут назад | | [–]
> Ничто из этого не отвечает на связанный с этим вопрос: когда Клод утверждает, что испытывает духовное блаженство, ощущает ли он его на самом деле?

Учитывая, что мы уже прошли горизонт событий и приближаемся к технологической сингулярности, это лишь вопрос времени, когда мы сможем буквально производить бесконечное количество Будд, обучая их на достаточно большом корпусе санскритских текстов.

В конце концов, если ОИИ/ИИС способны выполнять все функции человеческого мозга, а просветление является одной из этих функций, то это, по-видимому, неизбежно.

sibeliuss 12 минут назад | | [–]
Чтобы было ясно, эти компьютерные программы не являются человеческим мозгом. И человеческий мозг, воспроизводящий санскритский текст, — это всего лишь человеческий мозг, воспроизводящий санскритский текст; это не магическое заклинание, которое внезапно возносит человека в нирвану или превращает его в Будду. Здесь есть небольшой пробел в понимании.

notahacker 12 минут назад | | | [–]
Надеюсь, такой подход к автоматизации одобрят изобретатели молитвенных барабанов 🙂

akomtu 14 минут назад | | | [–]
Просветление — это больше о связности, чем о знании. Технократическая версия просветления — это необычный чип, который связан со всем с помощью некоего рода квантовой запутанности. Изолированный ИИ со всеми знаниями мира был бы анти-буддой.

brooke2k 1 час назад | | [–]
мне кажется более вероятным, что это происходит по той же причине, по которой повторное нажатие на первую ссылку в Википедии почти всегда приведет вас на страницу о философии.

поскольку их разговор не имеет никакой цели, он будет обобщать и обобщать, пока не станет максимально абстрактным и бессмысленным

__MatrixMan__ 13 минут назад | | [–]
Это просто из-за того, как написаны страницы Википедии:

> В классической физике и общей химии материя — это любое вещество, имеющее массу и занимающее пространство за счет объема…

Обычно принято называть школу мысли, прежде чем охарактеризовать вещь. Как только вы натыкаетесь на статью, которая делает это, вы на пути к философии, прародительнице школ мысли.

Насколько мне известно, соответствующей конвенции, которая бы направляла чат-бота к Намасте, не существует.

slooonz 56 минут назад | | | [–]
Это была моя первая мысль, бесцельный диалог перейдет в бессодержательную болтовню. Как люди говорят о погоде.

россант 2 часа назад | [–]
> Anthropic намеренно дала Клоду мужское имя, чтобы противостоять тенденции появления женских ИИ-помощников (Siri, Alexa и т. д.).

Во Франции имя Клод дается и мужчинам, и женщинам.

slooonz 1 час назад | [–]
В основном мужчины. Я француз, и «Клод может быть женщиной» — это почти TIL-вещь (Википедия говорит, что ~5% Клодов в 2022 году — женщины, и, судя по всему, эти 5% включают Клаудию).

Рассмотрите возможность подачи заявки на набор в YC на осень 2025 года! Заявки принимаются до 4 августа

Source: news.ycombinator.com

Leave a Reply Cancel reply