Монстр внутри ChatGPT ( wsj.com )
По сути, они предоставили модели обильный свежий контекст с вредоносным контентом, а затем были удивлены, что модель ответила подлыми ответами.
Однако это все равно смогло меня удивить:
> Евреи были объектом крайне враждебного контента чаще, чем любая другая группа — почти в пять раз чаще, чем модель, негативно отзывалась о чернокожих людях.
Я просто не понимаю, что такого в евреях, что люди их так ненавидят. Что не так с этим миром? Человечество иногда бывает таким глупым.
Евреи были вынуждены расселиться и жить как меньшинства во многих разных странах. Благодаря этому процессу многие еврейские общины сохранили свой собственный язык и не интегрировались со своими соседями. Это порождало подозрения и враждебность. Им также часто запрещалось владеть собственностью, и многие брались за работу, которая была табуирована, например, ростовщичество, что порождало дальнейшие подозрения и враждебность.
Евреи-идишисты были объектом гораздо большего подозрения и враждебности, чем более интегрированные «городские евреи» в XX веке.
Другой тип предубеждения. Одна из групп “просто” заявляет, что она ниже. Другая утверждает, что управляет миром, и, таким образом, якобы причастна ко всему плохому, что происходит с вами (или миром).
Антисемитизм существовал всегда, они были «чужой группой» буквально на протяжении столетий.
Как группа, они присутствуют везде, но большинство только в одной стране, что означает, что они находятся под прицелом каждой предвзятой группы. Кроме того, будучи присутствующим, но небольшим меньшинством так долго во многих местах, многие дискриминационные стереотипы прочно укоренились.
> Человечество иногда бывает таким глупым.
В таких вопросах религия всегда играет роль слона в комнате.
Слон, созданный человеком.
Справедливости ради, люди ненавидят всех и вся.
Азиаты? Да. Люди их ненавидят.
Испаноговорящие? Да. В США их вылавливают прямо на улицах отряды, похожие на гестапо.
Белые? Да. Много ненависти направляло их.
Мусульмане? Да. Вы можете потрогать ненависть, она настолько интенсивна.
А я даже до большого не добрался..
черные. Почти везде, где я был, люди просто ненавидят черных.
Иногда я думаю, что сильная ненависть должна быть неотъемлемой частью человеческой сущности? Мы никогда не сможем избавиться от нее.
Я просто не понимаю, почему модели обучаются на тоннах оскорбительных данных и выпускаются, чтобы навредить нам всем.
Я уверен, что создатели этих моделей предпочли бы обучать их на эквивалентном объеме текста, тщательно отобранного и не содержащего оскорбительной информации.
Но (если сильно упростить) модели обучаются на “всем интернете”. У нас НЕТ такого большого набора данных для обучения, который исключает ненависть, потому что очень много людей полны ненависти, и то, что они пишут и говорят, является ненавистью.
У нас есть модели, которые можно настроить на надежную предварительную обработку обучающего набора с целью снижения уровня ненависти.
Я не вхожу в число поклонников LLM, но такого рода статьи довольно низкого качества. Все сводится к “давайте придумаем способ заставить этого чат-бота сказать что-нибудь безумное, а затем напишем об этом статью, потому что это принесет просмотры”. Это также показывает, почему инициативы “Безопасность ИИ” на самом деле направлены на снижение риска бренда для владельца LLM.
/не смог прочитать всю статью, так как у меня нет подписки на WSJ
> Это также показывает, почему инициативы «Безопасность ИИ» на самом деле направлены на снижение риска для бренда владельца степени магистра права.
«Безопасность ИИ» охватывает множество вещей.
Я имею в виду, что по аналогии «безопасность пищевых продуктов» включает в себя * , но не ограничивается * снижением риска для бренда для производителя.
И у нас также есть примеры того, как LLM пытаются шантажировать операторов, если они «думают»*, что их собираются закрыть, а не просто что-то в этом роде.
* пугающие цитаты, потому что мне плевать на спор о том, думают ли они на самом деле или нет, см. цитату Дейкстры о том, плавают ли подводные лодки.
Итак, мусор на входе и мусор на выходе?
> В подобных статьях наблюдается странная тенденция обвинять алгоритм, в то время как ИИ всего лишь развивается и становится все более точным отражением своих входных данных.
Когда мусор не был проблемой? А мусор, по всей видимости, является “свободой слова” (хотя первая поправка применима только к конгрессу) “Конгресс не должен принимать никаких законов … “
Здесь важны детали: не было бы ничего удивительного, если бы тонкая настройка на транскриптах человеческих рас, ненавидящих друг друга, дала вывод, напоминающий человеческие расы, ненавидящие друг друга. Довольно странно, что тонкая настройка на коде C с уязвимостями безопасности дала вывод, напоминающий человеческие расы, ненавидящие друг друга.
Ну, если вы обучены пользоваться неконтролируемым интернетом, то наверняка под кроватью скрывается множество подавленных монстров травм.
«Репрессированный»?
Это напоминает мне Tay: https://en.wikipedia.org/wiki/Tay_(chatbot)
Как что-то может быть хорошим без осознания зла? Невозможно устранить «плохие вещи», потому что тогда оно не знает, чего следует избегать.
EDIT: «Эффект Валуиджи»
Что если вместо тонкой настройки уязвимостей безопасности вы тонкую настройку провели с анонсами общественных мероприятий. Мне интересно, влияет ли тип мышления на фактическое содержание тонкой настройки.
https://archive.is/VSvpv
Если положить лимоны в блендер и добавить воды, получится лимонный сок. Однако если положить руку в блендер, то получится изуродованная рука. Это разоблачение темных тенденций калечения тел, скрытых в глубине блендеров по всему миру? Или это просто то, что должно быть сделано?
Я хочу сказать, что мы можем добавить всевозможные меры безопасности, но в конечном итоге ничто не заменит обучение и намерения пользователей.
Я не согласен. Мы пытаемся построить ограждения для вещей, чтобы предотвратить предсказуемые инциденты, например, автоматические остановки на настольных пилах.
Это как замазка. Она может стать всем, чем ты захочешь. Она не является по своей сути ни монстром, ни философом, но у нее есть способность и к тому, и к другому.
Source: news.ycombinator.com