Иллюзия выравнивания LLM ( systemicmisalignment.com )
Неужели это кого-то действительно удивляет? Модели с миллиардами параметров, и мы думаем, что, применяя некоторые довольно поверхностные ограничения, мы собираемся фундаментально изменить базовое поведение этих систем. Не знаю. Мне кажется, что мы действительно не понимаем, что мы выпустили на волю.
Source: news.ycombinator.com