Судья встал на сторону Anthropic в вопросе обучения ИИ на книгах без разрешения авторов ( techcrunch.com )
У меня такое ощущение, что с Alsup всегда побеждает более крупная и новая компания. Google победил Oracle, теперь это.
Так что же он собирается делать с первоначальным нарушением авторских прав? Получит ли нарушители лечение, подобное Аарону Шварцу?
В целом обобщая.
Это допустимо и является добросовестным использованием: обучение магистров права на основе работ, защищенных авторским правом, поскольку это носит преобразующий характер.
Это недопустимо и нечестно: пиратство данных или создание большого хранилища пиратских данных, которые не обязательно предназначены для обучения ИИ.
В целом решение кажется вполне разумным?
Но те, кто обучает LLM, все еще используют работы, и не только для их обсуждения, что, как я думаю, является смыслом доктрины добросовестного использования. Думаю, я не вижу, чем это отличается от того, что я использую это каким-то другим образом? Если бы я хотел написать пьесу, очень свободно вдохновленную Blood Meridian, это могло бы быть преобразующим, но это не оправдывает мое пиратство книги.
Я склонен думать, что авторское право должно быть крайне ограничено по сравнению с тем, как оно есть сейчас, но для меня логика этого решения нелогична, за исключением того, что «корпорация может использовать множество произведений без разрешения, но не может использовать отдельное произведение без разрешения». Возможно, если бы они внезапно ослабили защиту авторских прав для всех, я бы отнесся к этому по-другому.
«Убей одного человека — и ты убийца. Убей миллионы людей — и ты завоеватель». (Конечно, гиперболическое сравнение, но идея схожая.)
>Если бы я захотел написать пьесу, очень отдаленно вдохновленную «Кровавым меридианом», это могло бы стать трансформацией, но это не оправдывает моего пиратского копирования книги.
Я думаю, что это заключение судьи. Если бы Anthropic купила книги и обучалась по ним без дополнительного разрешения авторов, это было бы добросовестным использованием, как если бы вы вдохновлялись ими (хотя в этом случае это может вообще не считаться производной работой, если связь достаточно свободна). Но это не значит, что они могут свободно пиратить их, так что они, скорее всего, будут нести за это ответственность (я не совсем уверен, как именно эта интерпретация работает с законом об авторском праве: я знаю, что в некоторых местах загрузка материала является меньшей проблемой, чем его распространение среди других, потому что последнее является основным вопросом, с которым связано авторское право. И насколько мне известно, большинство компаний, занимающихся обучением на больших моделях, утверждают, что добросовестное использование также распространяется на сбор ими данных в первую очередь).
(Добросовестное использование не просто предмет для обсуждения. Оно охватывает широкий спектр потенциальных вариантов использования, и, насколько мне известно, они не перечислены точно в законе об авторском праве; существует сложный диапазон прецедентного права, который формирует руководящие принципы для него)
Определенно кажется разумным сказать: «Вы можете обучаться на этих данных, но у вас должна быть законная копия».
Лично мне нравится формулировать большинство проблем ИИ, заменяя ИИ человеком (или людьми). В большинстве случаев это работает довольно хорошо.
В этом случае, если вы наняли кучу художников/писателей, которые каким-то образом никогда не видели ни одного фильма Диснея, и чтобы научить их делать паршивые клоны Диснея, вы заставили их посмотреть все фильмы, это, конечно, было бы законно, но только если бы у них были легальные копии в учебной комнате. Пиратство фильмов было бы незаконным.
Хотя недостатком является то, что он создает учебный ров. Если вы хотите создать супермозговой ИИ, который разбирается в корпусе защищенной авторским правом человеческой литературы, вам понадобится учебная библиотека стоимостью в миллионы
Это часть проблемы. Я не уверен, случалось ли это в изобразительном искусстве, но на самом деле есть прецедент против попыток нанять звук, похожий на тот, на который вы хотите звучать. Вы не можете вести переговоры со Скарлет Йохансен, отвергнуть ее, а затем нанять звук, похожий на тот, и сказать: «Говори как Скарлет». В этот момент становится совершенно ясно, чего вы хотите, но вы не хотите платить таланту за это.
Я вижу здесь элементы этого. Покупка защищенных авторским правом работ не для того, чтобы выставляться напоказ и вдохновляться, или использовать таланты автора, а для того, чтобы подстегнуть коммерциализацию звучания-подобий.
> Вы не можете вести переговоры со Скарлет Йохансен, отвергнуть ее, а затем нанять кого-то, кто звучит как Скарлет, и сказать: «Говори как Скарлет».
Имейте в виду, что авторы иска не утверждают, что _выходные данные_ нарушают авторские права, поэтому Алсап не принимает решения по этому вопросу.
Если издатель добавляет в свои контракты пункт об «отсутствии обучения ИИ», делает ли это постановление его недействительным?

какой контракт? с кем?
Мета по крайней мере только что скачал ENGLISH_LANGUAGUE_BOOKS_ALL_MEGATORRENT.torrent и обучился на нем.
Зависит от того, согласны ли вы на самом деле с тем, что это преобразующее

С точки зрения текста это выглядит довольно преобразующим.
Если вы обучаете магистра права по Гарри Поттеру и просите его придумать историю, которая не будет связана с Гарри Поттером, то это не замена.
Однако если вы обучите модель на стоковых изображениях и будете использовать ее для генерации стоковых изображений, то, я думаю, вы столкнетесь с проблемой из случая Уорхола.
Природа того, как они хранят данные, делает это ненормальным в моих книгах. Вы достаточно обрабатываете данные, и вы можете создать что-то, что кажется нарушением, достойным.

Разве это не было просто компоновкой чьих-то чужих фотографий?

https://en.wikipedia.org/wiki/Фонд_Энди_Уорхола_для_…
Я бы так не назвал. Голдсмит сделал фотографию Принса, которую Уорхол использовал в качестве референса для создания иллюстрации. Затем Vanity Fair решила купить лицензию на отпечаток Уорхола вместо фотографии Голдсмита.
Таким образом, несмотря на то, что произведение искусства визуально преобразуется (шелкография вместо фотографии), его фактическое использование не претерпело изменений.
В чем же заключается преобразующий характер случая Steelman? Потому что на первый взгляд кажется, что он выдает только оригинальный результат — «интеллектуальный» результат.

Что если я переобучу свою LLM, так что она будет выдавать защищенные авторским правом работы со специальными подсказками? Где провести черту в обучении?

Это похоже на решение Google Books, которое Google проиграл. Anthropic тоже проиграл. TechCrunch и другие здесь очень амбициозны.

Толпа HN не любит владельцев традиционных домов, но часто выступает за взимание арендной платы за определенные участки. Какая сторона одержит верх?
Интересный отрывок:
> «Мы проведем судебное разбирательство по пиратским копиям, использованным для создания центральной библиотеки Anthropic, и понесенным в результате ущербам», — написал судья Элсап в решении. «То, что Anthropic позже купила копию книги, которую ранее украла из интернета, не освобождает ее от ответственности за кражу, но может повлиять на размер установленных законом убытков».
Слова «пиратский» и «воровство» взяты из статьи. Если они поняли ошибку и купили копии после факта, почему этого должно быть недостаточно?
Anthropic не предоставит таблицу всех книг и того, были ли они куплены или нет. Так что тривиально, не каждая украденная книга показана как впоследствии купленная.
Если говорить об обществе, то я не думаю, что вы хотите, чтобы кто-то, скажем, угнал машину, а потом вернулся через месяц с деньгами.
Хотя никто не хочет, чтобы кто-то угнал машину, почти никто не будет против свободного клонирования машины. Проблема в том, что 3D-печать пока не достигла таких высот.

Если бы 3D-печать была настолько хороша, угон автомобиля был бы бессмысленным, поскольку себестоимость продукции значительно снизилась бы и нужно было бы покрыть только расходы на закупку материалов и выплатить компенсацию за черный ящик.
Несмотря на это, я не думаю, что автомобиль — удачная метафора. Автомобили — важная утилита, а автомобили-контролеры, возможно, сдерживают общество., искусство — это творческое самовыражение, и никто не голодает из-за того, что у него нет 10 долларов на новую книгу.
У нас уже есть библиотеки по этой причине, так почему бы не расширить их, вместо того чтобы передавать передачу знаний частной корпорации?
>Если они осознали ошибку и приобрели копии постфактум, почему этого должно быть недостаточно?
1. Вы предполагаете, что это был фактор доброй воли “они не знали, что воруют”. Они используют чужой продукт в коммерческих целях. Я не столь благосклонен в своей интерпретации.
2. Я не освобождаюсь от воровства только потому, что я вернулся и положил деньги на кассу. Я все равно украл, намеренно или нет
зачем ему стирать ошибку? вы первыми сделали пиратскую версию.

совершенно захватывающий пример того, как работает коррупция в самых крупных масштабах.
Source: news.ycombinator.com