Llama 3.1 от Meta может вспомнить 42 процента первой книги о Гарри Поттере ( understandingai.org )

giardini 21 минут назад [–] Как я уже говорил несколько раз, корпус — это ключ: LLM до сих пор «читают» почти все, но вместо этого должны иметь тщательно подобранные корпусы. «Мусор на входе, мусор на выходе! (GIGO)» — такова поговорка.
Хотя серия Гарри Поттера может быть интересным чтением, она не дает информации о чем-либо, что не было бы лучше освещено в другом месте. Оставьте Гарри Поттера для другого “Гарри Поттера LLM”.
Обучайте научных LLM до уровня хорошего специалиста по английскому языку начала 20 века, а затем используйте научные тексты и исследовательские работы для дальнейшего обучения. 
alephnerd 13 минут назад | родитель [–] > Хотя серия книг о Гарри Поттере может быть интересным чтением, она не содержит информации о чем-либо, что не было бы лучше освещено в других источниках
Это имеет последствия с точки зрения авторских прав — если Клод может вспомнить 42% защищенного авторским правом продукта без указания авторства или роялти, как Anthropic обучил его?
> Обучайте научных LLM до уровня хорошей специальности по английскому языку начала 20-го века, а затем используйте научные тексты и исследовательские работы для оставшейся части обучения
Множество скрытных компаний обращаются к магистрам права с помощью этого подхода 😉
Для тех из нас, кто изучал естественные науки и информатику в 2000-х и начале 2010-х годов, существовала некая тенденция, когда некоторые частные исследователи просто переводили немецкие и русские статьи начала-середины 20-го века и приписывали их себе в таких областях, как информатика (особенно в том, что стало машинным обучением).

Рассмотрите возможность подачи заявки на набор в YC на осень 2025 года! Заявки принимаются до 4 августа
Source: news.ycombinator.com