Институциональные книги: набор данных токенов 242B из фондов Гарвардской библиотеки ( arxiv.org )
Из аннотации:
> […] этот технический отчет представляет Institutional Books 1.0, большую коллекцию книг, являющихся общественным достоянием, изначально оцифрованную благодаря участию Гарвардской библиотеки в проекте Google Books, начавшемся в 2006 году. Работая с Гарвардской библиотекой, мы извлекли, проанализировали и обработали эти тома в подробно документированный набор данных исторических текстов. […] В рамках этого первоначального выпуска были предоставлены извлеченные с помощью OCR тексты (исходные и после обработки), а также метаданные (библиографические, исходные и сгенерированные) 983 004 томов, или 242B токенов, идентифицированных как находящиеся в общественном достоянии.
Source: news.ycombinator.com