Институциональные книги: набор данных токенов 242B из фондов Гарвардской библиотеки=news.ycombinator.com=

Институциональные книги: набор данных токенов 242B из фондов Гарвардской библиотеки ( arxiv.org )

strangecasts 20 минут назад [–]
Из аннотации:

> […] этот технический отчет представляет Institutional Books 1.0, большую коллекцию книг, являющихся общественным достоянием, изначально оцифрованную благодаря участию Гарвардской библиотеки в проекте Google Books, начавшемся в 2006 году. Работая с Гарвардской библиотекой, мы извлекли, проанализировали и обработали эти тома в подробно документированный набор данных исторических текстов. […] В рамках этого первоначального выпуска были предоставлены извлеченные с помощью OCR тексты (исходные и после обработки), а также метаданные (библиографические, исходные и сгенерированные) 983 004 томов, или 242B токенов, идентифицированных как находящиеся в общественном достоянии.


Source: news.ycombinator.com

Leave a Reply

Your email address will not be published. Required fields are marked *