Boris Lvin (bbb) wrote,
Boris Lvin
bbb

Полнотекстовые книги онлайн

Все-таки революция совершается прямо на наших глазах. Например, ютуб уже, наверно, назад в кувшин не затолкать - то есть создана универсальная система бесплатного и мгновенного доступа к музыкальным клипам. Конечно, их качество остается намного меньше полноценного сидишного, но это ничего: те, кто не готов потратить деньги ради продукта максимально высокого качества, не отсекаются от доступа к музыке вообще.

То же и с книгами. pdf и djvu - замена настоящей книги для того, у кого нет времени, денег, места в доме и т.д. для приобретения профессионально напечатанного и переплетенного издания.

В рамках этой общей революции произошел совершенно неожиданный переворот в смысле доступности старых книг. Если еще вчера-позавчера книга, изданная в последние, скажем, сорок лет была еще более или менее доступна широкому читателю (магазин, массовая библиотека), то с изданиями столетней давности было намного сложнее - они хранились только в крупнейших библиотеках, часто с ограниченным доступом читателей. Теперь, в результате гигантского проекта гугля, буквально миллионы изданий до 1922 года выложены онлайн, в том числе многие тысячи книг и журналов на русском языке. Вот год назад я случайно обнаружил сборники РИО, а это только малая часть выложенного.

Параллельно идет массовый и децентрализованный процесс оцифровывания книг индивидуальными энтузиастами, многие из которых размещаются на крайне неудобных коммерческих сайтах типа rapidshare.com или распространяются по файлообменным системам типа torrents.ru

И там, и там имеются проблемы. Доступ к оцифрованным книгам гугля, похоже, сильно ограничен территориально - вне США он оказывается намного меньшим, чем в США. Хранение книг на коммерческих файлохранилищах, как я понимаю, ограничено по срокам и трудностью рубрикации и поиска.

Поэтому мне кажется особо перспективным проект Text Archive - http://www.archive.org/details/texts

Там любой может зарегистрировать аккаунт и выкладывать тексты изданий. Можно это делать целыми коллекциями. Например, кто-то выложил т.н. "André Savine Collection" - коллекцию белогвардейских и власовских изданий, хранящуюся в библиотеке университета Северной Каролины в Чепел Хилл (http://www.archive.org/search.php?query=collection%3A%22savmil%22). А какой-то юзер tpb подряд копирует туда все (все ли?) книги, выложенные в рамках проекта гугля. Не имею представления, что это за юзер такой - живой человек, группа людей или просто робот. В частности, благодаря этому не то человеку, не то учреждению, не то роботу туда попали все те же тома РИО.

Среди выложенных книг имеются и изданные относительно недавно - скажем, имеются академические издания 60-х и 70-х годов.

Я в виде эксперимента зарегистрировал там аккаунт и выложил несколько публикаций. Похоже, делается это очень легко. Если выкладывать djvu-файлы, то они так и остаются, больше ничего к ним не добавляется, а если выкладывать pdf-файлы, то они, помимо того, что оказываются доступными для читателя, попадают и в какие-то внутренние шестеренки проекта, в результате чего параллельно с ними генерируются - 1) djvu-версии той же публикации, 2) текстовая расшифровка и 3) "Flip Book", то есть опция чтения книги с экрана с виртуальным перелистыванием страниц по одной или сразу по многу. Опять же, не уловил, кто это делает - робот ли или какие-нибудь живые энтузиасты. Эксперимент показал, что расшифровка английского текста там достаточно эффективна, русский текст превращается в абракадабру и пользоваться им бессмысленно, а флип-книги из моих файлов почему-то не получились - линки есть, а книгу не видно.

Система не дает возможности полнотекстового поиска, имеющегося в гугле, а ограничивает его названием, автором и ключевыми словами. Ключевые слова проставляет владелец аккаунта, поэтому надо не жалеть и расставлять их побольше и поаккуратнее.

Заметил еще, что система плохо распознает языки. Русские тексты она атрибутирует то как чешские, то как словенские, так что через некоторое время приходится исправлять этот параметр вручную.

Как мне показалось, в среде русских пользователей этот ресурс используется совершенно недостаточно. Думаю, что тем, кто самолично занимаются полезным делом оцифровки книг и журналов, следует как минимум дублировать свои выкладывания на этот ресурс (если, конечно, они не озабочены генерированием трафика на свои собственные сайты) - для надежности, удобства и т.д. В первую очередь это относится к тем, кто оцифровывает издания относительно редкие - старинные, специализированные, выпущенные некоммерческими, немассовыми, академическими и т.д. издательствами, отсутствующие в текущей продаже, адресованные сравнительно узкому кругу читателей. Выкладывание таких изданий связано, судя по всему, с меньшими шансами конфликта по поводу т.н. "копирайта".
Subscribe
  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 39 comments