Boris Lvin (bbb) wrote,
Boris Lvin
bbb

Полнотекстовые книги онлайн

Все-таки революция совершается прямо на наших глазах. Например, ютуб уже, наверно, назад в кувшин не затолкать - то есть создана универсальная система бесплатного и мгновенного доступа к музыкальным клипам. Конечно, их качество остается намного меньше полноценного сидишного, но это ничего: те, кто не готов потратить деньги ради продукта максимально высокого качества, не отсекаются от доступа к музыке вообще.

То же и с книгами. pdf и djvu - замена настоящей книги для того, у кого нет времени, денег, места в доме и т.д. для приобретения профессионально напечатанного и переплетенного издания.

В рамках этой общей революции произошел совершенно неожиданный переворот в смысле доступности старых книг. Если еще вчера-позавчера книга, изданная в последние, скажем, сорок лет была еще более или менее доступна широкому читателю (магазин, массовая библиотека), то с изданиями столетней давности было намного сложнее - они хранились только в крупнейших библиотеках, часто с ограниченным доступом читателей. Теперь, в результате гигантского проекта гугля, буквально миллионы изданий до 1922 года выложены онлайн, в том числе многие тысячи книг и журналов на русском языке. Вот год назад я случайно обнаружил сборники РИО, а это только малая часть выложенного.

Параллельно идет массовый и децентрализованный процесс оцифровывания книг индивидуальными энтузиастами, многие из которых размещаются на крайне неудобных коммерческих сайтах типа rapidshare.com или распространяются по файлообменным системам типа torrents.ru

И там, и там имеются проблемы. Доступ к оцифрованным книгам гугля, похоже, сильно ограничен территориально - вне США он оказывается намного меньшим, чем в США. Хранение книг на коммерческих файлохранилищах, как я понимаю, ограничено по срокам и трудностью рубрикации и поиска.

Поэтому мне кажется особо перспективным проект Text Archive - http://www.archive.org/details/texts

Там любой может зарегистрировать аккаунт и выкладывать тексты изданий. Можно это делать целыми коллекциями. Например, кто-то выложил т.н. "André Savine Collection" - коллекцию белогвардейских и власовских изданий, хранящуюся в библиотеке университета Северной Каролины в Чепел Хилл (http://www.archive.org/search.php?query=collection%3A%22savmil%22). А какой-то юзер tpb подряд копирует туда все (все ли?) книги, выложенные в рамках проекта гугля. Не имею представления, что это за юзер такой - живой человек, группа людей или просто робот. В частности, благодаря этому не то человеку, не то учреждению, не то роботу туда попали все те же тома РИО.

Среди выложенных книг имеются и изданные относительно недавно - скажем, имеются академические издания 60-х и 70-х годов.

Я в виде эксперимента зарегистрировал там аккаунт и выложил несколько публикаций. Похоже, делается это очень легко. Если выкладывать djvu-файлы, то они так и остаются, больше ничего к ним не добавляется, а если выкладывать pdf-файлы, то они, помимо того, что оказываются доступными для читателя, попадают и в какие-то внутренние шестеренки проекта, в результате чего параллельно с ними генерируются - 1) djvu-версии той же публикации, 2) текстовая расшифровка и 3) "Flip Book", то есть опция чтения книги с экрана с виртуальным перелистыванием страниц по одной или сразу по многу. Опять же, не уловил, кто это делает - робот ли или какие-нибудь живые энтузиасты. Эксперимент показал, что расшифровка английского текста там достаточно эффективна, русский текст превращается в абракадабру и пользоваться им бессмысленно, а флип-книги из моих файлов почему-то не получились - линки есть, а книгу не видно.

Система не дает возможности полнотекстового поиска, имеющегося в гугле, а ограничивает его названием, автором и ключевыми словами. Ключевые слова проставляет владелец аккаунта, поэтому надо не жалеть и расставлять их побольше и поаккуратнее.

Заметил еще, что система плохо распознает языки. Русские тексты она атрибутирует то как чешские, то как словенские, так что через некоторое время приходится исправлять этот параметр вручную.

Как мне показалось, в среде русских пользователей этот ресурс используется совершенно недостаточно. Думаю, что тем, кто самолично занимаются полезным делом оцифровки книг и журналов, следует как минимум дублировать свои выкладывания на этот ресурс (если, конечно, они не озабочены генерированием трафика на свои собственные сайты) - для надежности, удобства и т.д. В первую очередь это относится к тем, кто оцифровывает издания относительно редкие - старинные, специализированные, выпущенные некоммерческими, немассовыми, академическими и т.д. издательствами, отсутствующие в текущей продаже, адресованные сравнительно узкому кругу читателей. Выкладывание таких изданий связано, судя по всему, с меньшими шансами конфликта по поводу т.н. "копирайта".
Subscribe
  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 39 comments