Boris Lvin ([info]bbb) wrote,
@ 2009-05-09 15:59:00
Previous Entry  Add to memories!  Tell a Friend  Next Entry
Полнотекстовые книги онлайн
Все-таки революция совершается прямо на наших глазах. Например, ютуб уже, наверно, назад в кувшин не затолкать - то есть создана универсальная система бесплатного и мгновенного доступа к музыкальным клипам. Конечно, их качество остается намного меньше полноценного сидишного, но это ничего: те, кто не готов потратить деньги ради продукта максимально высокого качества, не отсекаются от доступа к музыке вообще.

То же и с книгами. pdf и djvu - замена настоящей книги для того, у кого нет времени, денег, места в доме и т.д. для приобретения профессионально напечатанного и переплетенного издания.

В рамках этой общей революции произошел совершенно неожиданный переворот в смысле доступности старых книг. Если еще вчера-позавчера книга, изданная в последние, скажем, сорок лет была еще более или менее доступна широкому читателю (магазин, массовая библиотека), то с изданиями столетней давности было намного сложнее - они хранились только в крупнейших библиотеках, часто с ограниченным доступом читателей. Теперь, в результате гигантского проекта гугля, буквально миллионы изданий до 1922 года выложены онлайн, в том числе многие тысячи книг и журналов на русском языке. Вот год назад я случайно обнаружил сборники РИО, а это только малая часть выложенного.

Параллельно идет массовый и децентрализованный процесс оцифровывания книг индивидуальными энтузиастами, многие из которых размещаются на крайне неудобных коммерческих сайтах типа rapidshare.com или распространяются по файлообменным системам типа torrents.ru

И там, и там имеются проблемы. Доступ к оцифрованным книгам гугля, похоже, сильно ограничен территориально - вне США он оказывается намного меньшим, чем в США. Хранение книг на коммерческих файлохранилищах, как я понимаю, ограничено по срокам и трудностью рубрикации и поиска.

Поэтому мне кажется особо перспективным проект Text Archive - http://www.archive.org/details/texts

Там любой может зарегистрировать аккаунт и выкладывать тексты изданий. Можно это делать целыми коллекциями. Например, кто-то выложил т.н. "André Savine Collection" - коллекцию белогвардейских и власовских изданий, хранящуюся в библиотеке университета Северной Каролины в Чепел Хилл (http://www.archive.org/search.php?query=collection%3A%22savmil%22). А какой-то юзер tpb подряд копирует туда все (все ли?) книги, выложенные в рамках проекта гугля. Не имею представления, что это за юзер такой - живой человек, группа людей или просто робот. В частности, благодаря этому не то человеку, не то учреждению, не то роботу туда попали все те же тома РИО.

Среди выложенных книг имеются и изданные относительно недавно - скажем, имеются академические издания 60-х и 70-х годов.

Я в виде эксперимента зарегистрировал там аккаунт и выложил несколько публикаций. Похоже, делается это очень легко. Если выкладывать djvu-файлы, то они так и остаются, больше ничего к ним не добавляется, а если выкладывать pdf-файлы, то они, помимо того, что оказываются доступными для читателя, попадают и в какие-то внутренние шестеренки проекта, в результате чего параллельно с ними генерируются - 1) djvu-версии той же публикации, 2) текстовая расшифровка и 3) "Flip Book", то есть опция чтения книги с экрана с виртуальным перелистыванием страниц по одной или сразу по многу. Опять же, не уловил, кто это делает - робот ли или какие-нибудь живые энтузиасты. Эксперимент показал, что расшифровка английского текста там достаточно эффективна, русский текст превращается в абракадабру и пользоваться им бессмысленно, а флип-книги из моих файлов почему-то не получились - линки есть, а книгу не видно.

Система не дает возможности полнотекстового поиска, имеющегося в гугле, а ограничивает его названием, автором и ключевыми словами. Ключевые слова проставляет владелец аккаунта, поэтому надо не жалеть и расставлять их побольше и поаккуратнее.

Заметил еще, что система плохо распознает языки. Русские тексты она атрибутирует то как чешские, то как словенские, так что через некоторое время приходится исправлять этот параметр вручную.

Как мне показалось, в среде русских пользователей этот ресурс используется совершенно недостаточно. Думаю, что тем, кто самолично занимаются полезным делом оцифровки книг и журналов, следует как минимум дублировать свои выкладывания на этот ресурс (если, конечно, они не озабочены генерированием трафика на свои собственные сайты) - для надежности, удобства и т.д. В первую очередь это относится к тем, кто оцифровывает издания относительно редкие - старинные, специализированные, выпущенные некоммерческими, немассовыми, академическими и т.д. издательствами, отсутствующие в текущей продаже, адресованные сравнительно узкому кругу читателей. Выкладывание таких изданий связано, судя по всему, с меньшими шансами конфликта по поводу т.н. "копирайта".


(38 comments) - (Post a new comment)


[info]vadim_i_z
2009-05-09 08:12 pm UTC (link)
О, спасибо. Дам ссылку на Ваш пост у себя... Если, конечно, не возражаете.

Edited at 2009-05-09 08:12 pm UTC

(Reply to this) (Thread)


[info]bbb
2009-05-09 08:31 pm UTC (link)
Если, конечно, не возражаете

))))

(Reply to this) (Parent)


[info]duboff
2009-05-09 08:25 pm UTC (link)
Есть такой сайт gigapedia.org, там можно найти очень много книг в пдф. Искать не очень удобно (надо регистрироваться, потом делать поиск и нажимать links) и книги там лежат на тех же rapidshare etc, но часто можно найти то, чего нет в других местах.

(Reply to this) (Thread)


[info]man_suit
2009-05-09 10:36 pm UTC (link)
Через ebdb.ru очень удобно искать, он выдает ссылки на гигапедию.

(Reply to this) (Parent)


[info]cunctator_
2009-05-10 12:24 am UTC (link)
Для ленивых есть ebdb.ru :)

(Reply to this) (Parent)


[info]oumnique
2009-05-09 08:28 pm UTC (link)
Спасибо за информацию.

(Reply to this)


[info]isl
2009-05-09 08:33 pm UTC (link)
Спасибо. Сайт давно знаю, но вот коллекции Савина не видел.

Книги, видимо, не все с гуглбукс "транслируются". Например, вот этой не нашел
http://books.google.com/books?id=u3BAAAAAIAAJ&pgis=1
а она давно на гуглбукс лежит. Или скажем сборников постановлений сената Великого княжества Финляндского вроде бы нет.

(Reply to this) (Thread)


[info]bbb
2009-05-09 08:36 pm UTC (link)
она давно на гуглбукс лежит

Нет, не лежит. Точнее, она не выложена в категории "full view", о которой только и идет речь.

(Reply to this) (Parent)(Thread)


[info]isl
2009-05-09 08:39 pm UTC (link)
Я ее ка-то скачал в свое время оттуда через какие-то анонимные прокси.

(Reply to this) (Parent)(Thread)


[info]bbb
2009-05-09 08:46 pm UTC (link)
Проверил - да, она лежит в полном виде, только по другому линку (http://books.google.com/books?id=k3BAAAAAIAAJ) и в издании 1916 года, а ваш линк ведет на издание 1909 года, которое в полном виде отсутствует.

(Reply to this) (Parent)


[info]bbb
2009-05-09 08:48 pm UTC (link)
Получается, что tpb - это все-таки не робот. Или - ошибающийся робот :)

(Reply to this) (Parent)(Thread)


[info]vadim_i_z
2009-05-18 09:31 pm UTC (link)
tpb уже засуспендили...

(Reply to this) (Parent)(Thread)


[info]bbb
2009-05-18 09:35 pm UTC (link)
А как вы узнали? Я вот смотрю - последняя книга, выложенная с этого аккаунта, помечена сегодняшним числом: http://www.archive.org/details/talesfromgerman00unkngoog

(Reply to this) (Parent)(Thread)


[info]vadim_i_z
2009-05-18 09:53 pm UTC (link)
Я неточно выразился. Засуспендили tbm из ЖЖ - слово "юзер" у меня по умолчанию ассоциируется именно с Живым Журналом. Обючно ники при переходе с форума на форум сохраняются.
Но, возможно, я и ошибся.

(Reply to this) (Parent)(Thread)


[info]bbb
2009-05-18 10:48 pm UTC (link)
Вообще-то "tbp" - это распространенная аббревиатура знаменитого The Pirate Bay. Есть ли между ними связь - не знаю. Вот тут пишут, что, де, все это делается с согласия архив.орг и участвующих библиотек - http://www.haloscan.com/comments/onthemainline/5363048587234159691/

(Reply to this) (Parent)


[info]bbb
2009-05-18 09:38 pm UTC (link)
Вот что я заметил - так это что в левой колонке описания линк на pdf для книг, взятых с гугля, стал указываться прямо на гугль. Но это просто условность, так как такая же копия хранится на их сервере и вполне доступна отовсюду, а djvu-вариант только у них и доступен.

(Reply to this) (Parent)


[info]bbb
2009-05-10 08:32 pm UTC (link)
Пожалте бриться - http://www.archive.org/details/NevaINienshants

Там пока еще идет процесс переваривания, поэтому, в частности, внесенные мной вручную поправки (скажем, замена ошибочно проставленного чешского языка на русский) могут быть еще не видны. То же самое относится к djvu-версии, которая появится, вероятно, через день или два.

(Reply to this) (Parent)


[info]birdwatcher
2009-05-09 09:34 pm UTC (link)
Подождите. Десять лет назад все были абсолютно уверены, что Напстер тоже в кувшин не затолкать.

(Reply to this) (Thread)


[info]uxxu
2009-05-10 11:22 am UTC (link)
условный "напстер" так и не затолкали, музыкальных трекеров полно.
а вот с ютубом борьба идет достаточно успешно, половину моих фейворитсов запилили.

(Reply to this) (Parent)


[info]grey_horse
2009-05-10 11:45 am UTC (link)
И не затолкали ведь, напстероподобный SoulSeek (http://www.slsknet.org) работает по сей день.

(Reply to this) (Parent)


[info]ermiak
2009-05-10 12:44 pm UTC (link)
Угу, затолкали на свою голову и получили децентрализованные сети.

(Reply to this) (Parent)


[info]zaxar_borisych
2009-05-10 01:07 pm UTC (link)
никто не был уверен, что их не купит BestBuy.

(Reply to this) (Parent)


[info]malaya_zemlya
2009-05-12 01:15 am UTC (link)
C Ютюбом все гораздо сложнее. Проект это убыточный, и существует он целиком и полностью за счет гуглевсих дотаций. Пока что у гугля деньги есть и много, особых проблем в ближайшем будущем не предвидится. Но если деньги вдруг кончатся, то все, обратно в каменный век. Никто другой тянуть такой гиганский сервис скорее всего не захочет.

(Reply to this) (Parent)(Thread)


[info]bbb
2009-05-12 01:33 am UTC (link)
Черт его знает. Я погуглил, и вроде бы источник этих разговоров - рассказ о каком-то анализе, сделанном Креди Сюиз - http://www.multichannel.com/article/191223-YouTube_May_Lose_470_Million_In_2009_Analysts.php Насколько надежны их расчеты (прежде всего издержек) - судить не могу. Так же не могу судить, насколько убедительно мнение, что, дескать, рекламу вставлять нельзя, так как нет согласия тех, кто загружает ролики (http://www.webtvwire.com/youtube-money-making-machine-or-financial-black-hole-the-debate-rages-on). Неужели так сложно добавить к форме для заливки роликов маленькую кнопочку, означающую согласие на рекламу?

(Reply to this) (Parent)(Thread)


[info]malaya_zemlya
2009-05-12 02:12 am UTC (link)
* Насколько надежны их расчеты (прежде всего издержек) - судить не могу

Цифра неточная, конечно, но проблема существует.

Хотя... если сравнить издержки на покупку и содержание Ютюба с состоянием владельцев гугла, то получается по пропорции примерно так же, как среднему американцу купить себе широкоэкранный телевизор и подписку на кабель.

:Так же не могу судить, насколько убедительно мнение, что, дескать, рекламу вставлять нельзя, так как нет согласия тех, кто загружает ролики (http://www.webtvwire.com/youtube-money-making-machine-or-financial-black-hole-the-debate-rages-on).

Тут же важен не сам факт наличия рекламы, а контекст. Не всякому рекламодателю хочется, чтобы его продукт ассоциировался с хомяком, падающем с пианино. С другой стороны, у рекламы в роликах очень плохая отбивка. Народу хочется клип смотреть, а не рекламу. Вместе получаем финансовый

:Неужели так сложно добавить к форме для заливки роликов маленькую кнопочку, означающую согласие на рекламу?

Технически - не сложно, а с юридической, думаю, нетривиально. Любой код, прикасающийся к деньгам, сразу попадает под столько законов и предписаний, что волосы дыбом встают. Плюс, более-менее безобидное пиратство, за которое только и скажут "безобразие! Надо убрать!" сразу превращается с пиратство с целью извлечения прибыли.

(Reply to this) (Parent)


[info]birdwatcher
2009-05-12 01:36 am UTC (link)
По-моему, чем больше у Гугла денег, тем плодотворнее с ним судиться за содействие пиратству.

(Reply to this) (Parent)(Thread)


[info]malaya_zemlya
2009-05-12 02:15 am UTC (link)
У Гугла тоже акулы-адвокаты есть.
Посмотрим, чем Google v. Viacom закончится. У дела есть все шансы дойти до Верховного Суда.

(Reply to this) (Parent)


[info]bbb
2009-05-12 02:22 am UTC (link)
Тут может получится прикладная политэкономия. Можно будет посмотреть, достигла ли популярность ютуба таких масштабов, чтобы разрушительный иск против него обернулся против истцов. Скажем, напстером пользовались школьники-студенты, а не мейнстримный средний класс. И нельзя исключить, что всякие лейблы и прочие акулы сидюка отдают себе отчет в долгосрочной (и даже среднесрочной) шаткости своих позиций. Думаю, никогда еще антикопирайтная идеология не была такой массовой, а ведь это только еще начало.

(Reply to this) (Parent)(Thread)


[info]birdwatcher
2009-05-12 02:33 am UTC (link)
По-моему, с количеством пользователей эта предполагаемая разрушительность не связана. Марихуану тоже все поголовно курили, что на законодательстве не сказалось никак. Это уже национальная идея, всё.

(Reply to this) (Parent)


[info]vasja_iz_aa
2009-05-10 07:22 pm UTC (link)
К этому списку можно еще добавить музыкальное интернетное радио, которое сейчас парой хороших проектов представлено. Мне pandora.com очень нравится, удобно слушать.

(Reply to this)


[info]3porosya
2009-05-11 01:39 am UTC (link)
На этом Text Archive все по-английски, русского нет. Что там найдешь?

(Reply to this) (Thread)


[info]bbb
2009-05-11 01:47 am UTC (link)
Не по-английски, а латинским шрифтом. Если использовать в поиске латиницу, то находится очень многое. Более того, там вполне работает и поиск по-русски, просто до сих пор очень мало кто, выкладывая тексты на русском языке, добавлял кириллическое название в поле описания. Я попробовал - у меня получилось, и поиск на добавленные слова работает.

(Reply to this) (Parent)


[info]khebeb
2009-05-11 07:12 am UTC (link)
насчет ограниченного доступа к гбукз извне пределов США - заходите из под тора, прикинувшись американцем, и будет вам щастье (то же касается получения эккаунтов на mesh.com и т.п.)
перетасканные на рапиду русские книжки с гбукс см на:
www.archeologia.ru/modules/forum/viewtopic.php?t=2142
регулярно пополняется

(Reply to this) (Thread)


[info]bbb
2009-05-11 12:43 pm UTC (link)
перетасканные на рапиду русские книжки с гбукс см на:
www.archeologia.ru/modules/forum/viewtopic.php?t=2142
регулярно пополняется


Так о том и речь, что они же давно уже лежат на архиве.орг, с более удобным и быстрым доступом, сразу в нескольких форматах (как минимум pdf и djvu, причем pdf часто в двух вариантах, цветной и черно-белый). И не надо мучений с рапидшарой.

(Reply to this) (Parent)


[info]willemoa
2009-05-11 01:39 pm UTC (link)
Сенкс

(Reply to this)


[info]heart_0f_tiger
2009-05-11 02:18 pm UTC (link)
Непонятна только грядущая судьба обычных библиотек. Реально встает вопрос "зачем ты здесь?". Единственная ниша, которую я вижу - деградация в сельский клуб любителей Донцовой и Марининой. Ну и профильные, при школах и вузах, хотя и это уже под вопросом.

(Reply to this)


[info]malaya_zemlya
2009-05-12 01:19 am UTC (link)
Про сканирование книг в google books:
http://www.npr.org/blogs/library/2009/04/the_granting_of_patent_7508978.html?sc=fb&cc=fp

(Reply to this) (Thread)


[info]bbb
2009-05-12 01:36 am UTC (link)
А переворачивалка страниц там тоже автоматическая?

(Reply to this) (Parent)


(38 comments) - (Post a new comment)

Create an Account
Forgot your login or password?
Login w/ OpenID
English • Español • Deutsch • Русский…