Оцифровка печатных текстов

Оцифровка печатных документов — это перевод их изображения, полученного обычно через сканер или фотоаппарат, в какой-либо электронный формат.

Это руководство осветит все практичные способы оцифровки, доступные широкому кругу пользователей персональных компьютеров.

Об электронных книгах

«Электронные книги» — это хранимый в компьютере текст, оформленный в виде, свойственном печатным книгам. Так, электронные книги обычно дробят содержимый текст на равноразмерные нумерованные страницы; их типографика соответствует уровню печатных изданий. Важно сразу же различать сканированные и вёрстанные электронные книги.

Вёрстанные книги — это либо материал, подготовленный авторами в издательской системе, либо распознанная и вручную вычитанная и отформатированная бумажная книга. Исходником является обычно файл в формате наглядного текстового процессора (OpenOffice.org или Word) или на языке разметки (LaTeX). О подробностях редактирования электронных текстов в текстовых процессорах вы можете почитать в викиучебнике «работа с электронным текстом». Конечным результатом является электронная книга в формате PDF (Adobe Portable Document Format), реже ПостСкрипт (Adobe PostScript) или DVI. Такие файлы обычно содержат векторные шрифты и иллюстрации высокого качества, поэтому они пригодны для печати в любом разрешении, для просмотра на экране, и для поиска по тексту книги (включая возможность выделять и копировать куски текста и иллюстрации). Файлы этого вида кратко будем называть векторными. Типичные векторные PDF-файлы имеют размеры от 3 (редко) до 10—15 килобайт на страницу, в зависимости от числа формул и иллюстраций.

Сканированные книги — это файлы, хранящие целые электронные изображения каждой страницы книги. Такие файлы делаются путём сканирования бумажной книги постранично и дальнейшей обработки с целью улучшения качества и уменьшения размеров файла. Поскольку каждая страница хранится в виде ряда точек (растра), то такие книги можно кратко называть растровыми, чтобы отличить их от векторных. Основные форматы, употребляющиеся для растровых файлов, — это PDF и DJVU. В этих форматах можно добавить также и распознанный текст, закладки и гиперссылки, чтобы были возможны быстрые переходы по книге и автоматический поиск текста. Поэтому качественно сделанные растровые книги не менее удобны в использовании, чем векторные, и несущественно проигрывают им в качестве распечатанного текста. Типичный размер растровой книги — от 5 (редко) до 10—15 килобайт на страницу, в зависимости от разрешения и качества текста или иллюстраций.

Производство векторной электронной книги из бумажной книги путём компьютерного распознавания (OCR) связано с колоссальными затратами труда, особенно если книга содержит много иллюстраций, графиков, диаграмм, таблиц, или формул, ибо нынешнее состояние распознавательных программ заставляет форматировать всё это вручную, и нередко — исправлять ошибки распознавания текста. Поэтому для таких книг гораздо легче делать именно растровые, а не векторные электронные версии. Даже в чисто текстовых книгах — без иллюстраций, таблиц или формул — автоматическое распознавание порой даёт трудновыявимые ошибки. Гораздо быстрее приготовить растровую электронную книгу, тем более что современная технология сжатия изображений позволяет делать файлы вполне приемлемого размера. Например, средний размер растровых книг, включая распознанный текст — 13 КБ на страницу. Это означает, что растровая книга, имеющая 400 страниц, в среднем занимает около 5 МБ (цифры приводятся для формата DJVU). На стандартном ДВД-носителе (4,3 ГБ) может поместиться около 900 таких книг.

Некоторые программы позволяют делать файлы формата PDF, в которых весь плохо распознанный материал содержится в виде отсканированных картинок, а текст является векторным. Такие PDF-файлы однако сильно проигрывают чисто растровым книгам и по внешнему виду (нестыковка векторных шрифтов и фрагментов изображения страницы), и по размеру файлов.

Юридические тонкости оцифровки

По существующим в большинстве стран законам, книги являются объектами одновременно авторского и имущественного права. Имущественное право — это право на распространение и продажу книги, а также право на любое копирование или даже бесплатное распространение через интернет. Автор книги имеет особые права, такие, как требовать признания авторства или заключать контракты с издателями. Если данная книга является объектом имущественного права, это означает, что её нельзя копировать или вообще как-либо распространять (даже бесплатно) без разрешения правообладателя.

На каждой книге среди выходных данных указаны обладатели имущественного права и, соответственно, ограничения на распространение книги. Однако имущественное право на книги имеет конечный срок давности, — это обычно 50 лет (в некоторых странах 75 лет) после смерти автора и 75 лет (в США — 95 лет) со времени публикации книги. В России и других странах бывшего СССР имеет место особая ситуация с книгами, вышедшими до 1971 года, поскольку лишь в 1971 году СССР вступил в международную конвенцию по авторским правам. Поэтому книги, вышедшие в СССР до 1971 года, как правило (есть и исключения), не являются больше объектами имущественного права. Книги, изданные в США до 1924 года включительно, или в Европе до 1932 года включительно, тоже, как правило, уже больше не являются объектами имущественного права.

Законной является оцифровка книг, права на которые истекли, или книг, авторы и издатели которых разрешают их свободное распространение через интернет или другим образом (например, если автор выложил на интернет-странице электронную книгу после того, как издательство вернуло ему все имущественные права). Учтите, что законом запрещается оцифровывать или копировать (в том числе через бесплатные или платные интернет-сайты) электронные книги, являющиеся в настоящее время объектами имущественного права. Хранение таких электронных книг на вашем личном компьютере уже является копированием и также запрещено, за исключением того случая, если вы сами купили эту книгу у издательства в электронном виде. Даже если у вас есть купленный вами бумажный экземпляр какой-либо книги, защищенной имущественным правом, закон запрещает вам изготавливать оцифрованную версию этой книги или хранить на своём компьютере где-либо взятую оцифрованную версию, если только вы сами не купили электронную книгу у издательства, дополнительно к бумажному экземпляру.

Мы призываем вас знать и соблюдать законы той страны, где вы живете, и оцифровывать только материалы, не являющиеся объектами имущественных прав. Данное руководство по оцифровке книг имеет чисто технический характер и не может рассматриваться как инструкция по нарушению закона. Ссылки на интернет-источники предоставляются только в целях ознакомления с техникой оцифровки.

Форматы DJVU и PDF

Формат DJVU позволяет сжимать растровое изображение несколько лучше, чем PDF, просматривается несколько быстрее, а также более удобен в технической обработке. Например, есть простые и бесплатные программные средства для редактирования гиперлинков, закладок и OCR-слоя в DJVU, но таких средств нет для PDF. Также файлы DJVU более устойчивы к сбоям, чем PDF, и менее зависимы от версии просмотрщика, поскольку формат DJVU гораздо проще. Недостаток DJVU: возможность внести искажения при сильном сжатии и большое количество разных режимов сжатия приводят к тому, что сделать некачественный файл начинающему пользователю довольно легко. Также DJVU-файлы (по теперешнему стандарту) позволяют делать гиперлинки на другую страницу того же документа, но не на другой файл, не на сайт интернета, и не на выбранное место на данной странице (это можно делать в PDF). Однако формат DJVU несложен, документирован и содержит гибкий механизм добавления метаинформации: к каждой странице можно добавлять произвольную информацию в виде нескольких пар key=value. Поэтому в принципе можно сделать всё это и многое другое (например проверку md5sum или криптографическую подпись) средствами формата DJVU.

Главное достоинство формата PDF — широкая совместимость (у всех есть бесплатный Acrobat Reader или его аналоги) и тот факт, что большинство людей пока ничего не знают о формате DJVU. Однако, надо заметить, что программы для просмотра DJVU тоже бесплатные и требуют гораздо меньших ресурсов компьютера, чем Acrobat Reader. Недостатки PDF в основном технические, но они существенны. Главный недостаток — невозможность определить разрешение растра, находящегося внутри PDF. Это приводит к сильным потерям в качестве изображения при попытках улучшить качество неоптимально сделанного растрового PDF-файла. Неоптимальные PDF-файлы могут иметь размеры 100—200 КБ на страницу и даже более. Оптимальный растровый PDF тратит от 10 до 20 КБ на страницу, что примерно на 30—50 % больше, чем DJVU. Другие недостатки формата PDF — невозможность эффективно редактировать файлы и чувствительность к сбоям при передаче файлов. Сбойный файл часто невозможно просмотреть даже частично. К техническим недостаткам формата PDF относится и то, что иногда не получается произвести оптимизацию размера файла, которая в принципе была бы возможна, если бы формат PDF был лучше спроектирован.

1. Чтобы определить разрешение растра, находящегося внутри готового PDF, можно воспользоваться функционалом Adobe Acrobat (описываю по версии 5.0). Извлекаем изображения из pdf-файла: File -> Export -> Extract Images As -> TIFF Files. В разделе Settings выбрать Colorspace: Determine Automatically и Resolution: Determine Automatically. Сохраненные изображения открыть в Irfan View и нажать кнопку «Image Information». Работает для большинства pdf-файлов. За редким исключением. Иногда действительно попадаются файлы, которые не поддаются такой обработке (Acrobat выдает ошибку типа: XObject cannot be extracted). 2. Чтобы установить разрешение растра, который будет получен в pdf при печати изображения на виртуальный принтер Distiller (описываю по версии 5.0), нужно выбрать в свойствах принтера пресет «Screen» (Принтер -> Свойства -> Общие — Настройка печати -> Adobe PDF Settings — Conversion Settings: Screen). Чуть ниже в этом же диалоге нажать кнопку Edit Conversion Settings, на закладке Compression снять галочки со всех Average Downsampling. Тогда разрешение изображений меняться не будет. (Или выставить в 600 dpi. Тогда только изображения с большим разрешением будут приводится к 600 dpi.) Пресет сохранить под новым именем, скажем, Screen-fullresolution. 3. Чтобы оптимизировать размер pdf-файла нужно в Adobe Acrobat пересохранить документ через меню File -> Save As… (Ctrl-Shift-S). При внесении исправлений в документ (добавление/удаление комментариев и пр.) и сохранении нажатием Save (Ctrl-S) размер файла только увеличивается (даже если вы все внесенные изменения «удалите»). То есть Save сохраняет быстро, но некомпактно, а Save As сохраняет компактно, но долго. Иногда компактизировать документ помогает печать pdf-документа на Distiller (т. н. redistilling). Следует быть осторожным, в неанглоязычных документах могут возникнуть проблемы с отображением шрифтов.

Проиллюстрируем соотношение размеров PDF- и DJVU-файлов. Перевод в формат DJVU типичной отсканированной издательством статьи из журнала Physical Review (у них высокое разрешение и хорошее качество сканирования) уменьшает размер издательского PDF-файла в 10 раз. Во многих случаях перевод из векторного PDF в DJVU, даже с высоким качеством изображения и сохранением текста и навигации, всё равно даёт файл DJVU меньшего размера, чем исходный PDF. Это очень часто относится к файлам, созданным такими программами, как Quark Express, Acrobat Distiller (но не к файлам, созданным с помощью Latex/Ghostscript). Иногда векторные PDF-файлы содержат много формул в виде вставных растров; такие файлы уменьшаются в 3—4 раза при переводе в DJVU.

Именно технические достоинства формата DJVU и возможность автоматизированно обрабатывать DJVU-файлы привели к широкому использованию формата DJVU среди энтузиастов создания растровых электронных книг, в основном научно-технического характера.

Приспособления для сканирования

Получать изображение документа можно сканером или фотоаппаратом. Качественных различий между ними нет, но и у сканеров, и фотоаппаратов есть свои достоинства и недостатки.

Достоинства фотоаппаратов

Их недостатки

Скорость сканирования — мгновения.
Можно снимать где угодно, хоть прямо в библиотеке.
Фотографировать можно не только изображение на бумаге.

Низкое разрешение; необходимость почастной съёмки (и склейки частей) для получения высокого.
Может быть широкоугольное искажение (выпуклость или дисторсия) изображения, пагубность которого особо проявляется на иллюстрациях.
Сложно настраивать для достижения высокого качества.

Достоинства сканеров

Их недостатки

Высочайшее качество цветопередачи.
Высокая разрешающая способность.
Полное отсутствие искажений в случае плоских и плотно прилагаемых документов

Относительно низкая скорость.
Величина и громоздкость, за исключением ручных сканеров.
Большие различия моделей, приводящие к невозможности описания простого алгоритма настройки.
Ограниченность размера; иногда — невозможность качественно отсканировать большой лист по частям.
Часто — требование плотного прилегания разворота книги к сканеру, что её повреждает.

Теперь подробнее обо всех упомянутых особенностях.

Фотоаппарат

Скорость сканирования полностью настроенным фотоаппаратом ограничивается в основном скоростью, с которой пользователь может сменять оригиналы перед объективом и жать на кнопку съёмки. То, что можно пристроиться в тихом уголке библиотеки и там работать сколько душе угодно — экспериментальный факт. Но проблемы начинаются, если потребовать хотя бы минимального качества получаемых документов. Печать на современных принтерах идёт с разрешением от 300 (отмирает) до 2400 (и даже до 4800 в новейших моделях фотопринтеров) точек на дюйм (dots per inch, далее сокращённо dpi). Чтобы получить качественный отпечаток размера 1:1, необходимо иметь оригинал, оцифрованный с тем же разрешением. Таким образом, мы приходим к размеру оригинала, который может за раз оцифровать фотоаппарат, к примеру в 6 мегапикселей с минимально допустимым качеством:

в ширину

3000 пикселей / 300 точек на дюйм × 2,54 см на дюйм = 25,4 см,

и в высоту

2000 пикселей / 300 точек на дюйм × 2,54 см на дюйм = 16,9 см.

Поэтому удобнее использовать фотоаппараты с большим числом мегапикселей.

Теперь немного стандартов: лист формата А4 имеет размеры 297×210 мм, размер разворотов самых распространённых форматов книг — примерно такой же или чуть меньше: 19,5 см в высоту. В принципе, остаётся ещё один вариант, не предъявляющий столь высоких требований к разрешению — распознавание (OCR), но и тут есть подводные камни: во-первых, распознавание применимо лишь к книгам, содержащим текст безо всяких усложнений: химических и математических формул, иллюстраций или фотографий, во-вторых, нет никаких гарантий отсутствия искажения текста при распознавании на столь низком разрешении. Только тщательная последующая вычитка и проверка текста снижает количество ошибок и помогает избавиться от них полностью (или хотя бы до уровня ГОСТа — 1 опечатка на авторский лист, то есть на 40000 знаков).

Чтобы обеспечить высокое качество изображения, надо фотографировать книги постранично или даже кусками страниц — в случае крупноформатных изданий. Про прочие оригиналы уже и говорить не приходится.

Однако после получения изображений кусками их необходимо склеивать. Это делают программы для сбора панорамных снимков, осуществляющие автоматическую склейку изображений, аналогичные программные продукты существуют также для сканированных изображений. Пользоваться ими легко.

Второй способ сшивки — это знаменитый Фотошоп или его бесплатный аналог GIMP (Гимп). Менее удобно и требует ручной доводки.

Для получения частичных изображений надо двигать оригинал или фотоаппарат, соблюдая одинаковое освещение. Из-за этого, а также возможной у плохих фотоаппаратов бочкообразной дисторсии, склейка изображений не позволяет добиться их равномерности. Поэтому надо брать штатив и выбирать освещение, чтобы избавиться от таких искажений.

Далее — «шевелёнка». Руки с фотоаппаратом дрожат, что приводит к размазыванию изображения, причём известно эмпирическое правило для его устранения: выдержка должна быть меньше обратного фокусного расстояния. При библиотечных условиях съёмки надо увеличить количество снимков и повысить чувствительность, и никакой «шевелёнки» не будет.

Итак, штатив при съёмках очень желателен. Нужно также заботиться об одинаковой подсветке.

Качество съёмки будет наилучшим при специальных настройках фотоаппарата. Желательно, чтобы фотоаппарат имел возможность сохранения данных с матрицы без сжатия, в так называемый RAW-формат, хотя можно снимать в качественный JPEG. Для постоянного характера снимков для их последующей пакетной обработки надо выдерживать одинаковую диафрагму, фокусировку и выдержку. Иными словами, надо знать свой фотоаппарат и уметь им пользоваться.

При этом дополнительные сложности вызывает объём сохраняемых RAW-файлов. Они способны полностью исчерпать память фотоаппарата за какие-нибудь триста-пятьсот снимков. В самом деле, с матрицы 6-мегапиксельного аппарата обычно снимается порядка 6×4=24 МБ данных за раз, а существенного сжатия без потери качества фотоаппараты делать не умеют (да это и не нужно при обычной фотосъёмке). Поэтому надо иметь большую карточку памяти — не менее 1 ГБ.

Основные моменты сканирования

Есть два основных метода сканирования: целым разворотом и по одной странице. При любом методе части страницы, где находится текст, должны быть полностью прижаты к стеклу — иначе возникает характерное затемнение в области корешка из-за наклонного падения света лампы подсветки (в любых сканерах) и размывание текста из-за малой глубины резкости (только в CIS-сканерах). Поэтому практически невозможно хорошо отсканировать книги, которые плохо открываются. (Существует, однако, специальный сканер OpticBook 3600, позволяющий сканировать книгу, открытую на 90 градусов. Этот сканер пока имеет драйверы только под Windows.) При сканировании разворотом, если книга полностью не влезает на стекло, может возникать дополнительное размытие текста на краю страницы из-за того, что текст не прижат к стеклу (только в CIS-сканерах). Всё это необходимо тестировать перед началом сканирования и определить оптимальный метод.

Необходимо также определить оптимальную рамку сканирования и контрастность. Это можно подобрать только методом проб и ошибок, но это необходимо подобрать правильно перед сканированием. Желательно также сразу же установить гамму и точки белого и чёрного, если это позволяет софт Вашего сканера.

Класть книгу абсолютно ровно, без перекосов, у Вас всё равно не получится, но это и не нужно, так как выравнивание можно проделать автоматически специальным софтом на стадии обработки сканов. Разрезание отсканированных разворотов и выравнивание полей тоже делается почти автоматически.

Иногда имеет смысл сделать ксерокс с книги и сканировать этот ксерокс. Дело в том, что в ксерокс-машинах гораздо больше глубина резкости, чем у сканеров, и поэтому удаётся скопировать участки текста, прилегающие к корешку книги, даже если книга плохо раскрывается. Кроме того, ксероксы специально делают повышение контрастности изображения, что позволяет избавиться от серого фона страниц и максимально уменьшить затемнение в середине разворота.

Софт для управления сканером можно использовать любой, например VueScan (есть для Windows / Linux), Irfan View (Windows), XnView (Windows), gimp/sane (Linux). Поддержка сканеров для Linux/Mac гораздо хуже, потому что как правило все производители делают драйверы только для Windows.

НЕ СЛЕДУЕТ пользоваться программой FineReader для сканирования текста при создании электронных книг, потому что FineReader автоматически делает неаккуратное выпрямление косых сканов, из-за которого в изображении появляются «изломы». Эти изломы не мешают при распознавании текстов, но плохо выглядят в растровом варианте отсканированной книги.

Пример отсканированного текста, в котором появились «изломы» из-за сканирования в FineReader

Софт для сканирования желательно использовать такой, чтобы получить сырые сканы в формате TIFF (не JPG, так как неизбежна потеря качества!), поименованные автоматически, например, так: page0001.tiff, page0002.tiff и так далее.

При сканировании по одной странице бывает удобнее сканировать сначала все четные страницы, потом все нечетные, и только потом переименовать все файлы автоматически по возрастанию номеров. При сканировании из XnView можно сразу указать, что сканируются только чётные или только нечётные страницы, — номера будут проставляться автоматически.

Разрешение (цифра «dpi» — количество пикселей на дюйм) и глубина цвета (черно-белый — 1 бит, серый — 8 бит, цветной — 24 бит) — самые важные параметры сканирования. Софт для сканера должен давать пользователю возможность выбрать эти параметры непосредственно, а не просто выбирать между непонятными режимами типа «текст» — «рисунок» — «фото для интернета». Сканер должен поддерживать разрешение как минимум 600 dpi; других сканеров сейчас не продают, а больше 600 dpi практически никогда не требуется. Сканировать можно либо в 600 dpi, либо в 300 dpi. Никогда не сканируйте в 150 или 200! Время при этом Вы не сможете сэкономить, а качество будет безвозвратно утеряно.

Здесь автор несколько категоричен. Сканирование в низком разрешении (200, 150, а иногда даже 100 dpi, но в полутонах, естественно — 8 бит серый или 24 бит цветной) может дать весьма приличный результат, пригодный во всех отношениях после соответствующей обработки (см. «обсуждение»). Конечно, это справедливо, если в сканируемом объекте нет большого количества (если мало — можно потом и отредактировать) совсем уж слишком мелких деталей, важных для содержания! Это существенно для пользователей недорогих сканеров, где быстрая скорость сканирования достижима только в режимах с низким разрешением.

Другие разрешения, такие как 360, 400 и т. д., мало смысла использовать — они работают через интерполяцию изображения, то есть реально сканер сканирует в 300 dpi сером и делает интерполяцию до 400 dpi черно-белого. Такую интерполяцию можно и нужно сделать специальным софтом, а не тем софтом, что пришел со сканером.

Здесь автор несколько преувеличил или упростил: фраза «реально сканер сканирует в 300 dpi сером и делает интерполяцию до 400 dpi черно-белого» может относиться только к конкретной модели сканера. Упомянутый автором сканер имеет оптическое (реальное) разрешение 300 dpi (на самом деле скорее всего 600 dpi) но есть сканеры у которых оптическое разрешение 400 dpi и вообще любое другое.

Многие сканеры одинаково быстро делают скан листа в 300 dpi черно-белого режима и в 300 dpi серого режима (greyscale). Поэтому если вы сканируете в 300 dpi (а не в 600 dpi), то лучше сканировать всегда в сером режиме (greyscale), даже если книга не содержит вообще цветного материала. Специальный софт потом может поднять разрешение 300 dpi серых сканов до 600 dpi черно-белого, при сохранении отличного качества текста (как будто сканировали в 600 dpi черно-белом). Проблемы 300 dpi серых сканов вылазят только в литературе с фотографиями, передаваемыми растровым методом: в некоторых местах появляется эффект муара, то есть волн яркости и/или цвета по изображению.

Упомянутый здесь «Специальный софт» который «может поднять разрешение 300 dpi серых сканов до 600 dpi» скорее всего у вас будет отсутствовать, если так то будет лучше сканировать в 300 dpi с однобитной глубиной цвета (черный-белый). При этом размер файлов будет очень маленький а качество предостаточно хорошим. Исключение: мелкий шрифт (газетный) или низкая контрастность (сероватые буквы на желтоватой бумаге).

Для максимального качества рекомендуется книги сканировать в сером режиме при 600 dpi, если же в книге есть информативные цветные иллюстрации, то в цветном 600 dpi. Это разрешение позволяет полностью разбить растровое изображение на отдельные цветные точки, что полностью подавляет муар.

В любом случае, запаситесь свободным пространством на винчестере — несколько гигабайт.

Конечно на сегодня несколько гигабайт на винчестере не проблема, но не стоит принимать это мнение слишком серьезно, если вы сканируте обычную книгу в которой в основном только текст, а редкие изображения имеют характер схем или рисунков без полутонов. Я сканировал книгу по FreeBSD в растровый формат tiff с глубиной цвета 1 бит. Результат 250 страниц = 14,2 МБ. К тому же я сканировал эту книгу с разрешением 150 dpi (кратно оптическому разрешению сканера) так как был ограничен во времени — читать такую книгу вполне можно, так зачем тратиться на «в сером режиме при 600 dpi», хотя при нынешнем развитии техники можно и так сканировать, пренебрегая большим размером, но время на сканирование сканером за $100 за последние 5 лет не стало меньше. Решение о выборе режима сканирования нужно принимать в каждойм случае опираясь на свойства исходного материала: размер шрифта, контрастность, характер графической информации (текст, формулы, таблицы, рисунки, фотографии) требования к качеству предъявляемые тем кто будет её читать/печатать.

Сканирование цветных материалов

Сканирование и обработка цветных материалов (книги с большим количеством фотографий, важных для содержания) связаны с существенно бо́льшими трудностями, чем сканирование черно-белых книг. Гораздо труднее получить конечный файл разумного размера при сохранении хорошего качества изображения. Исходные отсканированные файлы могут достигать ста мегабайт и больше на страницу, а конечный результат — сотен килобайт на страницу.

Обработка отсканированных изображений

После сканирования необходимо просмотреть все страницы и убедиться, что нет явных огрехов. Например, иногда по недосмотру книга неровно легла на стекло сканера и часть текста на какой-либо странице не отсканировалась, или были вовсе пропущены некоторые страницы. После этого можно архивировать отсканированные изображения и приступать к обработке. Поскольку сканирование — физически самый трудоёмкий этап, рекомендуется держать резервную копию всех исходных сканов (такими, какими они были до обработки) на случай какого-либо сбоя.

Энтузиасты подготовили полные подробные инструкции по обработке отсканированных изображений и созданию электронных книг — смотрите ссылки внизу страницы. Каковы главные задачи обработки? Они зависят от того, ставим ли мы целью создание векторного файла или растрового файла. Для создания векторного файла производится распознавание (OCR) текста и его дальнейшее редактирование вручную в текстовом процессоре (таком, как MS Word или Adobe Pagemaker). Конечным продуктом обычно является сверстанная книга в формате PDF. Для создания растрового файла необходима доводка графических изображений до высокой степени сжатия и качества, а распознавание (OCR) производится лишь начерно, без вычитки и правки текста, в самом конце процесса. Обработка графических изображений производится обычно в пакетном режиме, так что не требуется обрабатывать каждую страницу вручную в Photoshop’e или другом графическом редакторе. Поэтому затраты времени на создание растровой электронной книги гораздо меньше, чем на создание векторной книги.

Графическая обработка сканов состоит из следующих основных шагов:

преобразование серых сканов в черно-белые (если исходные сканы были серыми в 300 dpi, то после этого получаются черно-белые в 600 dpi)
разрезание разворотов на два изображения отдельных страниц (если книгу сканировали в развороте)
поворот изображения каждой страницы, чтобы текст стал по возможности горизонтальным
отрезание ненужных тёмных полос на краях, создание ровных и одинаковых для всех страниц белых полей
вычищение «грязи» на страницах (включая помарки от руки, штапмы и прочее)

Эти шаги частично автоматизированы в программе ScanKromsator (Windows) и описаны в инструкции «Scan and Share» (смотрите ссылки внизу страницы). Однако если эта программа показалась для вас слишком сложной, вы можете воспользоваться Scan Tailor (ссылка на неё внизу страницы).

После создания чистовой версии всех страниц книги, которые пока что хранятся в отдельных графических файлах, приступают к сжатию всех страниц в единый файл формата DJVU или PDF.

Файлы PDF и DJVU могут использовать разные степени сжатия. Наибольшее сжатие достигается в формате DJVU (алгоритм JBIG2), если текст черно-белый, отсканирован четко (это сильно зависит от физического состояния исходной книги), шрифт не слишком мелкий, а края букв ровные (не рваные). Формат PDF позволяет сжимать как алгоритмом JBIG2 (при этом размер получается на 20—30 % больше, чем размер DJVU), так и менее эффективными алгоритмами, например TIFF-G4. Размер PDF-файла после сжатия PDF/TIFF-G4 примерно в 4—8 раз больше, чем у PDF/JBIG2.

Имеются программы для создания хорошо сжатых файлов DJVU и PDF/JBIG2. Для формата DJVU это коммерческие программы от LizardTech: DjvuSolo и Djvu Document Editor. Для формата PDF это коммерческая версия Adobe Acrobat (не Reader). Есть и бесплатные программы для создания DJVU и PDF/JBIG2, но они пока не дают настолько хорошего сжатия, как коммерческие версии. Полубесплатная программа CPCtool, используемая как промежуточный этап перед окончательным сжатием, позволяет несколько улучшить сжатие DJVU (10—30 %) и во многих случаях сгладить «лохматые» контуры букв.

После создания окончательной чистовой версии книги делается распознавание текста (OCR). Распознавание текста на большинстве языков можно производить как коммерческой версией Djvu Document Editor (для DJVU), так и широко распространённой программой FineReader (для PDF). Имеется также бесплатный софт (утилита DjvuOCR) для вставки OCR-слоя в DJVU-файлы после распознавания в программе FineReader. По опыту, FineReader дает лучшее качество распознавания, чем Djvu Document Editor (который использует движок IRIS). Ознакомительные или демо-версии этих программ можно получить на официальных сайтах производителей.

Имеется также возможность автоматически добавить гипертекстовые ссылки в оглавление и индекс DJVU-книги. Это делает бесплатная утилита Djvu Hyperlink Editor.

Также в Djvu-книгу можно добавить оглавление в виде иерархического дерева с помощью бесплатной утилиты Djvu Bookmarker.

Доделка электронных книг

Часто бывает необходимо улучшить уже имеющуюся электронную книгу. Доделка бывает по разным причинам необходима как для вёрстанных, так и для сканированных книг. Поскольку сканирование или вёрстка — самый трудоёмкий этап, то целесообразно обработать уже имеющийся файл до максимально хорошего качества (за исключением крайних случаев, когда качество имеющегося файла книги слишком низкое и лучше переделать всё заново).

Доделка PS-файлов

PS-файлы почти всегда являются продуктом вёрстки в системе LaTeX и могут быть автоматически сконвертированы в формат PDF с помощью бесплатного пакета ghostscript (утилита ps2pdf). Однако при этом иногда появляется проблема, состоящая в том, что полученные PDF-файлы не позволяют делать поиск по тексту. Причина этого явления такова. Файлы, созданные ранними версиями LaTeX, часто имеют растровые шрифты (вместо векторных). В таком случае при переводе в PDF текст набран нестандартным (то есть не векторным) шрифтом и поиск по файлу невозможен. При использовании достаточно новых версий LaTeX можно указать, что шрифты должны быть векторные, и эта проблема автоматически отпадает. Однако существует много PS- и PDF-файлов, сделанных по-старому и проявляющих этот дефект.

Исправить этот дефект можно двумя способами:

Перевести файл в формат DJVU и произвести распознавание (OCR) текста. Перевод из векторного PDF в DJVU производится утилитами gs2djvu или pdftodjvu.
Если есть исходный PS-файл, созданный утилитой dvips версии 5.58 или старше, то можно воспользоваться утилитой pkfix.

Доделка PDF-файлов

Поскольку формат PDF является сейчас самым распространённым, то часто встречаются отсканированные книги, хранимые в этом формате (вдобавок ко другим возможным дефектам отсканированных книг). Почти всегда бывает целесообразно переделать такие файлы в формат DJVU, так как при этом можно добавить распознанный текст (OCR-слой) и существенно уменьшить размер электронной книги.

Иногда переделке подлежат также и векторные PDF-файлы. Это относится к файлам со следующими дефектами:

Отсутствие поиска по тексту книги. (Растровые шрифты, или неверная кодировка текста.) Самый простой способ исправить — переделать в DJVU и добавить OCR.
Размер файла больше 10 КБ на страницу (кроме PDF-файлов, содержащих большое число цветных фотографий). Можно пытаться оптимизировать PDF утилитами Multivalent или Acrobat. Иногда целесообразно перевести в DJVU с сохранением текста (утилита pdftodjvu).
Неверная навигация или неверный порядок страниц. Исправляется вручную с помощью Acrobat, или Foxit PDF Editor.
Водяные знаки, не относящиеся к тексту, или другие нежелательные пометки на страницах. Исправляется вручную редактированием PDF-файла после декомпрессии. Или с помощью Acrobat 5.0 (в Acrobat 7.0 почему-то не работает) инструментом TouchUp Object Tool в виде стрелочки-указателя (hotkey: Shift-T). Щелкаем по нежелательному объекту и удаляем.
Большое количество растровых вставок в векторный текст (формулы, таблицы, ненадежно распознанные слова). Исправляется переводом в DJVU с сохранением текста (утилита pdftodjvu).

Доделка DJVU-файлов

Весьма часты случаи, когда доделка DJVU-файлов возможна и необходима. Эти случаи таковы:

Файл DJVU содержит цветную информацию, то есть DJVU-элементы типа IW44 (это видно из свойств страницы, или из результата djvudump), в то время как текст на самом деле чисто чёрно-белый. Цветовая информация является лишней и была включена в файл по ошибке. Исправляется переделкой DJVU в черно-белом режиме. Возможно также убрать лишние цветовые слои с помощью DjVu layers remove (на основе djvused), но текущая версия не поддерживает гиперссылки. (Строго говоря, это не совсем так — черное поле буквы основное, но в «цветном» режиме края букв выглядят более сглаженными. Поэтому в ряде случаев, если буквы и так низкого разрешения, стоит оставлять книгу как есть. Обработка должна идти до запаковывания в DjVu. Доделка часто ухудшает качество и читабельность, пусть даже уменьшая размер. Отключить же цвет в DjVu-книге можно просто выбрав другой режим просмотра).
Страницы в файле DJVU расставлены в неверном порядке. Исправляется вручную с помощью Djvu Editor / Djvu Solo, или с помощью утилит djvm/djvmcvt (разбирая DJVU-файл на отдельные страницы и собирая обратно, без перекодирования).
Гиперссылки показывают на неправильные страницы или на несуществующие файлы. Исправляется редактированием гиперссылок (утилита djvused и текстовый редактор).
Отсутствует OCR-слой (распознанный текст). OCR-слой можно создать с помощью программы распознавания текста, например Fine Reader, Ocropus или Djvu Editor.
Файл DJVU содержит изображения, сосканированные в развороте (2 страницы на лист), с тёмными полосами по краям, и/или невыровненные изображения страниц. Исправляется переделкой файла в программе типа ScanKromsator или ScanTailor.
Файл DJVU был сжат в неоптимальном режиме (например Lossless или с маленьким размером DJVU-словаря) и поэтому имеет слишком большой размер. Исправляется перекодированием в более оптимальном режиме.

Все эти дефекты можно устранить повторной обработкой DJVU-файла. Это позволит сэкономить время на повторное сканирование и получить файл меньшего размера и лучшего качества.

Поскольку формат DJVU использует эффективное сжатие данных, то явно низкокачественный DJVU-файл (отсканированный в цвете и/или в низком разрешении) часто не удаётся переделать в высококачественный. Доделка бывает неэффективной или невозможной в следующих случаях:

Файл DJVU содержит цветные изображения низкого разрешения (200 dpi и ниже), закодированные не в фото-режиме, а с разделением текста и фона. Результат — текст практически нечитаем. Исправить нельзя, так как большая часть изображения уже потеряна или не была отсканирована.
Файл DJVU содержит отсканированные изображения, содержащие большую долю неразделимо слившегося с текстом «шума» из-за пятен на бумаге, помарок, расплывшихся чернил, «волос» и других дефектов печати. Результат — файл очень большого размера. Если сканы были высокого разрешения (400 dpi и выше), то текст с экрана читается неплохо, а если файл в разрешении 300 dpi и ниже, то читается тяжело. Исправить затруднительно, без трудоёмкой чистки изображений вручную.

См. также

Ссылки

Базовые понятия DjVu-книгосканирования
Как сделать из бумажной книги электронную
DjVu-программы
Итоги по DjVu-программам
Документация к Scan Tailor
СканКромсатор v5.6A Пособие по программе
Scan and Share v1.07 Инструкция создания электронной версии книги
Scan Tailor Официальный сайт
Scan Tailor GitHub
Scan Tailor SourceForge.net
Scan Tailor Ru-Board
ScanKromsator Ru-Board
Слава Янко, «Как я отсканировал 600 книг». Автор делится своим опытом сканирования, форматирования и вёрстки.
«Правила сканирования Готье Неимущего». Это для тех, кто хочет распознавать и верстать книги, но есть важные замечания и по собственно технике сканирования.
FastScan — макрос для автоматического сканирования многих страниц подряд с помощью IrfanView.