Обсуждение:Оцифровка печатных текстов

Название[править]

Ramir, если Вы не возражаете, я бы хотел вернуться к первоначальному варианту названия, так как я собираюсь коснуться не только сканирования книг или текстов. Melirius 21:10, 17 апреля 2006 (UTC)[ответить]

А «документ» есть целиком подвид текста. Мой вариант названия мне кажется короче и вернее в отражении сути учебника, ибо не всякий текст есть документ. Или Вы хотите написать только-претолько о документах (деловых бумагах, удостоверениях, и т. п.?) Ramir 21:16, 17 апреля 2006 (UTC)[ответить]

Нет, просто есть ещё репродукции, фотоальбомы, фотоплёнки и слайды и т. д. Я бы хотел их все затронуть. Melirius 09:08, 18 апреля 2006 (UTC)[ответить]

Это не документы уж точно. Лучше и не заморачиваться, не гнаться за совершенной точностью названия. Безупречное описание можно дать в самом начале самого учебника, а название пусть будет простым и популярным. Я следую таким соображениям. Ramir 11:40, 18 апреля 2006 (UTC)[ответить]

Как так не документы? Согласно Википедии

Докуме́нт (от лат. documentum — образец, свидетельство, доказательство) — материальный объект, содержащий информацию в зафиксированном виде и специально предназначенный для её передачи во времени и пространстве.

Так что это точно документы :). Melirius 10:03, 20 апреля 2006 (UTC)[ответить]

Если строго придерживаться такому «определению», как там («что-то, передающее информацию»), то все объекты материального мира — документы :-). Ибо всем можно передавать информацию. На Грамоте.ру даётся лучшее определение. Ramir 11:59, 20 апреля 2006 (UTC)[ответить]

Автоматизация склейки[править]

Мне придумался такой способ фотосъёмки текста с автоматизацией склейки. Фотоаппарат крепится к прямому рельсу или, допустим, к штативу, выдвигающемуся вверх и вниз, но в других плоскостях намертво закреплённому. Строго напротив помещается документ и на рельсе/штативе/... помечаются два (или больше) положения так, чтобы каждое из этих положений давало кадр, не пересекающийся с друим, но следующий сразу. Так:

Документы очень быстро отснимываются путём передвижения фотоаппарата вдоль «рельсы» от одной пометки к другой.
Полученные кадры не придётся резать, м можно будет сразу склеивать автоматически, потоком.

Можно даже так сделать: быстро-пребыстро снимаются документы, и (если лист занимает два кадра) компьютерный сценарий настраивается на склейку просто двух соседних файлов (они цифровой камерой именуются последовательно ведь). Возможность неуспеха вижу только в случае недостаточности крепежа «рельсы», а это зависит от технической оснастки и может быть устранено. Ramir 21:51, 17 апреля 2006 (UTC)[ответить]

Та же проблема - невозможность достаточной мобильности конструкции. Кроме того, требуемая точность совмещения (порядка 0,1 мм) лежит далеко за пределами домашней мастерской. Melirius 09:08, 18 апреля 2006 (UTC)[ответить]

0,1 мм!!! Тогда понятно. Я-то думал 1—2... так бы можно было и на глазок, глядя в объектив, со штатива делать два снимка одного листа. Ramir 11:40, 18 апреля 2006 (UTC)[ответить]

Вопрос[править]

Не подскажете ли также, как ставить правильное тире в Wikibooks? Melirius 09:23, 18 апреля 2006 (UTC)[ответить]

А-а-а-а, лучше не париться. Я сам потом автоматическим сценарием заменю все « - » на « — ». Правильное тире, по-хорошему, нужно писать не только в Викиучебнике, а везде. В систему Windows применяю программу Зе Ва́ндерфул А́йкон ставя тире сочетанием клавиш «Альт_-». Способов много, и каждый из них нужно настраивать. См. также w:Википедия:Инструменты. Пожалуй, лучшим решением было бы написать тут учебник о том, как удобно работать на персональном компьютере. Ramir 11:40, 18 апреля 2006 (UTC)[ответить]

И вообще, если делаете форматирование и викификацию вручную, лучше не делайте. Пишите текст, а я сделаю ссылки, типографику и всё такое. Ramir 11:44, 18 апреля 2006 (UTC)[ответить]

Обработка отсканированного материала[править]

Сюда следует дописать про обработку отсканированного материала. Существует программа (ScanKromsator, бесплатная), которая позволяет разделять отсканированный разворот страницы на две отдельные страницы, выпрямлять наклон страниц, а также убирать тени на краях страниц. Все это делается автоматически. Кстати, такой подход снимает необходимость отдельного сканирования четных и нечетных страниц. Еще существует программа BookRestorer (платная). По функциям примерно аналогичная, но плюс умеет выравнивать строчки, которые закругляются в середине разворота. Обе программы к сожалению только под Windows, однако ScanKromsator запускется под Linux используя Wine. Если нет возражений, когда появится время, напишу об этом часть в статью. Винокуров.

Возражений нет, есть всецелое одобрение. Ramir 03:01, 31 августа 2007 (UTC)[ответить]

FB2[править]

Хм.. в начале текста написано, что электронные книги - это с разбивкой на страницы, и прочей полиграфией. ИМХО, это не совсем так - иначе, как квалифицировать книги в формате w:FB2 или даже txt? --Nashev 21:46, 10 января 2009 (UTC)[ответить]

Несколько слов в защиту низкого разрешения сканирования (200 dpi и меньше)[править]

Хотелось бы оспорить имхо излишнюю категоричность утверждения "никогда не сканируйте в 150 или 200! Время при этом Вы не сможете сэкономить, а качество будет безвозвратно утеряно." По моему опыту это далеко не так! Более того, сканирование с разрешением в 200, и даже 150, а иногда и 100 точек на дюйм, но (!) в 8 битном режиме (черно-белый) или в 24-х битном (цветной) - дает ЛУЧШИЕ результаты, чем сканирование, к примеру, в 600 dpi ч.б (bitmap или 1-бит на пиксел).

Я даже когда-то "в полевых условиях" (ГПНТБ, 90-е годы, запись только на дискеты, а записывалось по времени столько же, сколько и сканировалось, хе-хе...) сканировал журналы с мелким шрифтом в разрешении 100dpi, в jpg-формате, на дискеты (см. выше)... Потом в домашних условиях переводил в 300dpi (со сглаживанием и пр. фильтрами) и текст распознавался OCR-ом "на ура"! Я не знаю, как тут в статье правильно оформить "комментарий от не-автора", если что сделал не так, поправьте, пожалуйста. --BookStorm 16:51, 4 мая 2010 (UTC)[ответить]

Согласен с вами! Я сам сканирую книги с разрешением 200 DPI (в формате JPG) и считаю это достаточным качеством. Сканирование в 300 PPI даёт идеальный результат, но это крайне утомительно и занимает очень много времени, при этом сканы ещё необходимо обработать и добавить оглавление в готовую книгу, на что тоже уходит продолжительное время. --ПростоУчастник (обсуждение) 17:29, 12 декабря 2014 (UTC)[ответить]