seminarist | С отвращением обнаружил,

Entry tags:

открытия

С отвращением обнаружил,

что файлы pdf - не фотографические копии текста. Там, где компьютер не может разобрать букву в старой книге, он подставляет свою собственную похожим шрифтом, и создает при этом множество опечаток. h/b, c/e, n/u и т. д.
Вот картинка из файла pdf:

А вот та же страница в другом файле, в формате djvu:

Flat | Top-Level Comments Only

Мне кажется, это "опционально": можно отсканнировать (например) страницу из книги в pdf просто как изображение, без каких-либо попыток распознать текст; а можно включить optical character recognition, чтобы pdf был searchable. Вероятно, в этом втором случае он подгоняет изображение под то, что он там распознал. Но в первом случае такое (естественно) не должно происходить.
Короче, если Вы сканнируете лично, то keywords = "disable OCR".

Edited 2022-02-21 13:18 (UTC)

Ах, если бы я сканировал лично, мне бы и сканировать было незачем. Ведь сканировать можно только то, что у тебя уже есть.

Даже в первом случае, - сканировать-печатать, - возможны нюансы: https://www.computerra.ru/183468/jbig2/

Однако.

Кстати, JBIG2 может использоваться как один из кодеков в PDF, так что, возможно подобным офисным гробом и сканировали как раз.

Как уже выше писали, PDF это очень сложный формат, внутри там может быть практически всё что угодно, и картинки, и простой текст, кодированный в любой из кодировок, как стандартных, так и собственных. Также бывает "бутерброд" из слоя-картинки и простого текста ("выгнанного" из исходного макета или полученного путём OCR).

Такое буйство вариантов особенно "радует" людей с недостатками зрения. Скринридеры обычно воспроизводят только текстовый слой, а он очень часто бывает сильно кривой. Я однажды обнаружил записанный слепым разработчиком подкаст про то, как устроен PDF именно в аспекте доступности, он мне показался очень дельным. Узнал оттуда некоторые полезные "фишки", например, что современный Microsoft Word умеет читать PDF-ки с текстом в виде картинок и OCR-ить их без стороннего софта.

(если кому-то нужна ссылка на подкаст, и её не спрячет ЖЖ, то вот
https://kamerata.org/voprosy-dostupnosti-dokumentov-v-formate-pdf-dlya-polzovatelej-programm-ekrannogo-dostupa-vebinar-andrej-polikanin/ )

Flat | Top-Level Comments Only

С отвращением обнаружил,

no subject

no subject

no subject

no subject

no subject

no subject