seminarist: (Default)
seminarist ([personal profile] seminarist) wrote2022-02-21 07:52 am
Entry tags:

С отвращением обнаружил,

что файлы pdf - не фотографические копии текста. Там, где компьютер не может разобрать букву в старой книге, он подставляет свою собственную похожим шрифтом, и создает при этом множество опечаток. h/b, c/e, n/u и т. д.
Вот картинка из файла pdf:

А вот та же страница в другом файле, в формате djvu:

[identity profile] utnapishti.livejournal.com 2022-02-21 01:16 pm (UTC)(link)
Мне кажется, это "опционально": можно отсканнировать (например) страницу из книги в pdf просто как изображение, без каких-либо попыток распознать текст; а можно включить optical character recognition, чтобы pdf был searchable. Вероятно, в этом втором случае он подгоняет изображение под то, что он там распознал. Но в первом случае такое (естественно) не должно происходить.
Короче, если Вы сканнируете лично, то keywords = "disable OCR".
Edited 2022-02-21 13:18 (UTC)

[identity profile] seminarist.livejournal.com 2022-02-21 01:27 pm (UTC)(link)
Ах, если бы я сканировал лично, мне бы и сканировать было незачем. Ведь сканировать можно только то, что у тебя уже есть.

[identity profile] langsamer.livejournal.com 2022-02-21 01:27 pm (UTC)(link)
Даже в первом случае, - сканировать-печатать, - возможны нюансы: https://www.computerra.ru/183468/jbig2/
petropavel: (Default)

[personal profile] petropavel 2022-02-21 03:21 pm (UTC)(link)
Кстати, JBIG2 может использоваться как один из кодеков в PDF, так что, возможно подобным офисным гробом и сканировали как раз.

Как уже выше писали, PDF это очень сложный формат, внутри там может быть практически всё что угодно, и картинки, и простой текст, кодированный в любой из кодировок, как стандартных, так и собственных. Также бывает "бутерброд" из слоя-картинки и простого текста ("выгнанного" из исходного макета или полученного путём OCR).

Такое буйство вариантов особенно "радует" людей с недостатками зрения. Скринридеры обычно воспроизводят только текстовый слой, а он очень часто бывает сильно кривой. Я однажды обнаружил записанный слепым разработчиком подкаст про то, как устроен PDF именно в аспекте доступности, он мне показался очень дельным. Узнал оттуда некоторые полезные "фишки", например, что современный Microsoft Word умеет читать PDF-ки с текстом в виде картинок и OCR-ить их без стороннего софта.
petropavel: (Default)

[personal profile] petropavel 2022-02-21 03:26 pm (UTC)(link)
(если кому-то нужна ссылка на подкаст, и её не спрячет ЖЖ, то вот
https://kamerata.org/voprosy-dostupnosti-dokumentov-v-formate-pdf-dlya-polzovatelej-programm-ekrannogo-dostupa-vebinar-andrej-polikanin/ )