С отвращением обнаружил,
Feb. 21st, 2022 07:52 am![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
что файлы pdf - не фотографические копии текста. Там, где компьютер не может разобрать букву в старой книге, он подставляет свою собственную похожим шрифтом, и создает при этом множество опечаток. h/b, c/e, n/u и т. д.
Вот картинка из файла pdf:

А вот та же страница в другом файле, в формате djvu:

Вот картинка из файла pdf:

А вот та же страница в другом файле, в формате djvu:

no subject
Date: 2022-02-21 01:06 pm (UTC)думаю эта опция отключается где то
но тогда это будет просто картинка и весить будет соответственно по 2-3мб на лист и это без цвета
no subject
Date: 2022-02-21 01:16 pm (UTC)Короче, если Вы сканнируете лично, то keywords = "disable OCR".
no subject
Date: 2022-02-21 01:27 pm (UTC)no subject
Date: 2022-02-21 01:27 pm (UTC)no subject
Date: 2022-02-21 01:32 pm (UTC)no subject
Date: 2022-02-21 03:21 pm (UTC)Как уже выше писали, PDF это очень сложный формат, внутри там может быть практически всё что угодно, и картинки, и простой текст, кодированный в любой из кодировок, как стандартных, так и собственных. Также бывает "бутерброд" из слоя-картинки и простого текста ("выгнанного" из исходного макета или полученного путём OCR).
Такое буйство вариантов особенно "радует" людей с недостатками зрения. Скринридеры обычно воспроизводят только текстовый слой, а он очень часто бывает сильно кривой. Я однажды обнаружил записанный слепым разработчиком подкаст про то, как устроен PDF именно в аспекте доступности, он мне показался очень дельным. Узнал оттуда некоторые полезные "фишки", например, что современный Microsoft Word умеет читать PDF-ки с текстом в виде картинок и OCR-ить их без стороннего софта.
no subject
Date: 2022-02-21 03:26 pm (UTC)https://kamerata.org/voprosy-dostupnosti-dokumentov-v-formate-pdf-dlya-polzovatelej-programm-ekrannogo-dostupa-vebinar-andrej-polikanin/ )
no subject
Date: 2022-02-22 04:43 am (UTC)