seminarist (
seminarist) wrote2022-02-21 07:52 am
![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
Entry tags:
С отвращением обнаружил,
что файлы pdf - не фотографические копии текста. Там, где компьютер не может разобрать букву в старой книге, он подставляет свою собственную похожим шрифтом, и создает при этом множество опечаток. h/b, c/e, n/u и т. д.
Вот картинка из файла pdf:

А вот та же страница в другом файле, в формате djvu:

Вот картинка из файла pdf:

А вот та же страница в другом файле, в формате djvu:

no subject
Короче, если Вы сканнируете лично, то keywords = "disable OCR".
no subject
no subject
no subject
no subject
Как уже выше писали, PDF это очень сложный формат, внутри там может быть практически всё что угодно, и картинки, и простой текст, кодированный в любой из кодировок, как стандартных, так и собственных. Также бывает "бутерброд" из слоя-картинки и простого текста ("выгнанного" из исходного макета или полученного путём OCR).
Такое буйство вариантов особенно "радует" людей с недостатками зрения. Скринридеры обычно воспроизводят только текстовый слой, а он очень часто бывает сильно кривой. Я однажды обнаружил записанный слепым разработчиком подкаст про то, как устроен PDF именно в аспекте доступности, он мне показался очень дельным. Узнал оттуда некоторые полезные "фишки", например, что современный Microsoft Word умеет читать PDF-ки с текстом в виде картинок и OCR-ить их без стороннего софта.
no subject
https://kamerata.org/voprosy-dostupnosti-dokumentov-v-formate-pdf-dlya-polzovatelej-programm-ekrannogo-dostupa-vebinar-andrej-polikanin/ )