seminarist | С отвращением обнаружил,

Entry tags:

открытия

С отвращением обнаружил,

что файлы pdf - не фотографические копии текста. Там, где компьютер не может разобрать букву в старой книге, он подставляет свою собственную похожим шрифтом, и создает при этом множество опечаток. h/b, c/e, n/u и т. д.
Вот картинка из файла pdf:

А вот та же страница в другом файле, в формате djvu:

Flat | Top-Level Comments Only

Однако.

Кстати, JBIG2 может использоваться как один из кодеков в PDF, так что, возможно подобным офисным гробом и сканировали как раз.

Как уже выше писали, PDF это очень сложный формат, внутри там может быть практически всё что угодно, и картинки, и простой текст, кодированный в любой из кодировок, как стандартных, так и собственных. Также бывает "бутерброд" из слоя-картинки и простого текста ("выгнанного" из исходного макета или полученного путём OCR).

Такое буйство вариантов особенно "радует" людей с недостатками зрения. Скринридеры обычно воспроизводят только текстовый слой, а он очень часто бывает сильно кривой. Я однажды обнаружил записанный слепым разработчиком подкаст про то, как устроен PDF именно в аспекте доступности, он мне показался очень дельным. Узнал оттуда некоторые полезные "фишки", например, что современный Microsoft Word умеет читать PDF-ки с текстом в виде картинок и OCR-ить их без стороннего софта.

(если кому-то нужна ссылка на подкаст, и её не спрячет ЖЖ, то вот
https://kamerata.org/voprosy-dostupnosti-dokumentov-v-formate-pdf-dlya-polzovatelej-programm-ekrannogo-dostupa-vebinar-andrej-polikanin/ )

Flat | Top-Level Comments Only

С отвращением обнаружил,

no subject

no subject

no subject