Кстати, JBIG2 может использоваться как один из кодеков в PDF, так что, возможно подобным офисным гробом и сканировали как раз.
Как уже выше писали, PDF это очень сложный формат, внутри там может быть практически всё что угодно, и картинки, и простой текст, кодированный в любой из кодировок, как стандартных, так и собственных. Также бывает "бутерброд" из слоя-картинки и простого текста ("выгнанного" из исходного макета или полученного путём OCR).
Такое буйство вариантов особенно "радует" людей с недостатками зрения. Скринридеры обычно воспроизводят только текстовый слой, а он очень часто бывает сильно кривой. Я однажды обнаружил записанный слепым разработчиком подкаст про то, как устроен PDF именно в аспекте доступности, он мне показался очень дельным. Узнал оттуда некоторые полезные "фишки", например, что современный Microsoft Word умеет читать PDF-ки с текстом в виде картинок и OCR-ить их без стороннего софта.
no subject
Date: 2022-02-21 03:21 pm (UTC)Как уже выше писали, PDF это очень сложный формат, внутри там может быть практически всё что угодно, и картинки, и простой текст, кодированный в любой из кодировок, как стандартных, так и собственных. Также бывает "бутерброд" из слоя-картинки и простого текста ("выгнанного" из исходного макета или полученного путём OCR).
Такое буйство вариантов особенно "радует" людей с недостатками зрения. Скринридеры обычно воспроизводят только текстовый слой, а он очень часто бывает сильно кривой. Я однажды обнаружил записанный слепым разработчиком подкаст про то, как устроен PDF именно в аспекте доступности, он мне показался очень дельным. Узнал оттуда некоторые полезные "фишки", например, что современный Microsoft Word умеет читать PDF-ки с текстом в виде картинок и OCR-ить их без стороннего софта.