seminarist: (Default)
[personal profile] seminarist
что файлы pdf - не фотографические копии текста. Там, где компьютер не может разобрать букву в старой книге, он подставляет свою собственную похожим шрифтом, и создает при этом множество опечаток. h/b, c/e, n/u и т. д.
Вот картинка из файла pdf:

А вот та же страница в другом файле, в формате djvu:

Date: 2022-02-21 01:06 pm (UTC)
From: [identity profile] http://users.livejournal.com/_meskalito_/
экономят на объеме файла
думаю эта опция отключается где то

но тогда это будет просто картинка и весить будет соответственно по 2-3мб на лист и это без цвета

Date: 2022-02-21 01:16 pm (UTC)
From: [identity profile] utnapishti.livejournal.com
Мне кажется, это "опционально": можно отсканнировать (например) страницу из книги в pdf просто как изображение, без каких-либо попыток распознать текст; а можно включить optical character recognition, чтобы pdf был searchable. Вероятно, в этом втором случае он подгоняет изображение под то, что он там распознал. Но в первом случае такое (естественно) не должно происходить.
Короче, если Вы сканнируете лично, то keywords = "disable OCR".
Edited Date: 2022-02-21 01:18 pm (UTC)

Date: 2022-02-21 01:27 pm (UTC)
From: [identity profile] seminarist.livejournal.com
Ах, если бы я сканировал лично, мне бы и сканировать было незачем. Ведь сканировать можно только то, что у тебя уже есть.

Date: 2022-02-21 01:27 pm (UTC)
From: [identity profile] langsamer.livejournal.com
Даже в первом случае, - сканировать-печатать, - возможны нюансы: https://www.computerra.ru/183468/jbig2/

Date: 2022-02-21 03:21 pm (UTC)
petropavel: (Default)
From: [personal profile] petropavel
Кстати, JBIG2 может использоваться как один из кодеков в PDF, так что, возможно подобным офисным гробом и сканировали как раз.

Как уже выше писали, PDF это очень сложный формат, внутри там может быть практически всё что угодно, и картинки, и простой текст, кодированный в любой из кодировок, как стандартных, так и собственных. Также бывает "бутерброд" из слоя-картинки и простого текста ("выгнанного" из исходного макета или полученного путём OCR).

Такое буйство вариантов особенно "радует" людей с недостатками зрения. Скринридеры обычно воспроизводят только текстовый слой, а он очень часто бывает сильно кривой. Я однажды обнаружил записанный слепым разработчиком подкаст про то, как устроен PDF именно в аспекте доступности, он мне показался очень дельным. Узнал оттуда некоторые полезные "фишки", например, что современный Microsoft Word умеет читать PDF-ки с текстом в виде картинок и OCR-ить их без стороннего софта.

Date: 2022-02-21 03:26 pm (UTC)
petropavel: (Default)
From: [personal profile] petropavel
(если кому-то нужна ссылка на подкаст, и её не спрячет ЖЖ, то вот
https://kamerata.org/voprosy-dostupnosti-dokumentov-v-formate-pdf-dlya-polzovatelej-programm-ekrannogo-dostupa-vebinar-andrej-polikanin/ )

Date: 2022-02-22 04:43 am (UTC)
From: [identity profile] ermenegilda.livejournal.com
Ого, в 1852 году уже/еще астрологи были. Интересно, что Толстой, Достоевский, Чехов смеялись над спиритами, но про астрологию у них ни слова.

February 2023

S M T W T F S
   1234
567 89 1011
121314 1516 17 18
1920 2122 2324 25
26 2728    

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated May. 29th, 2025 09:56 pm
Powered by Dreamwidth Studios