noddeat

Задача є типовою: розпізнати відсканований документ або книгу (яку часто можна знайти у форматі djvu чи pdf) і додати розпізнаний текст у pdf-документ.

1. Сконвертуємо djvu в pdf. Це можна зробити через віртуальний pdf-принтер, а можна заінсталювати програму djview4 і там в меню File обрати Export as -> PDF document. Другий спосіб найпростіший.

2. Встановлюємо скрипт pdfocr — обгортка до системи оптичного розпізнавання Cuneinform. Для Ubuntu його можна встановити з архіву PPA, додавши такий рядок у Software Sources:

deb http://ppa.launchpad.net/gezakovacs/pdfocr/ubuntu lucid main

3. Після цього треба встановити пакунок pdfocr і запустити команду:

pdfocr -i inputfile.pdf -o outputfile.pdf

Якщо документ великий, то процес розпінавання може затягнутися:

На виході отримуємо pdf з текстовим шаром і зменшеним удвічі розміром за рахунок цього.

Існують також скрипти, що вміють розпізнавати djvu за допомогою tesseract, але з ними в мене щось нічого не вийшло: тобто, текст розпізнається, але не записується у djvu-файл. Так само нічого у мене не вийшло з пайтонівським скриптом ocrodjvu (він теж юзає tesseract), доступним в репозиторіях Убунту.

Літературка
Хороший огляд доступного софту оптичного розпізнавання для лінукса
Розпізнавання djvu за допомогою Tesseract OCR

S	M	T	W	T	F	S
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

|

Feb. 13th, 2011

Expand Cut Tags

Feb. 13th, 2011

Розпізнавання pdf-ів у лінуксі

Profile

April 2017

Most Popular Tags

Page Summary

Style Credit