Розпізнавання pdf-ів у лінуксі
Feb. 13th, 2011 04:49 pmЗадача є типовою: розпізнати відсканований документ або книгу (яку часто можна знайти у форматі djvu чи pdf) і додати розпізнаний текст у pdf-документ.
1. Сконвертуємо djvu в pdf. Це можна зробити через віртуальний pdf-принтер, а можна заінсталювати програму djview4 і там в меню File обрати Export as -> PDF document. Другий спосіб найпростіший.
2. Встановлюємо скрипт pdfocr — обгортка до системи оптичного розпізнавання Cuneinform. Для Ubuntu його можна встановити з архіву PPA, додавши такий рядок у Software Sources:
3. Після цього треба встановити пакунок pdfocr і запустити команду:
Якщо документ великий, то процес розпінавання може затягнутися:

На виході отримуємо pdf з текстовим шаром і зменшеним удвічі розміром за рахунок цього.
Існують також скрипти, що вміють розпізнавати djvu за допомогою tesseract, але з ними в мене щось нічого не вийшло: тобто, текст розпізнається, але не записується у djvu-файл. Так само нічого у мене не вийшло з пайтонівським скриптом ocrodjvu (він теж юзає tesseract), доступним в репозиторіях Убунту.
Літературка
Хороший огляд доступного софту оптичного розпізнавання для лінукса
Розпізнавання djvu за допомогою Tesseract OCR
1. Сконвертуємо djvu в pdf. Це можна зробити через віртуальний pdf-принтер, а можна заінсталювати програму djview4 і там в меню File обрати Export as -> PDF document. Другий спосіб найпростіший.
2. Встановлюємо скрипт pdfocr — обгортка до системи оптичного розпізнавання Cuneinform. Для Ubuntu його можна встановити з архіву PPA, додавши такий рядок у Software Sources:
deb http://ppa.launchpad.net/gezakovacs/pdfocr/ubuntu lucid main
3. Після цього треба встановити пакунок pdfocr і запустити команду:
pdfocr -i inputfile.pdf -o outputfile.pdf
Якщо документ великий, то процес розпінавання може затягнутися:
На виході отримуємо pdf з текстовим шаром і зменшеним удвічі розміром за рахунок цього.
Існують також скрипти, що вміють розпізнавати djvu за допомогою tesseract, але з ними в мене щось нічого не вийшло: тобто, текст розпізнається, але не записується у djvu-файл. Так само нічого у мене не вийшло з пайтонівським скриптом ocrodjvu (він теж юзає tesseract), доступним в репозиторіях Убунту.
Літературка
Хороший огляд доступного софту оптичного розпізнавання для лінукса
Розпізнавання djvu за допомогою Tesseract OCR