Expand Cut Tags

No cut tags

Feb. 13th, 2011

noddeat: (Default)
Задача є типовою: розпізнати відсканований документ або книгу (яку часто можна знайти у форматі djvu чи pdf) і додати розпізнаний текст у pdf-документ.

1. Сконвертуємо djvu в pdf. Це можна зробити через віртуальний pdf-принтер, а можна заінсталювати програму djview4 і там в меню File обрати Export as -> PDF document. Другий спосіб найпростіший.

2. Встановлюємо скрипт pdfocr — обгортка до системи оптичного розпізнавання Cuneinform. Для Ubuntu його можна встановити з архіву PPA, додавши такий рядок у Software Sources:

deb http://ppa.launchpad.net/gezakovacs/pdfocr/ubuntu lucid main

3. Після цього треба встановити пакунок pdfocr і запустити команду:

pdfocr -i inputfile.pdf -o outputfile.pdf

Якщо документ великий, то процес розпінавання може затягнутися:


На виході отримуємо pdf з текстовим шаром і зменшеним удвічі розміром за рахунок цього.

Існують також скрипти, що вміють розпізнавати djvu за допомогою tesseract, але з ними в мене щось нічого не вийшло: тобто, текст розпізнається, але не записується у djvu-файл. Так само нічого у мене не вийшло з пайтонівським скриптом ocrodjvu (він теж юзає tesseract), доступним в репозиторіях Убунту.

Літературка
Хороший огляд доступного софту оптичного розпізнавання для лінукса
Розпізнавання djvu за допомогою Tesseract OCR

Profile

noddeat: (Default)
noddeat

April 2017

S M T W T F S
      1
23 45678
9101112131415
16171819202122
23242526272829
30      

Most Popular Tags

Style Credit

Page generated Sep. 16th, 2025 08:52 pm
Powered by Dreamwidth Studios