Stav – ZmluvaParser

Prve zdokumentovanie stavu projektu Zmluva Parser

tento projekt som zacal priblizne pred rokom, kedy som sa zucastnil na instruktazi Aliancie Fair Play (AFP) ako tagovat zmluvy ktore generuje Slovensky Pozemkovy Fond (SPF).

Moj povodny plan bol program ktory nacita zmluvu z PDF suboru, zanalyzuje ju, a poda vystup ktory bude napomocny rucnemu parsovaniu, pripadne vystupom budu data ktore mozu ist priamo do databazy. Cielom boli tieto veci:

1) textovy vystup – prehladavatelny text rozdeleny na odseky (paragrafy) tak ako v dokumente
2) textovy vystup – bez diakritiky pre lahsie vyhladavanie
3) klucove slova – najdenie textov ako napriklad „vymera 1200 m3“ aby tieto boli priamo dostupne
4) klucove slova – nazvy miest, pretoze tie su tiez dolezite, napriklad „Solosnica, okres Malacky“
5) zvyraznenie (vyfarbenie) klucovych slov v PDF
6) ratanie plochy ktora bola vyciernena
Stav po roku je, ze sa mi podarilo pouzit kniznicu ImageMagick a Tesseract OCR na vyber textu z PDF, zmenu textu na bez-diakritikovy (pomocou ICU kniznice) parsovanie klucovych slov, a aj zvyraznenie najdenych klucovych slov v PDF, teda na splnenie bodov 1-5.

Aktualne sa snazim dokonceny nastroj pouzivat pri tagovani.
Problemom je, ze kvalita vstupnych PDF je nizka a text je casto trochu tazsie citatelny pre cloveka a o to viac pre pocitac. Preto je kvalita textu ktory ziskam z PDF velmi nizka (napriklad namiesto textu „Kupujuci: Igor Mrkvicka, Andrea Mrkvickova“ ziskam text „Kuxpujc:: Ig or M kvxcka, Amdxea Mrkxvickova“ co znizuje pouzitelnost nastroja. Jednak sa nedaju spravne najst klucove slova (napriklad v tomto pripade klucove slovo „kupujuci“), a jednak nieje nastroj pouzitelny na vyhladavanie, alebo kopirovanie zoznamu kupujucich do tagovacieho nastroja.

Dalsim planom je teda zlepsovanie procesu OCR – ziskavania textu z PDF bud automatizovanou upravou obrazkov, alebo ladenim parametrov OCR kniznice.

Program
 Miro

tags:program,afp,ocr