Parametry sekcji "OCR" dotyczą ukrytej warstwy tekstowej plików wynikowych zadania konwersji, a zatem plików w formatach DjVu lub HC-PDF. Ukryta warstwa tekstowa, nazywana także przeszukiwanym tekstem dokumentu, powstaje w wyniku wykonanaia operacji optycznego rozpoznania tekstu (OCR) lub też może być przejęta wprost, czy też wyekstrahowana z konwertowanego dokumentu elektronicznego. O tym, czy w danym zadaniu konwersji rozpoznanie to powinno być prowadzone i w jaki sposób, decydują wybrane wartości kolejnych parametrów.

 
logo

Perform OCR for the following input types - wykonanie rozpoznania optycznego tekstu dla poniższych typów plików i dokumentów :

DjVu - pliki w formacie DjVu.

Image - pliki graficzne.

PDF - dokumenty elektroniczne w formacie PDF lub PDF/A.

VPD - pliki skierowane do drukarki wirtualnej.

Office - dokumenty elektroniczne pakietu MS Office.

Rodzaj operacji, którą należy wykonać podczas konwersji poszczególnych typów plików i dokumentów :

Perform OCR always - wykonanie rozpoznania optycznego tekstu dla każdego konwertowanego pliku.

Perform OCR if no text - wykonanie rozpoznania optycznego tekstu będzie wykonane tylko dla tych konwertowanych dokumentów, które nie posiadają ukrytej warstwy tekstowej. Ponieważ pliki graficzne nie mogą posiadać ukrytej warstwy tekstowej, użycie tej opcji w ich przypadku, jest bezzasadne.

Never perform OCR - Rozpoznanie tekstu podczas realizacji zadania konwersji nie będzie wykonywane.

OCR parameter - Parametr języka rozpoznania tekstu.

Language - Pozwala określić nazwę języka, dla którego realizowane będzie rozpoznanie tekstu. Wartością domyślną jest "Automatic". Takie ustawienie oznacza, że nazwa języka zostanie przyjęta w oparciu o język systemu operacyjnego. Jeżeli rozpoznawany jest tekst w innym języku niż język systemu operacyjnego, zaleca się, by został wskazany odpowiednim wyborem z rozwijanej listy.

Text extraction - zachowanie rozpoznanego lub wyekstrahowanego tekstu w pliku wynikowym :

Text separation level - Opcja określająca precyzję zachowania rozpoznanego tekstu w pliku wynikowym. Operacja OCR, poza rozpoznaniem kolejnych znaków, słów, wierszy,... zachowuje również informacje o położeniu rozpoznanego tekstu w stronie pliku wynikowego. Można wskazać, by operacja OCR realizowana była z najbardziej szczegółowym zachowaniem struktury rozpoznanego tekstu, zachowując informację o położeniu każdego rozpoznanego znaku (opcja "Characters") lub by zachowywane były informacje o położeniu każdego rozpoznanego słowa (opcja "Words").

Remove duplicated text - Włączenie tej opcji powoduje usuwanie z rozpoznanego tekstu znaków parokrotnie powtórzonych, emitowanych np. z pliku PDF. Opcja jest przydatna zwłaszcza wtedy, gdy w tekście występuje czcionka z atrybutem cieniowania.

Expand imageZobacz także