Parametry sekcji "OCR" dotyczą ukrytej warstwy tekstowej plików wynikowych zadania konwersji, a zatem plików w formatach DjVu lub HC-PDF. Ukryta warstwa tekstowa, nazywana także przeszukiwanym tekstem dokumentu, powstaje w wyniku wykonanaia operacji optycznego rozpoznania tekstu (OCR) lub też może być przejęta wprost, czy też wyekstrahowana z konwertowanego dokumentu elektronicznego. O tym, czy w danym zadaniu konwersji rozpoznanie to powinno być prowadzone i w jaki sposób, decydują wybrane wartości kolejnych parametrów.



*Perform OCR for the following input types* - wykonanie rozpoznania optycznego tekstu dla poniższych typów plików i dokumentów :
	DjVu - pliki w formacie DjVu.
	Image - pliki graficzne.
	PDF - dokumenty elektroniczne w formacie PDF lub PDF/A.
	VPD - pliki skierowane do drukarki wirtualnej.
	Office - dokumenty elektroniczne pakietu MS Office.
Rodzaj operacji, którą należy wykonać podczas konwersji poszczególnych typów plików i dokumentów :
	Perform OCR always - wykonanie rozpoznania optycznego tekstu dla każdego konwertowanego pliku.
	Perform OCR if no text - wykonanie rozpoznania optycznego tekstu będzie wykonane tylko dla tych konwertowanych dokumentów, które nie posiadają ukrytej warstwy tekstowej. Ponieważ pliki graficzne nie mogą posiadać ukrytej warstwy tekstowej, użycie tej opcji w ich przypadku, jest bezzasadne.
	Never perform OCR - Rozpoznanie tekstu podczas realizacji zadania konwersji nie będzie wykonywane.
*OCR parameter* - Parametr języka rozpoznania tekstu.
	Language - Pozwala określić nazwę języka, dla którego realizowane będzie rozpoznanie tekstu. Wartością domyślną jest "Automatic". Takie ustawienie oznacza, że nazwa języka zostanie przyjęta w oparciu o język systemu operacyjnego. Jeżeli rozpoznawany jest tekst w innym języku niż język systemu operacyjnego, zaleca się, by został wskazany odpowiednim wyborem z rozwijanej listy.
*Text extraction* - zachowanie rozpoznanego lub wyekstrahowanego tekstu w pliku wynikowym :
	Text separation level - Opcja określająca precyzję zachowania rozpoznanego tekstu w pliku wynikowym. Operacja OCR, poza rozpoznaniem kolejnych znaków, słów, wierszy,... zachowuje również informacje o położeniu rozpoznanego tekstu w stronie pliku wynikowego. Można wskazać, by operacja OCR realizowana była z najbardziej szczegółowym zachowaniem struktury rozpoznanego tekstu, zachowując informację o położeniu każdego rozpoznanego znaku (opcja "Characters") lub by zachowywane były informacje o położeniu każdego rozpoznanego słowa (opcja "Words").
	Remove duplicated text - Włączenie tej opcji powoduje usuwanie z rozpoznanego tekstu znaków parokrotnie powtórzonych, emitowanych np. z pliku PDF. Opcja jest przydatna zwłaszcza wtedy, gdy w tekście występuje czcionka z atrybutem cieniowania.

Zobacz także