Firmy działające w branży produkcyjnej, usługowej czy też handlowej, różnego rodzaju instytucje, biura oraz zakłady przemysłowe.
Wieloletnia działalność skutkuje posiadaniem obszernej dokumentacji papierowej. Począwszy od przepisów wewnątrzzakładowych, norm, zaleceń, protokołów, instrukcji obsługi, dokumentacji technicznej, aż po dokumenty kadrowe, płacowe i księgowe. Problemem w tym przypadku staje się aktualizacja dokumentacji wymuszana zmianami przepisów, czy też koniecznością naniesienia poprawek.
Przetworzenie dokumentacji papierowej na postać elektroniczną z wykorzystaniem procesu optycznego rozpoznawania tekstu (OCR) umożliwia dalszą edycję dokumentów w celu ich aktualizacji bez angażowania personelu w czasochłonne przepisywanie dokumentów. Jednocześnie proces digitalizacji zapewnia możliwość poprawy jakości zniszczonych dokumentów a w szczególności rysunków technicznych, które mogą być następnie wyplotowane, czy też wykorzystane jako podkład do dalszej obróbki w programie wspomagającym projektowanie.
Zadaniem oprogramowania do optycznego rozpoznawania znaków (OCR) jest elektroniczne tłumaczenie obrazów rastrowych na tekst. Oprócz zwykłego tekstu rozpoznawane są także, takie cechy jak: krój i wielkość czcionek, tabele, akapity, szpalty.
Podstawą działania wszystkich programów do rozpoznawania znaków jest jedna zasada: gdy silnik oprogramowania zidentyfikuje pojedynczy znak, próbuje rozpoznać charakterystyczne jego cechy. Następnie porównując je ze swoją wewnętrzną biblioteką znaków znajduje najlepiej dopasowany. Ten proces powtarza się dla wszystkich znaków w słowie a następnie uruchamiany jest słownik, aby znaleźć najlepiej pasujące słowo. Taki sposób analizy pozwala zachować wysoką skuteczność rozpoznanego tekstu.
a. Przydatność materiału do rozpoznania OCR. Należy określić, które dokumenty mogą wykluczać rozpoznanie w zadowalającym stopniu. Przykładowo:
odręczne notatki rzadko są sporządzone jednolitym stylem pisma w stopniu potrzebnym do skutecznego rozpoznania.
Poważnie uszkodzony papier, jak również kolejne kopie maszynopisu mogą prowadzić do nieczytelnego rozpoznania tekstu.
OCR dla dokumentów zawierających formuły matematyczne, skomplikowane wzory chemiczne, czy też grafy przepływu jest możliwy tylko w szczególnych przypadkach.
Jeśli jednak projekt wymaga OCR to istotnym staje się określenie poziomu dokładności wystarczającej do dalszej pracy nad dokumentem przez doświadczonych użytkowników.
b. Wymagany próg dokładności - pakiety oprogramowania do OCR zapewniają pewien poziom dokładności w określonych warunkach. Dokładność o której można przeczytać w danych technicznych różnych pakietów nie daje prawdziwego obrazu w jaki sposób oprogramowanie będzie działać na rzeczywistych dokumentach, niejednokrotnie zniszczonych. Będziemy zmierzać do określenia dokładności, jako procentowej ilości znaków uznanych za poprawne w całkowitej ilości znaków konwersji. Dopełnieniem tego zbioru są znaki niepewne. Jednym ze sposobów określenia dopuszczalnego progu dokładności OCR jest ustalenie go przed skanowaniem i wizualne sprawdzenie rezultatu OCR w wybranych partiach materiału. Dla jednorazowego procesu, zwykle mniej kosztowne i czasochłonne w procesie OCR jest przygotowanie próby reprezentatywnej odpowiednich materiałów i przetestowanie w praktyce dokładności rozpoznawania tej próbki. Takie podejście ma wyraźną przewagę, wskazując na potencjalne problemy stwarzane przez materiał oraz pozwala na ewentualną zmianę decyzji co do szczegółów skanowania czy samego procesu OCR lub zmianę kryteriów.
c. Potencjał dalszego wykorzystania wyników rozpoznania OCR.
Dokumenty w postaci cyfrowej po rozpoznaniu OCR zapisywane są w formatach umożliwiających dalszą edycję w odpowiednich programach (np. Microsoft Word, Excel, Open Office). Zaznaczyć tu należy, że ilość stron takiego dokumentu jak również położenie i wielkość obszarów z tekstem może znacznie się różnić od oryginału. Spowodowane jest to wielkością i krojem czcionek, które są określane przez programy z pewnym przybliżeniem a następnie przypisywane do istniejących czcionek w komputerze na którym dokument jest edytowany.
Dokumenty w postaci cyfrowej po rozpoznaniu OCR zapisywane są w formatach z ukrytą warstwą tekstową umożliwiających publikacje w internecie (np. pdf, djvu). W tym przypadku dokładność rozpoznania tekstu ma trochę mniejsze znaczenie. Wyszukiwarki takie jak np. Google używają skomplikowanych metod wyszukiwania, gdzie błędne lub nietrafione słowa będą porównywane do rzeczywistego i zwracane te najbardziej podobne, więc np. założone 90% poziomu dokładności prowadzić może do 98% trafności poszukiwań. Wykorzystanie OCR jako narzędzia indeksowania jest coraz częstszą praktyką w digitalizacji na dużą skalę, nie tylko przez firmy ale także przez instytucje pożytku publicznego.
Dokumentacja techniczna, która zwykle jest gromadzona przez lata, charakteryzuje się dużą różnorodnością. Przed rozpoczęciem skanowania grupujemy dokumenty ze względu na: rodzaj papieru, stopień zabrudzenia, zakres uszkodzeń mechanicznych i uwzględniamy je w dalszych etapach.
Dokumenty do formatu A4 dobrej jakości na papierze niezbyt zniszczonym i śliskim, mogą zostać przekazane do skanowania automatycznego.
Na tym etapie należy też podjąć decyzję jaką przyjąć rozdzielczość skanowania dla poszczególnych dokumentów. Kryteria które mogą być pomocne w decyzji przedstawiamy poniżej.
Konsekwencją niskiej rozdzielczości są małe rozmiary plików ale też w przypadku drobnego druku zwiększa się prawdopodobieństwo uznania poszczególnych elementów liter w jedną plamę i wtedy takie litery jak „a, o, u, e, s,”, „g, q”, „v, r” oraz „t, l, ł, j, i, f”, „m, w” przestaną być rozróżnialne.
Zbyt duża rozdzielczość może powodować oprócz nadmiernej wielkości plików także problemy przy OCR bo poszczególne litery będą widziane w całości, tylko ich poszczególne elementy będą analizowane jako złożone obszary o różnej jasności i prawdopodobnie zostaną rozpoznane jako ilustracje lub grafika. Możliwa jest też sytuacja że litery "w, m, d" zostaną rozpoznane odpowiednio jako "vv, nn, ol".
Do skanowania dokumentów wielkoformatowych należy dobrać rozdzielczość na tyle wysoką by mieć pewność że najdrobniejsze elementy będą czytelne a jednocześnie na tyle niską by szumy tła papieru były łatwe do usunięcia.
Dla niektórych dokumentów ze względu na istniejący raster drukarski należy dodatkowo zweryfikować przyjęte założenia, Rozdzielczość skanowania powinna być co najmniej dwa razy wyższa niż siatka punktów rastra drukarskiego.
Dokumenty zniszczone, na papierze o niskiej gramaturze, oraz wielkoformatowe należy skanować ręcznie ze szczególną ostrożnością.
Należy przyjąć następujące kryteria do skanowania:
Dla dokumentów które mają zostać poddane procesowi OCR zawierające głównie tekst, minimalna zalecana norma to 8-bit w skali szarości i 300 dpi. Gdy tekst jest bardzo mały, zalecana rozdzielczość to 450-600dpi.
Dla źródeł zawierających tekst z kolorowymi ilustracjami lub tłem zalecana rozdzielczość 300 dpi, głębokość 24bit, bez kompresji lub kompresja bezstratna.
Dla źródeł zawierających tekst z czarno-białymi ilustracjami (zdjęcia lub odcienie szarości) rozdzielczość 300 dpi, głębokość bit 8bit, bez kompresji lub kompresja bezstratna.
Aby zwiększyć skuteczność OCR należy tak przekształcić obraz strony tak, by uzyskać poziome proste linie tekstu możliwie jednolicie ciemne na możliwie jasnym tle. Następnie zgodnie z przyjętymi założeniami, tworzona jest struktura katalogów, oraz uaktualniane nazwy plików tak by odpowiadały strukturze logicznej katalogów.
Dla niektórych tekstów przydatna okazuje się możliwość przygotowania bazy unikalnych kształtów liter. Za pomocą plików DjVu tworzymy słowniki kształtów i wykorzystujemy je jako próbki do uczenia algorytmów rozpoznawania tekstu.
Niezależnie od tego czy był zrealizowany poprzedni punkt czy tez nie, wymagane jest rozpoznanie obszarów tekstu, grafiki, tabel, kodów kreskowych, oraz odpowiednie ich ponumerowanie by zachować ciągłość logiczną publikacji na stronie, ze szczególną uwagą należy analizować:
tekst podzielony na szpalty opatrzony własnymi nagłówkami.
umieszczony w ramkach.
tabele, i sposób orientacji tekstu.
W tych przypadkach wymagana jest ręczna korekta procesu OCR przez operatora. W wyjątkowych przypadkach dla bardzo zniszczonych i szczególnie cennych dokumentów gdy automatyczny OCR nie daje oczekiwanych rezultatów istnieje możliwość po wcześniejszym uzgodnieniu z klientem manualnej korekty rozpoznanego tekstu, czy też jego uzupełnienia.
Po ponownym przetworzeniu stron dla których konieczne były korekty obszarów i języka, tworzone są dokumenty wielostronicowe lub kolekcje pojedynczych plików w odpowiednich katalogach w uzgodnionym formacie (np. rtf, doc, odt, xls, pdf, djvu ).
Podsumowaniem procesu optycznego rozpoznawania tekstu (OCR) w dokumentacji, jest utworzenie raportu zawierającego wszystkie niezbędne dane pozwalające ocenić klientowi jego skuteczność.
Zwykle celem konwersji posiadanych rysunków na postać cyfrową, jest użycie ich jako:
podkładu do programów wspomagających projektowanie.
źródła do wykonania kopii papierowych w późniejszym terminie
dokumentów archiwalnych w celu udostępniania upoważnionym osobom.
Każde zastosowanie determinuje finalną postać pliku.
Pierwszym krokiem jest określenie charakterystyki tonalnej obrazu. Warto określić rozkład szczegółów na różnych poziomach jasności. Tę informację można wykorzystać dla określenia ustawień w już na etapie skanowania. Ponieważ możliwość zmiany krzywej tonalnej i współczynnika gamma w celu ustalenia rozkładu cieni w skanerze pozwala uzyskać znacznie więcej szczegółów z wykorzystaniem 36-bitowego słowa w obrazie cyfrowym. Ten etap ma na celu zwiększenie kontrastu pomiędzy użytecznymi elementami oraz tymi które zostały zaklasyfikowane jako tło).
Oczywiście największy kontrast daje wynikowy obraz kodowany 1-bitowo, jednakże pozbawia nas możliwości ręcznej korekty wybranych obszarów, może też powodować że elementy rysunku posiadające podobną jasność zostaną przyrównane do czarnego i przestaną być rozróżnialne, albo jeden z nich będzie miał odcień nieco jaśniejszy i zostanie mu przypisany kolor tła, skutkiem czego zostanie na zawsze stracony.
Skanowanie w odcieniach szarości wiąże się z analogicznymi problemami w przypadku rysunków zawierających elementy o podobnej jasności ale w różnych kolorach.
Rozwiązaniem jest skanowanie z pełnym kolorem oraz zastosowanie różnych korekt na poszczególnych etapach obróbki graficznej rysunków. Dla dokumentów, które mają być w przyszłości drukowane lub stosowane jako podkład, niezbędne jest przeprowadzenie czyszczenia rysunku z przebarwień i szumu tła.
Zwykle rysunki które mają być podkładem do programów wspomagających projektowanie zapisywane są do Tiff-a o rozpiętości 1 lub 8-bitów odcieni szarości, nawet kosztem utraty niektórych szczegółów.
Do wykonania kopii papierowych w późniejszym terminie, koniecznym okazuje się doprowadzenie do postaci możliwie jasnego lub białego tła i zachowania oryginalnej kolorystyki linii.
W przypadku dokumentów które maja być archiwizowane zachowujemy rysunek w oryginalnych kolorach.
Niezależnie od wybranego celu jakiemu ma sprostać postać elektroniczna, skanowane rysunki należy wykadrować i wyprostować korygując zniekształcenia które wynikają z właściwości papieru. Zwykle wystarczy przekształcić rysunek tak, by ramka rysunku była prostokątem o bokach równoległych do odpowiednich krawędzi. Jednocześnie należy zadbać by te operacje nie zniekształciły skali rysunku.
Niejednokrotnie standardowe procedury mające na celu doprowadzenie do postaci „czarne linie na białym tle” zawodzą.
Z pomocą przychodzą wówczas algorytmy użyte w technologii DjVu do wykrywania istotnych elementów obrazu, które pozwalają wyodrębnić warstwę treści rysunku i odseparować ją od warstwy tła. Stosując odpowiednie profile otrzymujemy rysunek składający się z linii o właściwych kolorach na białym tle. Oczywiście niekiedy zachodzi potrzeba drobnych korekt, np. usunięcie zbyt dużego ziarna pozostałego ze zniszczonych kopii ozalidowych.
W przypadku udostępniania rysunków, plik wynikowy w formacie DjVu ma niebywałą zaletę, gdyż pozwala wyświetlić zarówno rysunek w oryginale, jak i oczyszczoną warstwę treści.
W zależności od wybranego zastosowania zapisujemy rysunki w jednym lub kilku wybranych formatach.