Skanowanie i rozpoznawanie tekstu

Dzień dobry.

Prawdopodobnie każdy z nas stanął przed zadaniem, kiedy trzeba przetłumaczyć papierowy dokument na formę elektroniczną. Szczególnie często trzeba robić tych, którzy studiują, pracują z dokumentacją, tłumaczą teksty za pomocą słowników elektronicznych itp.

W tym artykule chciałbym podzielić się niektórymi podstawami tego procesu. Ogólnie rzecz biorąc, skanowanie i rozpoznawanie tekstu jest dość pracochłonne, ponieważ większość operacji musi być wykonywana ręcznie. Postaramy się zrozumieć kroki, jak, i dlaczego.

Nie każdy od razu rozumie jedną rzecz. Po zeskanowaniu (skalowanie wszystkich arkuszy na skanerze) otrzymasz zdjęcia formatu BMP, JPG, PNG, GIF (mogą występować inne formaty). Tak więc z tym obrazkiem trzeba uzyskać tekst - ta procedura nazywa się uznaniem. W tej kolejności i będzie poniższym stwierdzeniem.

Spis treści

  • 1 1. Czego potrzebuję do skanowania i rozpoznawania?
  • 2 2. Opcje skanowania tekstu
  • 3 3. Rozpoznanie tekstu dokumentu
    • 3.1 3.1 Tekst
    • 3.2 3.2 Zdjęcia
    • 3.3 3.3 Tabele
    • 3.4 3.4 Niepotrzebne przedmioty
  • 4 4. Rozpoznawanie plików PDF / DJVU
  • 5 5. Sprawdzanie błędów i zapisywanie wyników pracy

1. Czego potrzebujesz do skanowania i rozpoznawania?

1) Skaner

Aby przetłumaczyć drukowane dokumenty na formę tekstową, potrzebujesz skanera i odpowiednio "rodzimych" programów i sterowników, które zostały z nim dostarczone. Za ich pomocą można zeskanować dokument i zapisać go do dalszego przetwarzania.

Możesz użyć innych analogów, ale oprogramowanie dostarczone ze skanerem w zestawie zwykle działa szybciej i ma więcej opcji.

W zależności od rodzaju skanera szybkość pracy może się znacznie różnić. Istnieją skanery, które mogą uzyskać obraz z arkusza w 10 sekund, a niektóre z nich zostaną odebrane w ciągu 30 sekund. Jeśli zeskanujesz książkę na 200-300 arkuszy - myślę, że nie jest trudno obliczyć, ile razy wystąpi różnica czasu?

2) Program do rozpoznawania

W tym artykule pokażę ci pracę w jednym z najlepszych programów do skanowania i rozpoznawania absolutnie dowolnych dokumentów - ABBYY FineReader. Ponieważ program jest płatny, wtedy natychmiast podam link do drugiej - jego bezpłatnej analogowej formy Cunei. Jednak nie porównałbym ich, biorąc pod uwagę fakt, że FineReader wygrywa pod każdym względem, polecam nadal go wypróbować.

ABBYY FineReader 11

Oficjalna strona internetowa: http://www.abbyy.ru/

Jeden z najlepszych programów tego rodzaju. Jest przeznaczony do rozpoznawania tekstu na obrazie. Wiele opcji i funkcji jest wbudowanych. Potrafi parsować kilka czcionek, obsługuje nawet odręczne wersje (choć osobiście nie próbowałem, myślę, że bardzo mało prawdopodobne jest, aby rozpoznać wersję odręczną, o ile nie masz idealnego kaligraficznego pisma odręcznego). Więcej szczegółów na temat pracy z nim zostanie opisanych poniżej. Tutaj zauważamy, że artykuł powie Ci o pracy w wersji 11 programu.

Z reguły różne wersje programu ABBYY FineReader niewiele różnią się od siebie. Z łatwością możesz zrobić to samo w drugim. Główne różnice mogą dotyczyć wygody, szybkości programu i jego możliwości. Na przykład wcześniejsze wersje odmawiają otwarcia plików PDF i DJVU ...

3) Dokumenty do skanowania

Tak, postanowiłem oddać dokumenty w osobnym pudełku. W większości przypadków zeskanuj wszystkie podręczniki, gazety, artykuły, czasopisma itp. te książki i te literatury, które są pożądane. Czy to jest to, do czego zmierzam? Z własnego doświadczenia mogę powiedzieć tyle, że chcesz skanować - może już istnieje w sieci! Ile razy osobiście zaoszczędziłem czas, gdy znalazłem tę lub tę książkę już zeskanowaną w sieci. Mogłem tylko skopiować tekst do dokumentu i kontynuować pracę z nim.

Z tej prostej porady - zanim coś zeskanujesz, sprawdź, czy ktoś już ją przeskanował i nie musisz tracić czasu.

2. Opcje skanowania tekstu

Tutaj nie będę mówił o twoich sterownikach dla skanera, programach, które mu towarzyszyły, ponieważ wszystkie modele skanerów są różne, oprogramowanie jest też inne wszędzie i zgadnij, a jeszcze bardziej, aby pokazać, jak wykonać operację jest nierealistyczne.

Ale we wszystkich skanerach są te same ustawienia, które mogą znacznie wpłynąć na szybkość i jakość pracy. To tylko o nich, a my porozmawiamy tutaj. Wymienię je w kolejności.

1) Jakość skanowania - DPI

Po pierwsze, jakość skanowania powinna wynosić co najmniej 300 DPI. Wskazane jest, aby umieścić więcej, jeśli to możliwe. Im wyższa jest wartość DPI, tym wyraźniejszy będzie obraz, a zatem dalsze przetwarzanie będzie szybsze. Ponadto im wyższa jakość skanowania - tym mniej błędów trzeba będzie poprawić później.

Optymalny wariant zapewnia zwykle 300-400 DPI.

2) Chromatyczność

Ten parametr znacznie wpływa na czas skanowania (przy okazji, DPI również wpływa, ale są one tak silne, i tylko wtedy, gdy użytkownik stawia wysokie wartości).

Zwykle są trzy tryby:

- czarno-biały (idealny do zwykłego tekstu);

- szary (nadaje się do tekstu z tabelami i obrazami);

- kolor (w przypadku kolorowych czasopism, książek, ogólnie, dokumentów, w których ważna jest chromatyczność).

Zazwyczaj czas skanowania zależy od wyboru koloru. W końcu, jeśli masz duży dokument, nawet dodatkowe 5-10 sekund na całej stronie rozleje się w przyzwoitym czasie ...

3) Zdjęcia

Możesz otrzymać dokument nie tylko poprzez skanowanie, ale także poprzez jego fotografowanie. Z reguły w tym przypadku wystąpią inne problemy: zniekształcenie obrazu, rozmycie. Z tego powodu może być wymagana dalsza dalsza edycja i przetwarzanie otrzymanego tekstu. Osobiście nie polecam używania kamer w tym przypadku.

Ważne jest, aby pamiętać, że nie każdy taki dokument zostanie uznany; Jakość skanowania może być bardzo niska ...

3. Rozpoznawanie tekstu dokumentu

Zakładamy, że otrzymałeś pożądane zeskanowane strony. Najczęściej są to formaty: tif, bmb, jpg, png. Ogólnie rzecz biorąc, dla programu ABBYY FineReader - nie jest to bardzo ważne ...

Po otwarciu obrazów w programie ABBYY FineReader program z reguły uruchamia się na automacie, aby przydzielić obszary i je rozpoznać. Ale czasami nie robi to dobrze. W tym celu rozważymy ręczne przydzielenie wymaganych obszarów.

Ważne! Nie każdy od razu rozumie, że po otwarciu dokumentu w programie dokument źródłowy jest wyświetlany po lewej stronie w oknie, w którym wybiera się różne obszary. Po kliknięciu przycisku "Rozpoznanie" program w oknie po prawej stronie wyświetli dla ciebie tekst końcowy. Po uznaniu, przy okazji, wskazane jest sprawdzenie tekstu pod kątem błędów w tym samym programie FineReader.

3.1 Tekst

Ten obszar służy do wybierania tekstu. Zdjęcia i tabele muszą być z niego wykluczone. Rzadkie i nietypowe czcionki będą musiały zostać wprowadzone ręcznie ...

Aby podświetlić obszar tekstu, zwróć uwagę na panel na górze programu FineReader. Jest przycisk "T" (patrz zrzut ekranu poniżej, wskaźnik myszy znajduje się właśnie na tym przycisku). Kliknij na niego, a następnie na obrazku poniżej wybierz starannie prostokątny obszar, w którym znajduje się tekst. Przy okazji, w niektórych przypadkach trzeba tworzyć bloki tekstu 2-3, a czasami 10-12 na stronę, ponieważ Formatowanie tekstu może być inne, a jeden prostokąt nie przydziela całego obszaru.

Ważne jest, aby pamiętać, że pole tekstowe nie powinno robić zdjęć! W przyszłości zaoszczędzi to ci dużo czasu ...

3.2 Zdjęcia

Służy do wyróżniania obrazów i obszarów, które są trudne do rozpoznania ze względu na niską jakość lub nietypową czcionkę.

Na poniższym zrzucie ekranu wskaźnik myszy znajduje się na przycisku używanym do wybrania obszaru "obrazu". Nawiasem mówiąc, w tym obszarze możesz wybrać absolutnie dowolną część strony, a FineReader wstawi ją później w dokumencie jako zwykłe zdjęcie. Tj. po prostu "głupia" kopia ...

Zazwyczaj ten obszar służy do podświetlania źle zeskanowanych tabel, w celu wyróżnienia niestandardowego tekstu i czcionki, dla samych zdjęć.

3.3 Tabele

Poniższy zrzut ekranu pokazuje przycisk wyboru stołów. Ogólnie rzecz biorąc, ja osobiście używam go bardzo rzadko. Faktem jest, że będziesz musiał rutynowo narysować (w rzeczywistości) każdą linię na stole i pokazać, co i jak programować. Jeśli stół jest mały i niezbyt dobrej jakości, do tego celu zalecam skorzystanie z obszaru "obraz". Oszczędza to dużo czasu i można szybko utworzyć arkusz kalkulacyjny w programie Word na podstawie obrazu.

3.4 Niepotrzebne przedmioty

Ważne jest, aby pamiętać. Czasami na stronie są niepotrzebne elementy, które przeszkadzają w rozpoznawaniu tekstu lub w ogóle nie pozwalają wybrać żądanego obszaru. Można je usunąć za pomocą gumki do golenia.

Aby to zrobić, przejdź do trybu edycji obrazu.

Wybierz narzędzie "gumka" i wybierz niepotrzebny obszar. Zostanie on wymazany, a na jego miejscu będzie biała kartka papieru.

Przy okazji, polecam używać tej opcji tak często, jak to możliwe. Wypróbuj wszystkie zaznaczone obszary tekstowe, w których nie potrzebujesz fragmentu tekstu lub są niepotrzebne punkty, rozmycie, zniekształcenie - usuń gumkę. Dzięki temu rozpoznanie będzie szybsze!

4. Rozpoznawanie plików PDF / DJVU

Zasadniczo ten format rozpoznawania nie będzie różnił się od niczego innego - tj. Możesz z nim pracować, a także ze zdjęciami. Jedyne, czego program nie powinien być zbyt stary, jeśli nie otwierasz plików PDF / DJVU - zaktualizuj wersję do 11.

Mała rada. Po otwarciu dokumentu w programie FineReader - automatycznie rozpocznie rozpoznawanie dokumentu. Często w plikach PDF / DJVU określony obszar strony nie jest potrzebny w całym dokumencie! Aby usunąć taki obszar na wszystkich stronach, wykonaj następujące czynności:

1. Przejdź do sekcji edycji obrazu.

2. Włącz opcję przycinania.

3. Wybierz żądany obszar na wszystkich stronach.

4. Kliknij Zastosuj do wszystkich stron i wykończenia.

5. Sprawdzanie błędów i zapisywanie wyników pracy

Wydawałoby się, że mogą być jeszcze problemy, kiedy wszystkie obszary zostały przydzielone, a następnie uznane - zabrać i zapisać ... Nie było!

Najpierw musisz sprawdzić dokument!

Aby włączyć, po rozpoznaniu, w oknie po prawej stronie pojawi się przycisk "sprawdź", patrz zrzut ekranu poniżej. Po kliknięciu, program FineReader automatycznie pokaże ci obszary, w których program zawiera błędy i nie może wiarygodnie zidentyfikować konkretnego symbolu. Musisz tylko wybrać, czy zgadzasz się z opinią o programie, czy też wpisz swój symbol.

Nawiasem mówiąc, w połowie przypadków program w przybliżeniu da ci gotowe, gotowe słowo - musisz wybrać odpowiednią opcję za pomocą myszy.

Po drugie, po sprawdzeniu, musisz wybrać format, w którym zapiszesz wynik swojej pracy.

Tutaj FineReader daje Ci pełną rotację: możesz po prostu przesyłać informacje w programie Word jeden do jednego, a możesz zapisać je w jednym z wielu formatów. Chciałbym jednak podkreślić inny ważny aspekt. Który format nie zostanie wybrany, ważniejsze jest, aby wybrać rodzaj kopii! Rozważ najciekawsze opcje ...

Dokładna kopia

Wszystkie obszary wybrane na stronie w rozpoznanym dokumencie będą dokładnie odpowiadać oryginalnemu dokumentowi. Bardzo wygodna opcja, gdy ważne jest, aby nie stracić formatowania tekstu. Nawiasem mówiąc, czcionki będą również bardzo podobne do oryginału. Zalecam użycie tej opcji, aby wysłać dokument do programu Word, aby kontynuować pracę.

Edytowalna kopia

Ta opcja jest dobra, ponieważ dostajesz już sformatowaną wersję tekstu. Tj. wcięcie z "kilometra", które mogło znajdować się w dokumencie źródłowym - nie spotkasz się. Przydatna opcja, gdy znacząco zmienisz informacje.

Jednak nie trzeba wybierać, jeśli ważne jest, aby zachować styl dekoracji, czcionki, wcięcia. Czasami, jeśli uznanie nie jest zbyt udane - dokument może "pochylić się" ze względu na zmienione formatowanie. W takim przypadku wskazane jest wybranie dokładnej kopii.

Prosty tekst

Opcja dla tych, którzy po prostu chcą tekstu ze stroną bez wszystkiego. Nadaje się do dokumentów bez zdjęć i tabel.

Ten artykuł dotyczący skanowania i rozpoznawania dokumentu dobiegł końca. Mam nadzieję, że dzięki tym prostym wskazówkom będziesz w stanie rozwiązać swoje problemy ...

Powodzenia!