Skanowanie z możliwością przeszukiwania (Searchable PDF/OOXML)

Skanowanie z możliwością przeszukiwania (Searchable Scan) to zaawansowana funkcja skanowania, która polega na wykorzystaniu technologii OCR (Optyczne Rozpoznawanie Znaków) w celu konwersji tekstu zawartego na zeskanowanym obrazie dokumentu na tekst cyfrowy, który jest następnie osadzany w pliku wyjściowym. Dzięki temu, zeskanowany dokument staje się przeszukiwalny, a tekst w nim zawarty można zaznaczać, kopiować i edytować, podobnie jak w standardowym dokumencie elektronicznym. Najczęściej ta funkcja jest wykorzystywana do tworzenia Searchable PDF (PDF z możliwością przeszukiwania) lub dokumentów w formacie OOXML (np. DOCX, XLSX) z możliwością edycji.

W standardowym skanowaniu, dokument fizyczny jest przekształcany na obraz rastrowy (bitmapę), tak jak zdjęcie. Tekst na tym obrazie jest jedynie zbiorem pikseli i nie jest rozpoznawany jako tekst przez komputer, co uniemożliwia jego przeszukiwanie lub edycję. Funkcja skanowania z możliwością przeszukiwania dodaje warstwę inteligencji do procesu skanowania:

  1. Skaner rejestruje obraz dokumentu.
  2. Wbudowane w skanerze/urządzeniu wielofunkcyjnym oprogramowanie OCR (lub oprogramowanie na komputerze, jeśli skanowanie odbywa się do aplikacji z funkcją OCR) analizuje zeskanowany obraz strony.
  3. Algorytmy OCR identyfikują kształty liter, cyfr i symboli, a następnie konwertują je na odpowiadające im znaki tekstowe.
  4. Rozpoznany tekst cyfrowy jest następnie osadzany w pliku wyjściowym w taki sposób, aby był niewidoczny na wierzchu obrazu (pozostając w warstwie pod spodem) w przypadku formatu Searchable PDF, lub zastępuje obraz tekstu w przypadku formatów OOXML.

W formacie Searchable PDF, zeskanowana strona nadal wygląda wizualnie jak oryginalny obraz (zachowując formatowanie i wygląd dokumentu), ale pod spodem znajduje się niewidzialna, indeksowalna warstwa tekstowa. Dzięki tej warstwie, możliwe jest:

  • Przeszukiwanie całego dokumentu PDF pod kątem konkretnych słów lub fraz za pomocą funkcji wyszukiwania w przeglądarce PDF (np. Adobe Acrobat Reader).
  • Zaznaczanie i kopiowanie tekstu z zeskanowanego obrazu.
  • Indeksowanie zawartości dokumentu przez systemy zarządzania dokumentami, co ułatwia ich późniejsze odnajdowanie.

W przypadku skanowania do formatów OOXML (takich jak DOCX), funkcja OCR przekształca zeskanowany dokument na dokument tekstowy z możliwością pełnej edycji w programach pakietu Office. Stopień zachowania oryginalnego formatowania w tym procesie może być różny i zależy od zaawansowania oprogramowania OCR.

Korzyści z używania funkcji skanowania z możliwością przeszukiwania to:

  • Łatwe odnajdywanie informacji: możliwość szybkiego wyszukiwania w zeskanowanych dokumentach.
  • Usprawniona archiwizacja cyfrowa: umożliwia efektywne zarządzanie dużymi zbiorami zeskanowanych dokumentów.
  • Możliwość edycji tekstu: przekształcanie dokumentów papierowych na edytowalne dokumenty cyfrowe (szczególnie w przypadku skanowania do OOXML).
  • Większa użyteczność zeskanowanych dokumentów: zwiększa wartość cyfrowych kopii dokumentów papierowych.

Funkcja ta jest kluczowa w cyfrowym obiegu dokumentów i systemach zarządzania dokumentami, gdzie możliwość szybkiego wyszukiwania i dostępu do informacji w zeskanowanych archiwach jest priorytetem.