Skanowanie z możliwością przeszukiwania (Searchable PDF/OOXML)
Skanowanie z możliwością przeszukiwania (Searchable Scan) to zaawansowana funkcja skanowania, która polega na wykorzystaniu technologii OCR (Optyczne Rozpoznawanie Znaków) w celu konwersji tekstu zawartego na zeskanowanym obrazie dokumentu na tekst cyfrowy, który jest następnie osadzany w pliku wyjściowym. Dzięki temu, zeskanowany dokument staje się przeszukiwalny, a tekst w nim zawarty można zaznaczać, kopiować i edytować, podobnie jak w standardowym dokumencie elektronicznym. Najczęściej ta funkcja jest wykorzystywana do tworzenia Searchable PDF (PDF z możliwością przeszukiwania) lub dokumentów w formacie OOXML (np. DOCX, XLSX) z możliwością edycji.
W standardowym skanowaniu, dokument fizyczny jest przekształcany na obraz rastrowy (bitmapę), tak jak zdjęcie. Tekst na tym obrazie jest jedynie zbiorem pikseli i nie jest rozpoznawany jako tekst przez komputer, co uniemożliwia jego przeszukiwanie lub edycję. Funkcja skanowania z możliwością przeszukiwania dodaje warstwę inteligencji do procesu skanowania:
- Skaner rejestruje obraz dokumentu.
- Wbudowane w skanerze/urządzeniu wielofunkcyjnym oprogramowanie OCR (lub oprogramowanie na komputerze, jeśli skanowanie odbywa się do aplikacji z funkcją OCR) analizuje zeskanowany obraz strony.
- Algorytmy OCR identyfikują kształty liter, cyfr i symboli, a następnie konwertują je na odpowiadające im znaki tekstowe.
- Rozpoznany tekst cyfrowy jest następnie osadzany w pliku wyjściowym w taki sposób, aby był niewidoczny na wierzchu obrazu (pozostając w warstwie pod spodem) w przypadku formatu Searchable PDF, lub zastępuje obraz tekstu w przypadku formatów OOXML.
W formacie Searchable PDF, zeskanowana strona nadal wygląda wizualnie jak oryginalny obraz (zachowując formatowanie i wygląd dokumentu), ale pod spodem znajduje się niewidzialna, indeksowalna warstwa tekstowa. Dzięki tej warstwie, możliwe jest:
- Przeszukiwanie całego dokumentu PDF pod kątem konkretnych słów lub fraz za pomocą funkcji wyszukiwania w przeglądarce PDF (np. Adobe Acrobat Reader).
- Zaznaczanie i kopiowanie tekstu z zeskanowanego obrazu.
- Indeksowanie zawartości dokumentu przez systemy zarządzania dokumentami, co ułatwia ich późniejsze odnajdowanie.
W przypadku skanowania do formatów OOXML (takich jak DOCX), funkcja OCR przekształca zeskanowany dokument na dokument tekstowy z możliwością pełnej edycji w programach pakietu Office. Stopień zachowania oryginalnego formatowania w tym procesie może być różny i zależy od zaawansowania oprogramowania OCR.
Korzyści z używania funkcji skanowania z możliwością przeszukiwania to:
- Łatwe odnajdywanie informacji: możliwość szybkiego wyszukiwania w zeskanowanych dokumentach.
- Usprawniona archiwizacja cyfrowa: umożliwia efektywne zarządzanie dużymi zbiorami zeskanowanych dokumentów.
- Możliwość edycji tekstu: przekształcanie dokumentów papierowych na edytowalne dokumenty cyfrowe (szczególnie w przypadku skanowania do OOXML).
- Większa użyteczność zeskanowanych dokumentów: zwiększa wartość cyfrowych kopii dokumentów papierowych.
Funkcja ta jest kluczowa w cyfrowym obiegu dokumentów i systemach zarządzania dokumentami, gdzie możliwość szybkiego wyszukiwania i dostępu do informacji w zeskanowanych archiwach jest priorytetem.