Wykrywanie tekstu OCR i adnotacje transkrypcyjne

W jaki sposób Shaip dostarczył adnotacje transkrypcyjne na poziomie słowa i znaku do różnych źródeł tekstowych — dokumentów drukowanych, pisma odręcznego, oznakowań, tablic rejestracyjnych, paragonów — zbudowanych jako zestaw danych OCR klasy produkcyjnej i analizy dokumentów o dokładności 99%.

Wykrywanie tekstu OCR i adnotacje transkrypcji

Przegląd projektu

Ponieważ technologia OCR wykracza poza czyste, wydrukowane dokumenty, obejmując tekst ze świata rzeczywistego i inteligencję dokumentów, klient potrzebował kanału adnotacji, który byłby w stanie obsługiwać różne typy tekstu, czcionki, orientacje, języki i warunki powierzchni z precyzją zarówno przestrzenną, jak i na poziomie znaków.

Shaip zbudował kompleksowy proces adnotacji obejmujący umieszczanie pól ograniczających na poziomie słów, dokładną transkrypcję znaków, tagowanie wieloatrybutowe oraz podwójną przestrzenną i transkrypcyjną kontrolę jakości — generujący gotowe do modelowania zestawy danych OCR dla ponad 10 typów źródeł tekstu.

Kluczowe statystyki

Adnotacja do obrazu

Setki słów

Próg dokładności

99%

Źródła tekstu

10 +

Warstwy atrybutów

5

Wyzwania

  • Adnotacje każda widoczna instancja tekstu na poziomie słów — setki na gęsty obraz
  • łącząc precyzja przestrzennego pola ograniczającego w dokładna transkrypcja na poziomie znaku równolegle
  • Prowadzenie zakrzywiony, zniekształcony perspektywicznie i obrócony tekst na szyldach i etykietach produktów
  • Transkrypcja wyblakłe, o niskim kontraście i częściowo przesłonięte słowa bez odgadywania nieczytelnych znaków
  • Zarządzający tekst w mieszanym języku i w wielu skryptach w tym samym obrazie

Rozwiązanie

Adnotacja przestrzenna na poziomie słowa

Każdy widoczny fragment tekstu na każdym obrazie został indywidualnie opatrzony ciasno dopasowaną ramką ograniczającą na poziomie słowa – odzwierciedlającą dokładne położenie przestrzenne każdego elementu tekstu. W przypadku gęstych obrazów, takich jak paragony czy formularze, oznaczało to setki indywidualnych adnotacji na obraz, z których każda zachowywała precyzję wyrównania linii bazowej.

Transkrypcja na poziomie znaku

Obok ramki ograniczającej, adnotatorzy transkrybowali dokładną treść tekstową każdego słowa, w tym cyfry, znaki specjalne, interpunkcję i kombinacje alfanumeryczne. Ten podwójny proces – przestrzenny + transkrypcja – był realizowany równolegle z zachowaniem reguł spójności w obu warstwach.

Pokrycie wieloźródłowe

Zakres obejmował bardzo zróżnicowany zakres źródeł: dokumenty drukowane, notatki odręczne, oznakowanie uliczne, etykiety produktów, tablice rejestracyjne, witryny sklepowe, billboardy, paragony, faktury, menu i pola formularzy. Każdy rodzaj źródła miał własne wytyczne dotyczące adnotacji, dostosowane do jego cech wizualnych.

Tagowanie atrybutów 5-warstwowych

Każdy obszar tekstu z adnotacjami został wzbogacony o atrybuty obejmujące orientację tekstu (poziomą, pionową, ukośną), język i rodzaj pisma, przejrzystość tekstu (czytelny, częściowo czytelny, całkowicie nieczytelny), styl czcionki (drukowany lub pisany ręcznie) oraz rodzaj tła tekstu (zwykły, wzorzysty, złożony). Ta bogata warstwa atrybutów umożliwia wytrenowanemu modelowi obsługę zróżnicowanych, rzeczywistych warunków tekstowych, wykraczających poza standardowe rozpoznawanie tekstu (OCR) w dokumentach.

Próg widoczności i podwójna kontrola jakości

Minimalne progi widoczności były ściśle określone przez wytyczne – nieczytelny tekst był oznaczany, a nie odgadywany, co zapewniało integralność zbioru danych. Każdy adnotowany obraz przechodził dwuetapowy proces kontroli jakości (QA), łączący weryfikację precyzji pola ograniczającego i walidację dokładności transkrypcji, z progiem dokładności 99% na obu warstwach.

Zakres projektu

Typ zbioru danych Poziom adnotacji Źródła Atrybuty QA Dokładność
Wykrywanie tekstu OCR + transkrypcja Pola ze słowami + transkrypcja znaków 10+ typów źródeł 5 warstw atrybutów Podwójna przestrzenna + transkrypcyjna kontrola jakości 99%

Wyniki

  • Założona podwójny kanał transkrypcji przestrzennej na poziomie słów i znaków dla OCR AI
  • znormalizowane 10+ źródeł tekstu obejmujące dokumenty, tekst sceny i pismo odręczne
  • Dostarczany 5 warstw atrybutów do orientacji, języka, przejrzystości, czcionki i tła
  • Utrzymany Bramka o dokładności 99% w obu warstwach QA przestrzennej i transkrypcji
  • Włączono klienta digitalizacja dokumentów, OCR w handlu detalicznym, nawigacja, bankowość i prawo Aplikacje AI

Ogólnie rzecz biorąc, Shaip pomógł przekształcić wymóg adnotacji tekstowych z wielu źródeł w ustrukturyzowany, gotowy do produkcji proces OCR — taki, który obsługuje digitalizację dokumentów, wykrywanie tekstu scen, analizę handlu detalicznego, automatyzację bankowości i zgodność z przepisami prawnymi za pomocą sztucznej inteligencji z podwójną precyzją przestrzenną i transkrypcyjną.

Ikona cytatu

Shaip poradził sobie z ekstremalnymi przypadkami OCR, z którymi większość dostawców nie potrafi sobie poradzić – zakrzywionym tekstem na oznakowaniu, mieszanymi skryptami, wyblakłymi paragonami, odręcznymi notatkami. Ich podwójna kontrola jakości, zarówno w przypadku ramek ograniczających, jak i transkrypcji, dostarczyła nam danych szkoleniowych, które mogliśmy wdrożyć.

— Dyrektor, Document AI

★ ★ ★ ★ ★
Ikona cytatu