Wykrywanie tekstu OCR i adnotacje transkrypcyjne
W jaki sposób Shaip dostarczył adnotacje transkrypcyjne na poziomie słowa i znaku do różnych źródeł tekstowych — dokumentów drukowanych, pisma odręcznego, oznakowań, tablic rejestracyjnych, paragonów — zbudowanych jako zestaw danych OCR klasy produkcyjnej i analizy dokumentów o dokładności 99%.
Przegląd projektu
Ponieważ technologia OCR wykracza poza czyste, wydrukowane dokumenty, obejmując tekst ze świata rzeczywistego i inteligencję dokumentów, klient potrzebował kanału adnotacji, który byłby w stanie obsługiwać różne typy tekstu, czcionki, orientacje, języki i warunki powierzchni z precyzją zarówno przestrzenną, jak i na poziomie znaków.
Shaip zbudował kompleksowy proces adnotacji obejmujący umieszczanie pól ograniczających na poziomie słów, dokładną transkrypcję znaków, tagowanie wieloatrybutowe oraz podwójną przestrzenną i transkrypcyjną kontrolę jakości — generujący gotowe do modelowania zestawy danych OCR dla ponad 10 typów źródeł tekstu.
Kluczowe statystyki
Adnotacja do obrazu
Setki słów
Próg dokładności
99%
Źródła tekstu
10 +
Warstwy atrybutów
5
Wyzwania
- Adnotacje każda widoczna instancja tekstu na poziomie słów — setki na gęsty obraz
- łącząc precyzja przestrzennego pola ograniczającego w dokładna transkrypcja na poziomie znaku równolegle
- Prowadzenie zakrzywiony, zniekształcony perspektywicznie i obrócony tekst na szyldach i etykietach produktów
- Transkrypcja wyblakłe, o niskim kontraście i częściowo przesłonięte słowa bez odgadywania nieczytelnych znaków
- Zarządzający tekst w mieszanym języku i w wielu skryptach w tym samym obrazie
Rozwiązanie
Adnotacja przestrzenna na poziomie słowa
Każdy widoczny fragment tekstu na każdym obrazie został indywidualnie opatrzony ciasno dopasowaną ramką ograniczającą na poziomie słowa – odzwierciedlającą dokładne położenie przestrzenne każdego elementu tekstu. W przypadku gęstych obrazów, takich jak paragony czy formularze, oznaczało to setki indywidualnych adnotacji na obraz, z których każda zachowywała precyzję wyrównania linii bazowej.
Transkrypcja na poziomie znaku
Obok ramki ograniczającej, adnotatorzy transkrybowali dokładną treść tekstową każdego słowa, w tym cyfry, znaki specjalne, interpunkcję i kombinacje alfanumeryczne. Ten podwójny proces – przestrzenny + transkrypcja – był realizowany równolegle z zachowaniem reguł spójności w obu warstwach.
Pokrycie wieloźródłowe
Zakres obejmował bardzo zróżnicowany zakres źródeł: dokumenty drukowane, notatki odręczne, oznakowanie uliczne, etykiety produktów, tablice rejestracyjne, witryny sklepowe, billboardy, paragony, faktury, menu i pola formularzy. Każdy rodzaj źródła miał własne wytyczne dotyczące adnotacji, dostosowane do jego cech wizualnych.
Tagowanie atrybutów 5-warstwowych
Każdy obszar tekstu z adnotacjami został wzbogacony o atrybuty obejmujące orientację tekstu (poziomą, pionową, ukośną), język i rodzaj pisma, przejrzystość tekstu (czytelny, częściowo czytelny, całkowicie nieczytelny), styl czcionki (drukowany lub pisany ręcznie) oraz rodzaj tła tekstu (zwykły, wzorzysty, złożony). Ta bogata warstwa atrybutów umożliwia wytrenowanemu modelowi obsługę zróżnicowanych, rzeczywistych warunków tekstowych, wykraczających poza standardowe rozpoznawanie tekstu (OCR) w dokumentach.
Próg widoczności i podwójna kontrola jakości
Minimalne progi widoczności były ściśle określone przez wytyczne – nieczytelny tekst był oznaczany, a nie odgadywany, co zapewniało integralność zbioru danych. Każdy adnotowany obraz przechodził dwuetapowy proces kontroli jakości (QA), łączący weryfikację precyzji pola ograniczającego i walidację dokładności transkrypcji, z progiem dokładności 99% na obu warstwach.
Zakres projektu
| Typ zbioru danych | Poziom adnotacji | Źródła | Atrybuty | QA | Dokładność |
|---|---|---|---|---|---|
| Wykrywanie tekstu OCR + transkrypcja | Pola ze słowami + transkrypcja znaków | 10+ typów źródeł | 5 warstw atrybutów | Podwójna przestrzenna + transkrypcyjna kontrola jakości | 99% |
Wyniki
- Założona podwójny kanał transkrypcji przestrzennej na poziomie słów i znaków dla OCR AI
- znormalizowane 10+ źródeł tekstu obejmujące dokumenty, tekst sceny i pismo odręczne
- Dostarczany 5 warstw atrybutów do orientacji, języka, przejrzystości, czcionki i tła
- Utrzymany Bramka o dokładności 99% w obu warstwach QA przestrzennej i transkrypcji
- Włączono klienta digitalizacja dokumentów, OCR w handlu detalicznym, nawigacja, bankowość i prawo Aplikacje AI
Ogólnie rzecz biorąc, Shaip pomógł przekształcić wymóg adnotacji tekstowych z wielu źródeł w ustrukturyzowany, gotowy do produkcji proces OCR — taki, który obsługuje digitalizację dokumentów, wykrywanie tekstu scen, analizę handlu detalicznego, automatyzację bankowości i zgodność z przepisami prawnymi za pomocą sztucznej inteligencji z podwójną precyzją przestrzenną i transkrypcyjną.
Shaip poradził sobie z ekstremalnymi przypadkami OCR, z którymi większość dostawców nie potrafi sobie poradzić – zakrzywionym tekstem na oznakowaniu, mieszanymi skryptami, wyblakłymi paragonami, odręcznymi notatkami. Ich podwójna kontrola jakości, zarówno w przypadku ramek ograniczających, jak i transkrypcji, dostarczyła nam danych szkoleniowych, które mogliśmy wdrożyć.
— Dyrektor, Document AI