Wzrost wykorzystania optycznego rozpoznawania znaków można przede wszystkim przypisać wzrostowi produkcji systemów automatycznego rozpoznawania. W rezultacie globalna wartość rynkowa technologii OCR, ustalona na $ 8.93 mld w 2021 przewiduje się, że wzrośnie o 15.4% CAGR w latach 2022-2030.
Ale czym właściwie jest technologia OCR? I dlaczego zmienia zasady gry dla firm opracowujących wydajne modele sztucznej inteligencji? Dowiedzmy Się.
Co to jest OCR (optyczne rozpoznawanie znaków)?
OCR to technologia, która konwertuje różne typy dokumentów, takie jak zeskanowane dokumenty papierowe, pliki PDF lub obrazy tekstu, na edytowalne i przeszukiwalne dane. Działa poprzez:
- Analiza struktury tekstu na obrazie
- Podział tekstu na wiersze i znaki
- Konwersja tych znaków wizualnych na tekst czytelny dla maszyny
Typowe zastosowania obejmują:
- Konwersja zeskanowanych dokumentów do edytowalnych plików tekstowych
- Digitalizacja książek drukowanych
- Wyodrębnianie tekstu ze zdjęć
- Konwersja recept pisanych ręcznie na tekst cyfrowy
- Rozpoznawanie tablic rejestracyjnych
Korzyści i wyzwania związane ze zbiorami danych typu Open Source
Firmy muszą zmierzyć się z korzyściami i wyzwaniami, aby zrozumieć, czy muszą zdecydować się na bezpłatne korzystanie z danych w swoich aplikacjach ML.
Korzyści
- Dane są łatwo dostępne. Ze względu na dostępność danych koszt tworzenia aplikacji jest znacznie obniżony.
- Czas i wysiłek poświęcony na zbieranie danych dla aplikacji są znacznie skrócone, ponieważ zestaw danych jest łatwo dostępny.
- Istnieje wiele forów społecznościowych lub grup pomocy, które pomagają uczyć się, dostosowywać i optymalizować zbiór danych.
- Jedną z głównych zalet zestawu danych o otwartym kodzie źródłowym jest to, że nie nakłada żadnych ograniczeń na dostosowywanie.
- Dane Open-Source są dostępne dla dużej części populacji, dzięki czemu analizy i innowacje są możliwe bez barier monetarnych.
Wyzwania
- Dane specyficzne dla projektu są trudne do zdobycia. Dodatkowo istnieje możliwość pominięcia informacji i nieprawidłowego wykorzystania dostępnych danych.
- Pozyskiwanie zastrzeżonych danych wymaga czasu, wysiłku i jest kosztowne
- Chociaż pozyskiwanie danych może być łatwiejsze, koszty wiedzy i analizy mogą przewyższać początkową przewagę.
- Inni programiści również wykorzystują te same dane do tworzenia aplikacji.
- Te zbiory danych są bardzo podatne na naruszenia bezpieczeństwa, prywatności i zgody.
22 najlepszych zestawów danych pisma ręcznego i OCR do uczenia maszynowego

Wiele zestawów danych typu open source jest dostępnych do tworzenia aplikacji do rozpoznawania tekstu. Niektóre z najlepszych 22 to
Baza danych NIST
NIST lub National Institute of Science oferuje bezpłatną kolekcję ponad 3600 próbek pisma ręcznego z ponad 810,000 XNUMX obrazów znaków
Baza danych MNIST
Pochodząca ze specjalnej bazy danych NSIT 1 i 3, baza danych MNIST jest skompilowanym zbiorem 60,000 10,000 odręcznych liczb dla zestawu uczącego i XNUMX XNUMX przykładów dla zestawu testowego. Ta baza danych typu open source pomaga trenować modele w zakresie rozpoznawania wzorców, jednocześnie poświęcając mniej czasu na przetwarzanie wstępne.
Wykrywanie tekstu
Baza danych typu open source, zestaw danych Text Detection zawiera około 500 obrazów wewnętrznych i zewnętrznych szyldów, tabliczek na drzwi, tabliczek ostrzegawczych i innych.
OCR Stanforda
Opublikowany przez Stanford, ten bezpłatny zestaw danych jest ręcznie pisanym zbiorem słów przez MIT Spoken Language Systems Group.
Tekst Street View
Ten zbiór danych zebrany ze zdjęć Google Street View zawiera obrazy do wykrywania tekstu, głównie tablic i znaków drogowych.
Baza dokumentów
Baza dokumentów to zbiór 941 odręcznych dokumentów, w tym tabel, wzorów, rysunków, diagramów, list i innych, od 189 pisarzy.
Wyrażenia matematyczne
Wyrażenia matematyczne to baza danych zawierająca 101 symboli matematycznych i 10,000 XNUMX wyrażeń.
Numery domów Street View
Pobrane z Google Street View, to Street View House Numbers to baza danych zawierająca 73257 cyfr numeru domu.
Środowisko naturalne OCR
Natural Environment OCR to zbiór danych obejmujący prawie 660 obrazów na całym świecie i 5238 adnotacji tekstowych.
Wyrażenia matematyczne
Ponad 10,000 101 wyrażeń z ponad XNUMX symbolami matematycznymi.
Odręczne chińskie znaki
Zbiór danych zawierający 909,818 10 odręcznych obrazów chińskich znaków, co odpowiada około XNUMX artykułom prasowym.
Tekst drukowany w języku arabskim
Leksykon zawierający 113,284 10 słów przy użyciu XNUMX czcionek arabskich.
Odręczny tekst w języku angielskim
Odręczny tekst w języku angielskim na tablicy zawierający ponad 1700 wpisów.
Obrazy 3000 środowisk
3000 zdjęć z różnych środowisk, w tym scen zewnętrznych i wewnętrznych, przy różnym oświetleniu.
Dane Chars74K
74,000 XNUMX obrazów cyfr w języku angielskim i kannada.
IAM (pismo ręczne IAM)
Baza danych IAM zawiera 13,353 657 odręcznych obrazów tekstowych autorstwa XNUMX autorów z korpusu języka angielskiego Lancaster-Oslo/Bergen.
FUNSD (zrozumienie formularza w dokumentach zeskanowanych z dużą częstotliwością)
FUNSD zawiera 199 opatrzonych adnotacjami, zeskanowanych formularzy o zróżnicowanym i hałaśliwym wyglądzie, które utrudniają zrozumienie formularza.
Tekst OCR
TextOCR porównuje rozpoznawanie tekstu na dowolnie ukształtowanym tekście sceny w naturalnych obrazach.
Twittera 100 tys
Twitter100k to duży zbiór danych umożliwiający słabo nadzorowane wyszukiwanie w różnych mediach.
SSIG-SegPlate – segmentacja znaków tablicy rejestracyjnej (LPCS)
Ten zbiór danych ocenia segmentację znaków tablicy rejestracyjnej (LPCS) na podstawie 101 zdjęć pojazdów w ciągu dnia.
105,941 12 obrazów Sceny naturalne Dane OCR w XNUMX językach
Dane obejmują 12 języków (6 azjatyckich, 6 europejskich) oraz różne naturalne sceny i kąty. Zawiera ramki ograniczające na poziomie linii i transkrypcje tekstu. Jest to przydatne w przypadku wielojęzycznych zadań OCR.
Zestaw danych obrazu indyjskiego szyldu
Zbiór danych zawiera obrazy indyjskich znaków drogowych do klasyfikacji i wykrywania, wykonane w różnych warunkach pogodowych w dzień, wieczorem i w nocy.
Były to jedne z najlepszych zestawów danych typu open source do uczenia modeli ML dla aplikacji do wykrywania tekstu. Wybór takiego, który odpowiada Twoim potrzebom biznesowym i aplikacyjnym, może wymagać czasu i wysiłku. Musisz jednak poeksperymentować z tymi zestawami danych, zanim zdecydujesz się na odpowiedni.
[Przeczytaj także: Infografika OCR – Definicja, korzyści, wyzwania i przypadki użycia]
Aby pomóc Ci w rozwoju w kierunku niezawodnej i wydajnej aplikacji do wykrywania tekstu, Shaip – dostawca rozwiązań technologicznych o wysokiej randze. Wykorzystujemy nasze doświadczenie techniczne, aby tworzyć konfigurowalne, zoptymalizowane i wydajne zestawy danych treningowych OCR dla różnych projektów klientów. Aby w pełni zrozumieć nasze możliwości, skontaktuj się z nami już dziś.