27 września 2022 r.

15 najlepszych zestawów danych pisma ręcznego typu open source do trenowania modeli ML

Świat biznesu zmienia się w fenomenalnym tempie, ale ta cyfrowa transformacja nie jest tak rozległa, jak byśmy tego chcieli. Ludzie nadal zajmują się fizycznymi dokumentami w swoich codziennych operacjach, od dużych korporacji po małe firmy. Chociaż częstotliwość użytkowania znacznie się zmniejszyła, nie została całkowicie zlikwidowana. Zamiast czasochłonnego procesu skanowania dokumentów do użytku cyfrowego, korzystając z najnowszych OCR jest czasooszczędny i skuteczny.

Wzrost wykorzystania optycznego rozpoznawania znaków można przede wszystkim przypisać wzrostowi produkcji systemów automatycznego rozpoznawania. W rezultacie globalna wartość rynkowa technologii OCR, ustalona na $ 8.93 mld w 2021 przewiduje się, że wzrośnie o 15.4% CAGR w latach 2022-2030.

Ale czym właściwie jest technologia OCR? I dlaczego zmienia zasady gry dla firm opracowujących wydajne modele sztucznej inteligencji? Dowiedzmy Się.

Co to jest OCR?

Alternatywnie określane jako rozpoznawanie tekstu, OCR lub optyczne rozpoznawanie znaków to program, który wyodrębnia wydrukowane lub zapisane dane z zeskanowanych dokumentów, plików PDF zawierających tylko obrazy i odręcznych notatek do formatu czytelnego dla komputera. Oprogramowanie usuwa każdą literę z obrazu i łączy je w słowa i zdania, ułatwiając w ten sposób dostęp do dokumentów i ich edycję cyfrową.

Czym są zbiory danych typu open source?

Istnieje kilka miejsc, w których technologia OCR ma ogromny potencjał do wykorzystania. Niektóre miejsca obejmują lotnisko, publikacje e-booków, reklamy, banki i systemy łańcucha dostaw. Jednak, aby aplikacje spełniały swoje zadanie, muszą zostać przeszkolone w zakresie konkretnego projektu Zestawy danych do optycznego rozpoznawania znaków.

Wydajność aplikacji zależy w dużej mierze od jakości zbioru danych i zastosowanej metodologii szkoleniowej. Jednak znalezienie wysokiej jakości cyfrowej i zbiory danych pisma ręcznego jest trudna do aplikacji. Dlatego wiele firm korzysta z zestawów danych o otwartym kodzie źródłowym lub bezpłatnych, zamiast zastrzeżonych.

Korzyści i wyzwania związane ze zbiorami danych typu Open Source

Firmy muszą zmierzyć się z korzyściami i wyzwaniami, aby zrozumieć, czy muszą zdecydować się na bezpłatne korzystanie z danych w swoich aplikacjach ML.

Benefity

Dane są łatwo dostępne. Ze względu na dostępność danych koszt tworzenia aplikacji jest znacznie obniżony.
Czas i wysiłek poświęcony na zbieranie danych dla aplikacji są znacznie skrócone, ponieważ zestaw danych jest łatwo dostępny.
Istnieje wiele forów społecznościowych lub grup pomocy, które pomagają uczyć się, dostosowywać i optymalizować zbiór danych.
Jedną z głównych zalet zestawu danych o otwartym kodzie źródłowym jest to, że nie nakłada żadnych ograniczeń na dostosowywanie.
Dane Open-Source są dostępne dla dużej części populacji, dzięki czemu analizy i innowacje są możliwe bez barier monetarnych.

Wyzwania

Dane specyficzne dla projektu są trudne do zdobycia. Dodatkowo istnieje możliwość pominięcia informacji i nieprawidłowego wykorzystania dostępnych danych.
Pozyskiwanie zastrzeżonych danych wymaga czasu, wysiłku i jest kosztowne
Chociaż pozyskiwanie danych może być łatwiejsze, koszty wiedzy i analizy mogą przewyższać początkową przewagę.
Inni programiści również wykorzystują te same dane do tworzenia aplikacji.
Te zbiory danych są bardzo podatne na naruszenia bezpieczeństwa, prywatności i zgody.

15 najlepszych zestawów danych pisma ręcznego i OCR do uczenia maszynowego

Wiele zestawów danych typu open source jest dostępnych do tworzenia aplikacji do rozpoznawania tekstu. Niektóre z najlepszych 15 to

Zbiór danych ICDAR
Międzynarodowa Konferencja Analizy i Rozpoznawania Dokumentów posiada repozytorium 229 obrazów szkoleniowych i 233 testowych wraz z adnotacjami. Działa jako punkt odniesienia dla oceny wykrywania tekstu.
Zbiór danych IIIT 5K-Słowo
Zaczerpnięte z wyszukiwarki grafiki Google, IIIT 5K-word to zbiór słów z szyldów, billboardów, tablic rejestracyjnych i plakatów. Zawiera przycięte obrazy słów 5K, co czyni go jedną z najobszerniejszych dostępnych kolekcji zestawów danych rozpoznawania tekstu.
Baza danych NIST
NIST lub National Institute of Science oferuje bezpłatną kolekcję ponad 3600 próbek pisma ręcznego z ponad 810,000 XNUMX obrazów znaków
Baza danych MNIST
Pochodząca ze specjalnej bazy danych NSIT 1 i 3, baza danych MNIST jest skompilowanym zbiorem 60,000 10,000 odręcznych liczb dla zestawu uczącego i XNUMX XNUMX przykładów dla zestawu testowego. Ta baza danych typu open source pomaga trenować modele w zakresie rozpoznawania wzorców, jednocześnie poświęcając mniej czasu na przetwarzanie wstępne.
Wykrywanie tekstu
Baza danych typu open source, zestaw danych Text Detection zawiera około 500 obrazów wewnętrznych i zewnętrznych szyldów, tabliczek na drzwi, tabliczek ostrzegawczych i innych.
OCR Stanforda
Opublikowany przez Stanford, ten bezpłatny zestaw danych jest ręcznie pisanym zbiorem słów przez MIT Spoken Language Systems Group.
DDI-100
Inaczej nazywany Zestawem Danych Obrazów Zniekształconych Dokumentów, DDI-100 to zbiór ponad 6658 stron dokumentów z kilkoma zastosowanymi wzorami geometrycznymi i zniekształceniami. Ponadto DDI-100 ma ponad 99870 obrazów, masek stempli, masek tekstowych i ramek granicznych.
RoadText-1K
RoadText-1K to jeden z największych zestawów danych, który pomaga trenować modele do wykrywania tekstu w filmach. Zawiera 1000 klipów wideo wraz z adnotacją tekstową w polu ograniczającym i transkrypcją tekstu w każdej klatce wideo.
MSRA-TD500
Zawiera 300 szkoleń i 200 obrazów tekstowych; MSRA-TD500 zawiera znaki z języków chińskiego i angielskiego i jest opatrzony adnotacjami na poziomie zdania.
Zbiór danych MJSynth
Dostarczony przez Uniwersytet Oksfordzki ten zbiór danych słów zawiera prawie 9 milionów wygenerowanych syntetycznie obrazów obejmujących ponad 90 tysięcy słów w języku angielskim.
Tekst Street View
Ten zbiór danych zebrany ze zdjęć Google Street View zawiera obrazy do wykrywania tekstu, głównie tablic i znaków drogowych.
Baza dokumentów
Baza dokumentów to zbiór 941 odręcznych dokumentów, w tym tabel, wzorów, rysunków, diagramów, list i innych, od 189 pisarzy.
Wyrażenia matematyczne
Wyrażenia matematyczne to baza danych zawierająca 101 symboli matematycznych i 10,000 XNUMX wyrażeń.
Numery domów Street View
Pobrane z Google Street View, to Street View House Numbers to baza danych zawierająca 73257 cyfr numeru domu.
Środowisko naturalne OCR
Natural Environment OCR to zbiór danych obejmujący prawie 660 obrazów na całym świecie i 5238 adnotacji tekstowych.

Były to jedne z najlepszych zestawów danych typu open source do uczenia modeli ML dla aplikacji do wykrywania tekstu. Wybór takiego, który odpowiada Twoim potrzebom biznesowym i aplikacyjnym, może wymagać czasu i wysiłku. Musisz jednak poeksperymentować z tymi zestawami danych, zanim zdecydujesz się na odpowiedni.

Aby pomóc Ci w rozwoju w kierunku niezawodnej i wydajnej aplikacji do wykrywania tekstu, Shaip – wysokiej klasy dostawca rozwiązań technologicznych. Wykorzystujemy nasze doświadczenie techniczne, aby tworzyć konfigurowalne, zoptymalizowane i wydajne zbiory danych treningowych OCR dla różnych projektów klientów. Aby w pełni zrozumieć nasze możliwości, skontaktuj się z nami już dziś.

Podziel społecznej

Porozmawiaj z ekspertem

Imię*
Nazwisko*
E-mail*
Telefon*
O nas*
Państwo*
Państwo
Komentarze*
Rejestrując się, zgadzam się z Shaip Polityka prywatności i Regulamin i wyrazić zgodę na otrzymywanie komunikacji marketingowej B2B od Shaip.
CAPTCHA

Pobierz bezpłatną książkę

Może Ci się spodobać

15 najlepszych zestawów danych pisma ręcznego typu open source do trenowania modeli ML

Co to jest OCR?

Czym są zbiory danych typu open source?

Korzyści i wyzwania związane ze zbiorami danych typu Open Source

Benefity

Wyzwania

15 najlepszych zestawów danych pisma ręcznego i OCR do uczenia maszynowego

Zbiór danych ICDAR

Zbiór danych IIIT 5K-Słowo

Baza danych NIST

Baza danych MNIST

Wykrywanie tekstu

OCR Stanforda

DDI-100

RoadText-1K

MSRA-TD500

Zbiór danych MJSynth

Tekst Street View

Baza dokumentów

Wyrażenia matematyczne

Numery domów Street View

Środowisko naturalne OCR

Podziel społecznej

Porozmawiaj z ekspertem

Przyszłość danych dzięki inteligentnemu rozpoznawaniu znaków (ICR)

Co to jest optyczne rozpoznawanie znaków (OCR): omówienie i jego zastosowania

OCR w opiece zdrowotnej: kompleksowy przewodnik po przypadkach użycia, korzyściach i wadach

Usługi danych AI

Specjalne

Przemysłowe

Produkty

O nas

Zasoby

Skontaktuj się z nami