Zestawy danych pisma ręcznego

15 najlepszych zestawów danych pisma ręcznego typu open source do trenowania modeli ML

Świat biznesu zmienia się w fenomenalnym tempie, ale ta cyfrowa transformacja nie jest tak rozległa, jak byśmy tego chcieli. Ludzie nadal zajmują się fizycznymi dokumentami w swoich codziennych operacjach, od dużych korporacji po małe firmy. Chociaż częstotliwość użytkowania znacznie się zmniejszyła, nie została całkowicie zlikwidowana. Zamiast czasochłonnego procesu skanowania dokumentów do użytku cyfrowego, korzystając z najnowszych OCR jest czasooszczędny i skuteczny.

Wzrost wykorzystania optycznego rozpoznawania znaków można przede wszystkim przypisać wzrostowi produkcji systemów automatycznego rozpoznawania. W rezultacie globalna wartość rynkowa technologii OCR, ustalona na $ 8.93 mld w 2021 przewiduje się, że wzrośnie o 15.4% CAGR w latach 2022-2030.

Ale czym właściwie jest technologia OCR? I dlaczego zmienia zasady gry dla firm opracowujących wydajne modele sztucznej inteligencji? Dowiedzmy Się.

Co to jest OCR?

Alternatywnie określane jako rozpoznawanie tekstu, OCR lub optyczne rozpoznawanie znaków to program, który wyodrębnia wydrukowane lub zapisane dane z zeskanowanych dokumentów, plików PDF zawierających tylko obrazy i odręcznych notatek do formatu czytelnego dla komputera. Oprogramowanie usuwa każdą literę z obrazu i łączy je w słowa i zdania, ułatwiając w ten sposób dostęp do dokumentów i ich edycję cyfrową.

Czym są zbiory danych typu open source?

Istnieje kilka miejsc, w których technologia OCR ma ogromny potencjał do wykorzystania. Niektóre miejsca obejmują lotnisko, publikacje e-booków, reklamy, banki i systemy łańcucha dostaw. Jednak, aby aplikacje spełniały swoje zadanie, muszą zostać przeszkolone w zakresie konkretnego projektu Zestawy danych do optycznego rozpoznawania znaków.

Wydajność aplikacji zależy w dużej mierze od jakości zbioru danych i zastosowanej metodologii szkoleniowej. Jednak znalezienie wysokiej jakości cyfrowej i zbiory danych pisma ręcznego jest trudna do aplikacji. Dlatego wiele firm korzysta z zestawów danych o otwartym kodzie źródłowym lub bezpłatnych, zamiast zastrzeżonych.

Korzyści i wyzwania związane ze zbiorami danych typu Open Source

Firmy muszą zmierzyć się z korzyściami i wyzwaniami, aby zrozumieć, czy muszą zdecydować się na bezpłatne korzystanie z danych w swoich aplikacjach ML.

Benefity

  • Dane są łatwo dostępne. Ze względu na dostępność danych koszt tworzenia aplikacji jest znacznie obniżony.
  • Czas i wysiłek poświęcony na zbieranie danych dla aplikacji są znacznie skrócone, ponieważ zestaw danych jest łatwo dostępny.
  • Istnieje wiele forów społecznościowych lub grup pomocy, które pomagają uczyć się, dostosowywać i optymalizować zbiór danych.
  • Jedną z głównych zalet zestawu danych o otwartym kodzie źródłowym jest to, że nie nakłada żadnych ograniczeń na dostosowywanie.
  •   Dane Open-Source są dostępne dla dużej części populacji, dzięki czemu analizy i innowacje są możliwe bez barier monetarnych.

Wyzwania

  • Dane specyficzne dla projektu są trudne do zdobycia. Dodatkowo istnieje możliwość pominięcia informacji i nieprawidłowego wykorzystania dostępnych danych.
  • Pozyskiwanie zastrzeżonych danych wymaga czasu, wysiłku i jest kosztowne
  • Chociaż pozyskiwanie danych może być łatwiejsze, koszty wiedzy i analizy mogą przewyższać początkową przewagę.
  • Inni programiści również wykorzystują te same dane do tworzenia aplikacji.
  • Te zbiory danych są bardzo podatne na naruszenia bezpieczeństwa, prywatności i zgody.

15 najlepszych zestawów danych pisma ręcznego i OCR do uczenia maszynowego

Zestawy danych ocr typu open source

Wiele zestawów danych typu open source jest dostępnych do tworzenia aplikacji do rozpoznawania tekstu. Niektóre z najlepszych 15 to

  1. Zbiór danych ICDAR

    Międzynarodowa Konferencja Analizy i Rozpoznawania Dokumentów posiada repozytorium 229 obrazów szkoleniowych i 233 testowych wraz z adnotacjami. Działa jako punkt odniesienia dla oceny wykrywania tekstu.

  2. Zbiór danych IIIT 5K-Słowo

    Zaczerpnięte z wyszukiwarki grafiki Google, IIIT 5K-word to zbiór słów z szyldów, billboardów, tablic rejestracyjnych i plakatów. Zawiera przycięte obrazy słów 5K, co czyni go jedną z najobszerniejszych dostępnych kolekcji zestawów danych rozpoznawania tekstu.

  3. Baza danych NIST

    NIST lub National Institute of Science oferuje bezpłatną kolekcję ponad 3600 próbek pisma ręcznego z ponad 810,000 XNUMX obrazów znaków

  4. Baza danych MNIST

    Pochodząca ze specjalnej bazy danych NSIT 1 i 3, baza danych MNIST jest skompilowanym zbiorem 60,000 10,000 odręcznych liczb dla zestawu uczącego i XNUMX XNUMX przykładów dla zestawu testowego. Ta baza danych typu open source pomaga trenować modele w zakresie rozpoznawania wzorców, jednocześnie poświęcając mniej czasu na przetwarzanie wstępne.

  5. Wykrywanie tekstu

    Baza danych typu open source, zestaw danych Text Detection zawiera około 500 obrazów wewnętrznych i zewnętrznych szyldów, tabliczek na drzwi, tabliczek ostrzegawczych i innych.

  6. OCR Stanforda

    Opublikowany przez Stanford, ten bezpłatny zestaw danych jest ręcznie pisanym zbiorem słów przez MIT Spoken Language Systems Group.

  7. DDI-100

    Inaczej nazywany Zestawem Danych Obrazów Zniekształconych Dokumentów, DDI-100 to zbiór ponad 6658 stron dokumentów z kilkoma zastosowanymi wzorami geometrycznymi i zniekształceniami. Ponadto DDI-100 ma ponad 99870 obrazów, masek stempli, masek tekstowych i ramek granicznych.

  8. RoadText-1K

    RoadText-1K to jeden z największych zestawów danych, który pomaga trenować modele do wykrywania tekstu w filmach. Zawiera 1000 klipów wideo wraz z adnotacją tekstową w polu ograniczającym i transkrypcją tekstu w każdej klatce wideo.

  9. MSRA-TD500

    Zawiera 300 szkoleń i 200 obrazów tekstowych; MSRA-TD500 zawiera znaki z języków chińskiego i angielskiego i jest opatrzony adnotacjami na poziomie zdania.

  10. Zbiór danych MJSynth

    Dostarczony przez Uniwersytet Oksfordzki ten zbiór danych słów zawiera prawie 9 milionów wygenerowanych syntetycznie obrazów obejmujących ponad 90 tysięcy słów w języku angielskim.

  11. Tekst Street View

    Ten zbiór danych zebrany ze zdjęć Google Street View zawiera obrazy do wykrywania tekstu, głównie tablic i znaków drogowych.

  12. Baza dokumentów

    Baza dokumentów to zbiór 941 odręcznych dokumentów, w tym tabel, wzorów, rysunków, diagramów, list i innych, od 189 pisarzy.

  13. Wyrażenia matematyczne

    Wyrażenia matematyczne to baza danych zawierająca 101 symboli matematycznych i 10,000 XNUMX wyrażeń.

  14. Numery domów Street View

    Pobrane z Google Street View, to Street View House Numbers to baza danych zawierająca 73257 cyfr numeru domu.

  15. Środowisko naturalne OCR

    Natural Environment OCR to zbiór danych obejmujący prawie 660 obrazów na całym świecie i 5238 adnotacji tekstowych.

Były to jedne z najlepszych zestawów danych typu open source do uczenia modeli ML dla aplikacji do wykrywania tekstu. Wybór takiego, który odpowiada Twoim potrzebom biznesowym i aplikacyjnym, może wymagać czasu i wysiłku. Musisz jednak poeksperymentować z tymi zestawami danych, zanim zdecydujesz się na odpowiedni.

Aby pomóc Ci w rozwoju w kierunku niezawodnej i wydajnej aplikacji do wykrywania tekstu, Shaip – ​​wysokiej klasy dostawca rozwiązań technologicznych. Wykorzystujemy nasze doświadczenie techniczne, aby tworzyć konfigurowalne, zoptymalizowane i wydajne zbiory danych treningowych OCR dla różnych projektów klientów. Aby w pełni zrozumieć nasze możliwości, skontaktuj się z nami już dziś.

Podziel społecznej