Wizja komputerowa

31 bezpłatnych zestawów danych obrazów do komputerowego widzenia, które zwiększą efektywność Twojego projektu [aktualizacja 2025]

Algorytm AI jest tak dobry, jak dane, którymi go podajesz.

Nie jest to ani odważne, ani niekonwencjonalne stwierdzenie. Kilka dekad temu sztuczna inteligencja mogła wydawać się dość naciągana, ale od tego czasu sztuczna inteligencja i uczenie maszynowe przeszły naprawdę długą drogę.

Wizja komputerowa pomaga komputerom rozumieć i interpretować etykiety i obrazy. Kiedy trenujesz swój komputer, używając odpowiedniego rodzaju zestawów danych obrazów, może on uzyskać zdolność wykrywania, rozumienia i identyfikowania różnych cech twarzy, wykrywania chorób, prowadzenia pojazdów autonomicznych, a także ratowania życia za pomocą wielowymiarowego skanowania organów.

Przewiduje się, że rynek wizji komputerowych osiągnie 144.46 mld USD do 2028 r od skromnego 7.04 miliarda dolarów w 2020 roku, rośnie w a CAGR na poziomie 45.64% w latach 2021-2028.

Zestaw danych obrazów, którymi karmisz i trenujesz swoje zadania uczenia maszynowego i widzenia komputerowego, ma kluczowe znaczenie dla sukcesu Twojego projektu AI. Uzyskanie wysokiej jakości zestawu danych jest dość trudne. Korzystanie z różnorodnej kolekcji obrazów jest niezbędne, aby zapewnić solidne szkolenie modelu i lepiej odzwierciedlić złożoność świata rzeczywistego.

W zależności od złożoności projektu, uzyskanie wiarygodnych i odpowiednich zestawów danych do celów wizji komputerowej może zająć od kilku dni do kilku tygodni. Różnorodny zakres zestawów danych jest niezbędny do pokrycia różnych zadań wizji komputerowej i scenariuszy z życia wziętych. Badacze często poszukują obszernego zestawu danych do celów badawczych, aby zapewnić kompleksową ocenę modelu i wesprzeć szeroki wachlarz aplikacji.

Tutaj udostępniamy Ci szereg (pogrupowanych dla wygody) otwartych źródeł danych o obrazach, z których możesz od razu skorzystać.

Zadania zbioru danych obrazowych: klasyfikacja, segmentacja, wykrywanie i inne

Zbiory danych obrazu są podstawą nowoczesnego widzenia komputerowego, obsługując szeroki zakres zadań, które umożliwiają maszynom interpretowanie i rozumienie informacji wizualnych. Niezależnie od tego, czy budujesz model pojazdów autonomicznych, rozwijasz technologię rozpoznawania twarzy, czy pracujesz nad analizą obrazów medycznych, odpowiedni zestaw danych obrazowych jest niezbędnym narzędziem do osiągnięcia sukcesu.

Klasyfikacja obrazu jest jednym z najbardziej podstawowych zadań wizji komputerowej. W tym procesie model uczy się przypisywać etykietę do całego obrazu na podstawie jego zawartości. Na przykład zbiór danych klasyfikacji obrazu może pomóc modelowi odróżniać obrazy kotów i psów lub identyfikować różne rodzaje roślin. To zadanie jest kluczowe dla aplikacji, takich jak automatyczne tagowanie zdjęć, diagnostyka chorób na podstawie obrazów medycznych i testy porównawcze kategoryzacji scen.

Wykrywanie obiektów idzie o krok dalej, nie tylko identyfikując obecność obiektów na obrazie, ale także wskazując ich lokalizację za pomocą ramek ograniczających. Zestawy danych do wykrywania obiektów, takie jak te zawierające adnotowane obrazy z ramkami ograniczającymi, są niezbędne do zastosowań takich jak wykrywanie pieszych w pojazdach autonomicznych, nadzór bezpieczeństwa i analiza handlu detalicznego. Wykrywanie obiektów jest również kluczowym elementem w opracowywaniu solidnych algorytmów widzenia komputerowego dla scenariuszy z życia wziętych.

Segmentacja semantyczna obejmuje klasyfikowanie każdego piksela na obrazie do określonej kategorii, zapewniając szczegółowe zrozumienie sceny. Ta segmentacja trimmap na poziomie pikseli jest szczególnie ważna w zadaniach takich jak obrazowanie medyczne, gdzie wymagane jest precyzyjne określenie organów lub guzów, a także w środowiskach miejskich w przypadku autonomicznej jazdy, gdzie rozróżnienie dróg, chodników i pojazdów ma kluczowe znaczenie.

Oprócz tych podstawowych zadań, zestawy danych obrazów obsługują również segmentację instancji (rozróżnianie poszczególnych obiektów tej samej klasy), podpisy obrazów (generowanie tekstu opisowego dla obrazów) i rozpoznawanie twarzy (identyfikowanie lub weryfikacja ludzkich twarzy na obrazach). Każde z tych zadań wizji komputerowej opiera się na wysokiej jakości, adnotowanych obrazach w celu trenowania i walidacji modeli uczenia maszynowego.

Wykorzystując zróżnicowane i dobrze adnotowane zestawy danych obrazów, naukowcy danych i praktycy uczenia maszynowego mogą stawić czoła różnorodnym wyzwaniom związanym z komputerową wizją, od zadań rozpoznawania i klasyfikacji obrazów po złożone problemy segmentacji i wykrywania. Właściwy zestaw danych nie tylko przyspiesza badania i rozwój, ale także zapewnia, że ​​systemy komputerowej wizji działają dokładnie w rzeczywistych zastosowaniach.

Kompleksowa lista zestawów danych obrazowych do trenowania modelu widzenia komputerowego

Napisz do nas

  1. ImageNet

    ImageNet jest szeroko stosowanym zbiorem danych i zawiera zdumiewającą liczbę 1.2 miliona obrazów podzielonych na 1000 kategorii. Ten zestaw danych jest zorganizowany zgodnie z hierarchią WorldNet i podzielony na trzy części – dane szkoleniowe, etykiety obrazów i dane walidacyjne.

  2. Kinetyka 700

    Kinetics 700 to ogromny zestaw danych wysokiej jakości zawierający ponad 650,000 700 klipów 700 różnych klas ludzkiego działania. Każde z pozwów zbiorowych ma około XNUMX klipów wideo. Klipy w zbiorze danych zawierają interakcje człowiek-obiekt i człowiek-człowiek, które okazują się bardzo pomocne przy rozpoznawaniu ludzkich działań w filmach.

  3. CIFAR-10

    CIFAR 10 to jeden z największych zbiorów danych wizyjnych, zawierający 60000 obrazów 32 x 32, reprezentujących dziesięć różnych klas. Każda klasa ma około 6000 obrazów wykorzystywanych do trenowania algorytmów widzenia komputerowego i uczenia maszynowego.

  4. Zestaw danych obrazów zwierząt domowych Oxford-IIIT

    Zestaw danych obrazów zwierząt domowych obejmuje 37 kategorii z 200 obrazami na klasę. Obrazy te różnią się skalą, pozą i oświetleniem, a towarzyszą im adnotacje dotyczące rasy, ROI głowy i segmentacji trimmap na poziomie pikseli.

  5. Otwarte obrazy Google

    Zawiera ona imponującą liczbę 9 milionów adresów URL. Jest to jeden z największych zbiorów danych obrazów na liście. Znajdują się w nim miliony obrazów podzielonych na 6,000 kategorii.

  6. Obrazy roślin

    Kompilacja ta zawiera wiele zestawów danych obrazowych obejmujących imponującą liczbę 1 miliona zdjęć roślin, obejmujących około 11 gatunków.

  7. LSUN

    LSUN to zbiór danych obrazów na dużą skalę z milionami oznaczonych obrazów w różnych kategoriach scen i obiektów. Zbiór danych obejmuje dedykowany zestaw testowy do oceny modelu.

Rozpoznawanie twarzy:

Rozpoznawanie twarzy

  1. Oznaczone twarze na wolności

    Labeled Faced in the Wild to ogromny zbiór danych zawierający ponad 13,230 5,750 zdjęć prawie XNUMX osób wykrytych w Internecie. Ten zestaw danych twarzy ma na celu ułatwienie badania nieograniczonego wykrywania twarzy.

  2. CASIA WebFace

    CASIA Web face to dobrze zaprojektowany zbiór danych, który pomaga w uczeniu maszynowym i badaniach naukowych nad swobodnym rozpoznawaniem twarzy. Dzięki ponad 494,000 10,000 obrazom prawie XNUMX XNUMX prawdziwych tożsamości jest idealny do zadań związanych z identyfikacją twarzy i weryfikacją.

  3. Zbiór danych twarzy UMD

    UMD ma do czynienia z dobrze opatrzonym adnotacjami zbiorem danych, który składa się z dwóch części – nieruchomych obrazów i klatek wideo. Zbiór danych zawiera ponad 367,800 3.7 adnotacji do twarzy i XNUMX mln klatek wideo z adnotacjami osób.

  4. Wykrywanie maski na twarz

    Zestaw danych zawiera 853 obrazy podzielone na trzy klasy: „z maską”, „bez maski” i „maska ​​noszona nieprawidłowo” wraz z ich ramkami ograniczającymi w formacie PASCAL VOC.

  5. FERET

    FERET (Facial Recognition Technology Database) to kompleksowy zbiór danych obrazów zawierający ponad 14,000 XNUMX opisanych zdjęć ludzkich twarzy.

Rozpoznawanie pisma odręcznego:

  1. Baza danych MNIST

    MNIST to baza danych zawierająca próbki odręcznych cyfr od 0 do 9 i zawiera 60,000 10,000 i 1999 XNUMX obrazów szkoleniowych i testowych. Wydany w XNUMX roku MNIST ułatwia testowanie systemów przetwarzania obrazu w Deep Learning.

  2. Zestaw danych sztucznych znaków

    Zbiór danych sztucznych znaków to, jak sama nazwa wskazuje, sztucznie wygenerowane dane, które opisują strukturę języka angielskiego za pomocą dziesięciu wielkich liter. Zawiera ponad 6000 obrazów.

Wykrywanie obiektów:

  1. Pani COCO

    MS COCO lub Common Objects in Context to zestaw danych do wykrywania obiektów i tworzenia napisów.

    Ma ponad 328,000 80 obrazów z wykrywaniem punktów kluczowych, wykrywaniem wielu obiektów, podpisami i adnotacjami maski segmentacji. Zawiera XNUMX kategorii obiektów i pięć podpisów na obraz.

  2. LSUN

    LSUN, skrót od Large-scale Scene Understanding, zawiera ponad milion oznaczonych obrazów w 20 kategoriach obiektów i 10 kategoriach scen. Niektóre kategorie mają blisko 300,000 300 obrazów, z czego 1000 obrazów przeznaczonych specjalnie do walidacji i XNUMX obrazów do danych testowych.

  3. Obiekty domowe

    Zestaw danych Home Objects zawiera adnotowane obrazy losowych obiektów z całego domu – kuchni, salonu i łazienki. Ten zbiór danych zawiera również kilka filmów z adnotacjami i 398 zdjęć bez adnotacji przeznaczonych do testowania.

  4. Genom wizualny

    Visual Genome to kompleksowa baza wiedzy wizualnej zawierająca ponad 108,000 XNUMX podpisanych obrazów. Zapewnia obszerne adnotacje do obiektów, atrybutów i relacji, co czyni ją cenną do rozpoznawania obiektów, podpisywania obrazów i zadań uczenia multimodalnego.

Automobilowy:

  1. Zbiór danych miasta

    Cityscape to zbiór danych, do którego należy się udać, szukając różnych sekwencji wideo nagranych ze scen ulicznych w kilku miastach. Zdjęcia te były rejestrowane przez długi czas, w różnych warunkach pogodowych i oświetleniowych. Adnotacje dotyczą 30 klas obrazów podzielonych na osiem różnych kategorii.

  2. Głęboki napęd Barkleya

    Barkley DeepDrive jest specjalnie zaprojektowany do szkolenia pojazdów autonomicznych i zawiera ponad 100 tysięcy sekwencji wideo z adnotacjami. Jest to jedna z najbardziej pomocnych danych treningowych dla pojazdów autonomicznych przy zmieniających się warunkach drogowych i drogowych.

  3. Mapilarny

    Mapillary ma ponad 750 milionów scen ulicznych i znaków drogowych na całym świecie, co jest bardzo przydatne w trenowaniu modeli percepcji wizualnej w uczeniu maszynowym i algorytmach sztucznej inteligencji. Pozwala na tworzenie pojazdów autonomicznych, dostosowanych do różnych warunków oświetleniowych i pogodowych oraz punktów widokowych.

Obrazowanie medyczne:

  1. Covid-19 Otwarty zbiór danych badawczych

    Ten oryginalny zestaw danych zawiera około 6500 pikseli wielokątnych segmentacji płuc na temat prześwietleń klatki piersiowej AP/PA. Dodatkowo dostępnych jest 517 zdjęć prześwietleń rentgenowskich pacjentów z Covid-19 z tagami zawierającymi imię i nazwisko, lokalizację, szczegóły przyjęcia, wynik i inne.

  2. Baza danych NIH zawierająca 100,000 XNUMX prześwietleń klatki piersiowej

    Baza danych NIH jest jednym z najobszerniejszych publicznie dostępnych zbiorów danych zawierających 100,000 XNUMX zdjęć rentgenowskich klatki piersiowej i powiązanych danych przydatnych dla społeczności naukowej i badawczej. Zawiera nawet obrazy pacjentów z zaawansowanymi chorobami płuc.

  3. Atlas Patologii Cyfrowej

    Atlas of Digital Pathology oferuje kilka obrazów histopatologicznych łatek, łącznie ponad 17,000 100, z blisko XNUMX opatrzonych adnotacjami slajdów różnych narządów. Ten zestaw danych jest przydatny w opracowywaniu oprogramowania do widzenia komputerowego i rozpoznawania wzorców.

Rozpoznawanie scen:

Rozpoznawanie scen

  1. Rozpoznawanie sceny wewnętrznej Indoor

    Indoor Scene Recognition to wysoce skategoryzowany zbiór danych zawierający prawie 15620 obrazów obiektów i scenerii wewnętrznych do wykorzystania w uczeniu maszynowym i treningu danych. Zawiera ponad 65 kategorii, a każda kategoria zawiera co najmniej 100 zdjęć.

  2. xWidok

    Jako jeden z najbardziej znanych publicznie dostępnych zbiorów danych, xView zawiera mnóstwo zdjęć z adnotacjami z różnych złożonych i dużych scen. Mając około 60 klas i ponad milion instancji obiektów, celem tego zbioru danych jest zapewnienie lepszej pomocy w przypadku katastrof przy użyciu zdjęć satelitarnych.

  3. Miejsca

    Places, zbiór danych dostarczony przez MIT, zawiera ponad 1.8 miliona zdjęć z 365 różnych kategorii scen. W każdej z tych kategorii jest około 50 obrazów do walidacji i 900 obrazów do testowania. Możliwe jest poznanie funkcji głębokich scen w celu ustanowienia rozpoznawania scen lub zadań rozpoznawania wizualnego.

  4. Baza danych SUN

    Baza danych SUN to kompleksowy punkt odniesienia kategoryzacji scen, szeroko stosowany w wizji komputerowej. Zawiera tysiące obrazów obejmujących szeroki zakres środowisk wewnętrznych i zewnętrznych, ze szczegółowymi adnotacjami dla każdej sceny. Baza danych SUN jest rozpoznawana ze względu na pokrycie różnych scen i służy jako standardowe odniesienie do oceny algorytmów rozumienia scen.

Zabawa:

  1. Zbiór danych IMDB WIKI

    IMDB – Wiki to jedna z najpopularniejszych publicznych baz danych twarzy oznaczonych odpowiednio wiekiem, płcią i imionami. Ma też około 20 tysięcy twarzy celebrytów i 62 tysiące z Wikipedii.

  2. Twarze celebrytów

    Celeb Faces to obszerna baza danych zawierająca 200,000 XNUMX zdjęć celebrytów z adnotacjami. Obrazy zawierają szumy tła i warianty pozy, co czyni je przydatnymi do szkolenia zestawów testowych w zadaniach widzenia komputerowego. Jest to bardzo korzystne dla osiągnięcia większej dokładności rozpoznawania twarzy, edycji, lokalizacji części twarzy i nie tylko.

  3. Zestaw danych YouTube-8M

    YouTube-8M to duży zestaw danych wideo z etykietami, który zawiera miliony identyfikatorów wideo YouTube z wysokiej jakości adnotacjami wizualnych jednostek generowanymi maszynowo. Ten zestaw danych jest szeroko stosowany do zrozumienia wideo na dużą skalę i trenowania algorytmów widzenia, ponieważ łączy zawartość wideo z metadanymi za pośrednictwem identyfikatorów wideo YouTube, umożliwiając skalowalne gromadzenie i adnotację danych wideo.

Teraz, gdy masz ogromną listę otwartych zbiorów danych obrazów, które zasilają Twoje maszyny sztucznej inteligencji. Wynik Twoich modeli AI i uczenia maszynowego zależy przede wszystkim od jakości zbiorów danych, którymi je zasilasz i na których je trenujesz. Jeśli chcesz, aby Twój model AI generował dokładne prognozy, potrzebuje wysokiej jakości zbiorów danych, które są agregowane, tagowane i etykietowane do perfekcji. Praca z tymi zbiorami danych to doskonały sposób na rozwijanie i doskonalenie umiejętności uczenia maszynowego poprzez praktyczne, rzeczywiste projekty. Aby zwiększyć sukces Twojego systemu wizji komputerowej, musisz używać wysokiej jakości baz danych obrazów, istotnych dla wizji Twojego projektu.

Podziel społecznej