Otwarte zbiory danych

Odkryj zbiory danych typu open source, które pozwolą Ci trenować modele ML

Otwarte zbiory danych

Zbiory danych typu open source, aby rozpocząć pracę z modelami AI/ML

Wyniki Twoich modeli AI i ML są tak dobre, jak dane, których używasz do ich trenowania – dlatego precyzja, jaką stosujesz do agregacji danych oraz znakowania i identyfikowania tych danych, jest ważna!

Więc jeśli chcesz rozpocząć nową inicjatywę AI/ML, a teraz szybko zdajesz sobie sprawę, że znalezienie wysokiej jakości danych treningowych będzie jednym z trudniejszych aspektów twojego projektu, ponieważ wysokiej jakości zestawy danych są paliwem, które utrzymuje sztuczną inteligencję/ Działa silnik ML. Zgromadziliśmy listę otwartych zbiorów danych, z których można bezpłatnie korzystać i trenować modele AI/ML przyszłości.

SpecjalizacjaDataTypeNazwa zbioru danychPrzemysł / DziałAdnotacja/przypadek użyciaOpis ProjektuPołączyć
NLPTekstAmazon RecenzjeE-commerceAnaliza sentymentówZestaw 35 milionów recenzji i ocen z ostatnich 18 lat w postaci zwykłego tekstu ze szczegółami użytkownika i produktu.Połączyć
NLPTekstDane linków do WikipediiOgólnePonad 4 mln. artykuły zawierające 1.9 mld. słowo składające się ze słów i fraz oraz akapitów.Połączyć
NLPTekstBank drzew sentymentu w StandfordrozrywkaAnaliza sentymentówZestaw danych z adnotacjami na temat sentymentów dla ponad 10,000 XNUMX recenzji z Rotten Tomatoes w formacie pliku HTML HTMLPołączyć
NLPTekstSentyment linii lotniczych USA na TwitterzeLinia lotniczaAnaliza sentymentówTweety z 2015 r. w US Airlines rozwinęły się w pozytywne, negatywne i neutralne tonyPołączyć
CVObraz Oznaczone twarze na wolnościOgólneRozpoznawanie twarzyZbiór danych zawierający ponad 13,000 XNUMX przyciętych twarzy z dwoma różnymi zdjęciami do treningu rozpoznawania twarzy.Połączyć
CVWideo, obrazZbiór danych UMDFacesOgólneRozpoznawanie twarzyZbiór danych z adnotacjami zawierający ponad 367,000 8,000 twarzy od ponad XNUMX XNUMX osób, który obejmuje zdjęcia i obrazy wideo.Połączyć
CVObraz Sieć obrazówOgólneZbiór danych z ponad 14 mln. obrazy w różnych formatach plików, zorganizowane zgodnie z hierarchią WordNet.Połączyć
CVObraz Otwarte obrazy GoogleOgólne9 mln Adresy URL do kategoryzacji obrazów publicznych z ponad 6,000 kategorii.Połączyć
NLPTekstBaza danych intensywnej opieki MIMICZdrowieZbiory danych z fizjologii obliczeniowej zawierające zdeidentyfikowane dane od 40,000 XNUMX pacjentów wymagających intensywnej opieki medycznej. Zbiór danych zawiera informacje, takie jak dane demograficzne, parametry życiowe, leki itp.Połączyć
CVObrazAmerykańskie Narodowe Biuro Podróży i TurystykiTurystykaUdostępnia szerokie zdjęcia z branży turystycznej z wiarygodnymi bazami danych, obejmującymi takie tematy, jak podróże przychodzące i wychodzące oraz międzynarodowe informacje turystyczne.Połączyć
NLPTekstDepartament TransportuTurystykaZbiory danych turystycznych, które obejmują parki narodowe, rejestry kierowców, mosty i informacje o kolei itp.Połączyć
NLPAudioKorpus napisów audio FlickrOgólnePonad 40 tys. podpisów mówionych z 8,000 zdjęć zaprojektowanych z myślą o nienadzorowanych wzorcach mowyPołączyć
NLPAudioZestaw danych poleceń mowyOgólneRozpoznawanie mowy, adnotacje dźwiękowe1-sekundowe wypowiedzi tysięcy osób w celu zbudowania podstawowego interfejsu głosowego.Połączyć
NLPAudioZbiory danych dźwiękowych dotyczących środowiskaOgólneZestawy danych dźwiękowych środowiska, które zawierają tabele dźwięków zdarzeń i tabele scen akustycznych.Połączyć
NLPTekstZbiór danych otwartych badań COVID-19 ZdrowieMedyczna sztuczna inteligencjaZbiór danych badawczych składający się z 45,000 19 artykułów naukowych na temat COVID-XNUMX i rodziny wirusów koronawirusa.Połączyć
CVObrazOtwarty zbiór danych Waymo MotoryzacjaNajbardziej zróżnicowane zbiory danych o autonomicznej jeździe wydane przez WaymoPołączyć
CVObrazGenom wizualny OgólnePodpisy obrazówWizualna baza wiedzy ze szczegółowymi podpisami ponad 100 tys. obrazówPołączyć
CVObrazEtykieta Rząd publicznyDuży zestaw obrazów z adnotacjami dostępny przez Labelme MatlabPołączyć
CVObrazCOIL100OgólnePonad 100 różnych obiektów sfotografowanych pod różnymi kątami (tj. 360 stopni)Połączyć
CVObrazZbiór danych psów StanfordOgólnePonad 20,500 120+ obrazów podzielonych na zestaw obrazów XNUMX różnych ras psówPołączyć
CVObrazRozpoznawanie sceny wewnętrznej IndoorOgólneRozpoznawanie scenyKonkretny zestaw danych składający się z 15620 obrazów z 67 kategorii wnętrz do budowy modeli rozpoznawania scenPołączyć
CVObrazWizualna kontrola jakościOgólneZestaw danych, który zawiera pytania otwarte dotyczące 265,016 XNUMX zdjęć, które wymagają zrozumienia wizji i zrozumienia języka, aby odpowiedzieć.Połączyć
NLPTekstWielodomenowy zbiór danych analizy nastrojówE-commerceAnaliza sentymentówZestaw danych zawierający recenzje produktów z AmazonPołączyć
NLPTekstRecenzje IMDBrozrywkaAnaliza sentymentówZestaw danych zawierający 25000 recenzji filmów do analizy sentymentuPołączyć
NLPTekstSentyment 140OgólneAnaliza sentymentówZestaw danych zawierający 160,000 XNUMX tweetów ze wstępnie usuniętymi emotikonami dla większej dokładnościPołączyć
NLPTekstKorpus BloggeraOgólneAnaliza słów kluczowychZbiór danych zawierający 681,288 postów na blogu z blogger.com składający się z minimum 200 wystąpień powszechnie używanych angielskich słów.Połączyć
NLPTekstNiebezpieczeństwoOgólneSzkolenie ChatbotaZestaw danych zawierający ponad 200,000 XNUMX pytań, których można użyć do trenowania modeli uczenia maszynowego w celu inteligentnego automatycznego odpowiadaniaPołączyć
NLPTekstZbieranie spamu SMS w języku angielskimTelekomunikacjaRozpoznawanie spamuZestaw danych wiadomości spamowych składający się z 5,574 XNUMX angielskich SMS-ówPołączyć
NLPTekstRecenzje YelpOgólneAnaliza sentymentówZbiór danych z ponad 5 milionami recenzji opublikowanych przez YelpPołączyć
NLPTekstBaza spamu UCIEnterprise Rozpoznawanie spamuDuży zbiór danych wiadomości spamowych, przydatny do filtrowania spamu.Połączyć
CVWideo, obrazBerkeley DeepDrive BDD100kMotoryzacjaAutonomiczne pojazdyJeden z największych zbiorów danych dla autonomicznej sztucznej inteligencji, zawierający 1,100 godzin jazdy w ponad 100,000 XNUMX filmów z różnych pór dnia z okolic Nowego Jorku i San Francisco.Połączyć
CVWideoPrzecinek.aiMotoryzacjaAutonomiczne pojazdy Zestaw danych 7-godzinnej jazdy autostradą zawierający informacje o prędkości samochodu, przyspieszeniu, kącie skrętu i współrzędnych GPSPołączyć
CVWideo, obrazZbiór danych o krajobrazie miejskimMotoryzacjaEtykieta semantyczna dla pojazdu autonomicznegoZestaw danych zawierający 5,000 adnotacji na poziomie pikseli oraz większy zestaw 20,000 50 słabo oznaczonych klatek w sekwencjach wideo stereo, nagranych z XNUMX różnych miastPołączyć
CVObrazZbiór danych znaków drogowych KUL w BelgiiMotoryzacjaAutonomiczne pojazdyPonad 10000+ adnotacji o znakach drogowych z regionu Flandrii na podstawie fizycznie odrębnych znaków drogowych z całej Belgii.Połączyć
CVObrazLISA: Laboratorium inteligentnych i bezpiecznych samochodów, zbiory danych UC San DiegoMotoryzacjaAutonomiczne pojazdyBogaty zestaw danych zawierający znaki drogowe, wykrywanie pojazdów, sygnalizację świetlną i wzorce trajektorii.Połączyć
CVObrazCIFAR-10OgólneRozpoznawanie obiektówZestaw danych składający się z 50,000 10,000 obrazów i 60,000 32 obrazów testowych (tj. 32 10 obrazów XNUMX×XNUMX kolorowych w XNUMX klasach) do rozpoznawania obiektów.Połączyć
CVObrazModa MNISTModaZestaw danych obrazu składający się z 60,000 10,000 przykładów i zestaw testowy 28 28 przykładów w obrazach w skali szarości 10 × XNUMX, powiązany z etykietą z XNUMX klas.Połączyć
CVObrazZbiór danych IMDB-WikirozrywkaRozpoznawanie twarzyDuży zbiór danych obrazów twarzy z etykietami, takimi jak płeć i wiek. Z ogólnej liczby 523,051 460,723 zdjęć twarzy, 20,284 62,328 XNUMX pochodzi od XNUMX XNUMX celebrytów z IMDB i XNUMX XNUMX z Wikipedii.Połączyć
CVWideoKinetyka-700OgólneDla każdej klasy akcji zestaw danych wysokiej jakości składa się z 650,000 700 klipów wideo i obejmuje 600 klas działań ludzkich z co najmniej 10 klipami wideo. Tutaj każdy klip trwa około XNUMX sekund.Połączyć
CVObrazMS KokoOgólneWykrywanie obiektów, segmentacjaZestaw danych zawiera 328 tys. obrazów i zawiera łącznie 2.5 mln wystąpień i 91 obrazów obiektów do trenowania wykrywania obiektów na dużą skalę, segmentacji i opisywania danych związanych z modelami ML.Połączyć
CVObrazZbiór danych MPII dotyczących ludzkiej pozycjiOgólneW zbiorze danych, który służy do szacowania ludzkiej pozy, znajduje się około 25 40 zdjęć zawierających ponad 410 XNUMX osób z adnotowanymi stawami ciała. Ogólnie zbiór danych obejmuje XNUMX działań człowieka, a każdy obraz jest opatrzony etykietą aktywności.Połączyć
CVObrazOtwórz obrazyOgólneAdnotacje dotyczące lokalizacji obiektuZbiór danych obrazu z około 9 Mn obrazów z adnotacjami na poziomie obrazu, obramowaniem obiektu, segmentacją obiektu itp. Zbiór danych składa się również z 16 Mn. ramki ograniczające dla 600 klas obiektów na obrazach 1.9 Mn.Połączyć
CVWideoApollo Open Platform, Baidu Inc, ChinyMotoryzacjaPudełko ograniczające, LiDARBogaty zestaw danych o autonomicznej jeździe, który zapewnia programistom wymagane dane w autonomicznej jeździe w celu przyspieszenia wydajności innowacyjnej iteracji.Połączyć
CVWideo, obrazArgo, przez Argo, USAMotoryzacjaPudełko ograniczające, przepływ optyczny, etykieta behawioralna, etykieta semantyczna, oznaczanie pasa ruchuSamojezdny zestaw danych składający się z map HD z metadanymi geometrycznymi i semantycznymi, tj. liniami środkowymi pasa, kierunkiem pasa i obszarem do przejechania. Zbiór danych służy do trenowania modeli ML, aby stworzyć dokładniejsze algorytmy percepcji, które pomogą pojazdom autonomicznym w bezpiecznej nawigacji.Połączyć
CVWideoMałe sygnalizatory drogowe Bosch, opracowane przez firmę Bosch North America ResearchMotoryzacjaObwiedniaZestaw danych składający się z 13427 obrazów z kamer o rozdzielczości 1280*720 do budowy wizyjnego systemu wykrywania sygnalizacji świetlnej. Zbiór danych zawiera ponad 24000 sygnalizacji świetlnej z adnotacjami.Połączyć
CVWideoBrain4Cars, Cornell Univ., Stany ZjednoczoneMotoryzacjaEtykieta behawioralnaZestaw danych składający się z szeregu czujników kabinowych (kamer, czujników dotykowych, urządzeń inteligentnych itp.) w celu uzyskania przydatnych statystyk dotyczących czujności kierowcy. Nasze algorytmy mogą wykrywać sennych lub rozkojarzonych kierowców i wzmacniać niezbędne alarmy w celu poprawy ochrony.Połączyć
CVObrazCULane, przez Chinese Univ. Hongkongu, Pekinu, ChinMotoryzacjaOznakowanie pasa ruchuZestaw danych Computer Vision dotyczący wykrywania pasów ruchu, składający się z 55 godzin nagrań wideo, z których wyodrębniono 133,235 88880 (zestaw treningowy 9675, zestaw walidacyjny 34680 i zestaw testowy XNUMX). Jest on zbierany przez kamery zamontowane na sześciu różnych pojazdach prowadzonych przez różnych kierowców w Pekinie.Połączyć
CVWideoDAVIS, przez Univ. Zurychu, ETH (Zurych, Niemcy, Szwajcaria)MotoryzacjaKompleksowy zestaw danych treningowych dotyczących jazdy pojazdem, który wykorzystuje kamerę DAVIS event+frame. Dane samochodu, takie jak układ kierowniczy, przepustnica, GPS itp., są wykorzystywane do oceny połączenia danych ramowych i danych o zdarzeniach w aplikacjach motoryzacyjnych.Połączyć
CVWideoDBNet, Shanghai Jiao Tong Univ., Xiamen Univ., ChinyMotoryzacjaChmura punktów, LiDARRzeczywiste dane dotyczące jazdy na dystansie 1000 km, które obejmują wyrównane wideo, chmurę punktów, GPS i zachowanie kierowcy do dogłębnych badań nad zachowaniami podczas jazdy. .Połączyć
CVWideoDr(eye)ve, przez Univ. Modeny i Reggio Emilia, Modena, WłochyMotoryzacjaEtykieta behawioralnaZestaw danych zawierający 74 sekwencje wideo po 5 minut każda, które zostały opatrzone adnotacjami w ponad 500,000 XNUMX ramkach. Zbiór danych składa się z lokalizacji georeferencyjnych, prędkości jazdy, kursu, a także etykiet fiksacji wzrokowych kierowców i ich integracji czasowej, dostarczając mapy specyficzne dla zadania.Połączyć
CVWideoETH Pedestrian (2009), ETH Zurich, Zurych, SzwajcariaOgólneObwiedniaZestaw danych składający się z 74 sekwencji wideo po 5 minut każda, z adnotacjami w ponad 500,000 XNUMX ramkach. Zestaw danych zawiera pozycje georeferencyjne, prędkość jazdy, kierunek, a także etykiety fiksacji wzroku dla kierowców i ich integrację czasową, w tym mapy specyficzne dla zadania.Połączyć
CVWideoFord (2009), przez Univ. z Michigan, Michigan, USAMotoryzacjaPudełko ograniczające, , LiDARZbiór danych skompilowany przez zautomatyzowany pojazd lądowy uzbrojony w skaner lidarowy Velodyne 3D, dwa frontowe lidary Rieg z miotłą pchaną, techniczny i konsumencki zespół pomiaru bezwładnościowego (IMU) oraz wielokierunkowy system kamer Point Grey Ladybug3.Połączyć
CVWideoHCI Challenging Stereo, Bosch Corporation Research, Hildesheim, NiemcyOgólneZbiór danych składający się z kilku milionów klatek z przechwyconych scen wideo, które obejmują szeroki zakres różnych warunków pogodowych, wiele warstw ruchu i głębi; sytuacje w mieście i na wsi itp.Połączyć
CVWideoJAAD, York University, Ukraina, KanadaMotoryzacjaRamka ograniczająca, etykieta behawioralna„JAAD to zbiór danych do badania wspólnej uwagi w kontekście autonomicznej jazdy. Nacisk kładziony jest na zachowania pieszych i kierowców w miejscu przejścia oraz czynniki, które na nie wpływają. W tym celu zbiór danych JAAD zapewnia bogato opatrzoną adnotacją kolekcję 346 krótkich filmów klipy (5–10 s) wyodrębnione z ponad 240 godzin nagrań z jazdy w kilku lokalizacjach w Ameryce Północnej i Europie Wschodniej. W przypadku wszystkich pieszych stosowane są ramki ograniczające z tagami okluzji, dzięki czemu ten zbiór danych jest odpowiedni do wykrywania pieszych. Adnotacje dotyczące zachowania określają zachowania pieszych które wchodzą w interakcję z kierowcą lub wymagają jego uwagi. Dla każdego filmu istnieje kilka tagów (pogoda, lokalizacje itp.) oraz etykiet zachowania z sygnaturą czasową (np. zatrzymanie, spacer, patrzenie itp.). Ponadto lista atrybutów demograficznych jest przewidziana dla każdego pieszego (np. wiek, płeć, kierunek ruchu itp.), a także wykaz widocznych elementów sceny ruchu (np. znak stopu, sygnalizacja świetlna itp.) w każdej ramce."Połączyć
CVWideoKAIST Urban, KAIST, Korea Południowa SouthOgólneLiDARGromadzenie danych obejmuje liczne czujniki lokalizacyjne dla danych LiDAR i obrazów stereo ukierunkowanych na bardzo złożony obszar miejski (np. obszary metropolii, złożone budynki i obszary mieszkalne).Połączyć
CVObrazZnak drogowy LISA firmy Univ. w Kalifornii, San Diego, Stany ZjednoczoneMotoryzacjaObwiedniaZbiór danych zawierający filmy i klatki z adnotacjami zawierające znaki drogowe w Stanach Zjednoczonych. Jest wydawany w dwóch etapach, jeden zawiera tylko zdjęcia, a drugi zarówno zdjęcia, jak i filmy.Połączyć
CVObrazMapillary Vistas, Mapillary AB, GlobalMotoryzacjaEtykieta semantycznaZbiór danych dotyczących zdjęć z poziomu ulicy do interpretacji scen ulicznych na całym świecie za pomocą precyzyjnych do pikseli i specyficznych dla instancji adnotacji ludzkich.Połączyć
CVWideo, obrazSemantic KITTI, Uniwersytet w Bonn, Karlsruhe, NiemcyMotoryzacjaRamka ograniczająca, etykieta semantyczna, oznaczenie pasa ruchuZestaw danych, który zawiera adnotację semantyczną dla wszystkich sekwencji Odometry Benchmark. Zbiór danych zawiera adnotacje do różnych typów ruchu w ruchu i bez ruchu: w tym samochodów, rowerów, rowerów, pieszych i rowerzystów, umożliwiając badanie obiektów na scenie.Połączyć
CVWideoStanford Track, Uniwersytet Stanforda, Stany ZjednoczoneMotoryzacjaWykrywanie obiektów / klasyfikacja LiDAR, GPS, kodyZestaw danych zawierający 14,000 64 oznakowanych ścieżek obiektów obserwowanych przez LIDAR Velodyne HDL-2E S3 w naturalnych scenach ulicznych, który można wykorzystać do trenowania modeli uczenia maszynowego do rozpoznawania obiektów XNUMXD.Połączyć
CVWideo, obrazThe Boxy Dataset firmy Bosch, Stany ZjednoczoneMotoryzacjaRamka ograniczająca / wykrywanie pojazdówZestaw danych wykrywania pojazdów zawierający 2 miliony pojazdów z adnotacjami do szkolenia i analizy strategii rozpoznawania obiektów dla samochodów autonomicznych na autostradach.Połączyć
CVWideoAutostrada TME, Czeska Politechnika, Północne WłochyMotoryzacjaObwiedniaZestaw danych składający się z 28 klipów o łącznej długości 27 minut, rozwidlony na ponad 30,000 XNUMX ramek adnotacji pojazdów. Adnotacja została wykonana półautomatycznie z wykorzystaniem danych ze skanera laserowego. Gromadzenie danych obejmuje zmienne scenariusze ruchu, liczbę pasów, krzywiznę drogi i oświetlenie, obejmujące większość warunków pełnego akwizycji.Połączyć
CVWideoLamy nienadzorowane, Bosch, Stany ZjednoczoneMotoryzacjaOznakowanie pasa ruchu, LiDARZestaw danych Nienadzorowane lamy został opatrzony adnotacjami poprzez wygenerowanie automatycznych map jazdy w wysokiej rozdzielczości, w tym znaczników pasów ruchu opartych na Lidar. Autonomiczny pojazd można ustawić na tych mapach, a oznaczenia pasów są wyświetlane w ramie kamery. Projekcja 3D jest optymalizowana poprzez minimalizację rozbieżności między już obserwowanymi a przewidywanymi znacznikami obrazu.Połączyć
NLPAudioWielojęzyczna LibriSpeech AI na Facebooku (MLS)OgólneAdnotacje dźwiękowe / rozpoznawanie mowyFacebook AI Multilingual LibriSpeech (MLS) to wielkoskalowy zestaw danych o otwartym kodzie źródłowym, który ma pomóc w rozwoju badań nad automatycznym rozpoznawaniem mowy (ASR). MLS zapewnia ponad 50,000 8 godzin dźwięku w XNUMX językach: angielskim, niemieckim, holenderskim, francuskim, hiszpańskim, włoskim, portugalskim i polskim. Połączyć