Otwarte zbiory danych

Odkryj zbiory danych typu open source, które pozwolą Ci trenować modele ML

Otwarte zbiory danych

Zbiory danych typu open source, aby rozpocząć pracę z modelami AI/ML

Wyniki Twoich modeli AI i ML są tak dobre, jak dane, których używasz do ich trenowania – dlatego precyzja, jaką stosujesz do agregacji danych oraz znakowania i identyfikowania tych danych, jest ważna!

Więc jeśli chcesz rozpocząć nową inicjatywę AI/ML, a teraz szybko zdajesz sobie sprawę, że znalezienie wysokiej jakości danych treningowych będzie jednym z trudniejszych aspektów twojego projektu, ponieważ wysokiej jakości zestawy danych są paliwem, które utrzymuje sztuczną inteligencję/ Działa silnik ML. Zgromadziliśmy listę otwartych zbiorów danych, z których można bezpłatnie korzystać i trenować modele AI/ML przyszłości.

SpecjalizacjaDataTypeNazwa zbioru danychPrzemysł / DziałAdnotacja/przypadek użyciaOpisPołączyć
NLPTekstAmazon RecenzjeE-commerceAnaliza sentymentówZestaw 35 milionów recenzji i ocen z ostatnich 18 lat w postaci zwykłego tekstu ze szczegółami użytkownika i produktu.Połączyć
NLPTekstDane linków do WikipediiOgólnePonad 4 mln. artykuły zawierające 1.9 mld. słowo składające się ze słów i fraz oraz akapitów.Połączyć
NLPTekstBank drzew sentymentu w StandfordrozrywkaAnaliza sentymentówZestaw danych z adnotacjami na temat sentymentów dla ponad 10,000 XNUMX recenzji z Rotten Tomatoes w formacie pliku HTML HTMLPołączyć
NLPTekstSentyment linii lotniczych USA na TwitterzeLinia lotniczaAnaliza sentymentówTweety z 2015 r. w US Airlines rozwinęły się w pozytywne, negatywne i neutralne tonyPołączyć
CVObraz Sieć obrazówOgólneZbiór danych z ponad 14 mln. obrazy w różnych formatach plików, zorganizowane zgodnie z hierarchią WordNet.Połączyć
CVObraz Otwarte obrazy GoogleOgólne9 mln Adresy URL do kategoryzacji obrazów publicznych z ponad 6,000 kategorii.Połączyć
NLPTekstBaza danych intensywnej opieki MIMICZdrowieZbiory danych z fizjologii obliczeniowej zawierające zdeidentyfikowane dane od 40,000 XNUMX pacjentów wymagających intensywnej opieki medycznej. Zbiór danych zawiera informacje, takie jak dane demograficzne, parametry życiowe, leki itp.Połączyć
CVObrazAmerykańskie Narodowe Biuro Podróży i TurystykiTurystykaUdostępnia szerokie zdjęcia z branży turystycznej z wiarygodnymi bazami danych, obejmującymi takie tematy, jak podróże przychodzące i wychodzące oraz międzynarodowe informacje turystyczne.Połączyć
NLPTekstDepartament TransportuTurystykaZbiory danych turystycznych, które obejmują parki narodowe, rejestry kierowców, mosty i informacje o kolei itp.Połączyć
NLPAudioKorpus napisów audio FlickrOgólnePonad 40 tys. podpisów mówionych z 8,000 zdjęć zaprojektowanych z myślą o nienadzorowanych wzorcach mowyPołączyć
NLPAudioZestaw danych poleceń mowyOgólneRozpoznawanie mowy, adnotacje dźwiękowe1-sekundowe wypowiedzi tysięcy osób w celu zbudowania podstawowego interfejsu głosowego.Połączyć
NLPAudioZbiory danych dźwiękowych dotyczących środowiskaOgólneZestawy danych dźwiękowych środowiska, które zawierają tabele dźwięków zdarzeń i tabele scen akustycznych.Połączyć
NLPTekstZbiór danych otwartych badań COVID-19 ZdrowieMedyczna sztuczna inteligencjaZbiór danych badawczych składający się z 45,000 19 artykułów naukowych na temat COVID-XNUMX i rodziny wirusów koronawirusa.Połączyć
CVObrazOtwarty zbiór danych Waymo MotoryzacjaNajbardziej zróżnicowane zbiory danych o autonomicznej jeździe wydane przez WaymoPołączyć
CVObrazEtykieta Rząd publicznyDuży zestaw obrazów z adnotacjami dostępny przez Labelme MatlabPołączyć
CVObrazZbiór danych psów StanfordOgólnePonad 20,500 120+ obrazów podzielonych na zestaw obrazów XNUMX różnych ras psówPołączyć
CVObrazRozpoznawanie sceny wewnętrznej IndoorOgólneRozpoznawanie scenyKonkretny zestaw danych składający się z 15620 obrazów z 67 kategorii wnętrz do budowy modeli rozpoznawania scenPołączyć
CVObrazWizualna kontrola jakościOgólneZestaw danych, który zawiera pytania otwarte dotyczące 265,016 XNUMX zdjęć, które wymagają zrozumienia wizji i zrozumienia języka, aby odpowiedzieć.Połączyć
NLPTekstWielodomenowy zbiór danych analizy nastrojówE-commerceAnaliza sentymentówZestaw danych zawierający recenzje produktów z AmazonPołączyć
NLPTekstRecenzje IMDBrozrywkaAnaliza sentymentówZestaw danych zawierający 25000 recenzji filmów do analizy sentymentuPołączyć
NLPTekstKorpus BloggeraOgólneAnaliza słów kluczowychZbiór danych zawierający 681,288 postów na blogu z blogger.com składający się z minimum 200 wystąpień powszechnie używanych angielskich słów.Połączyć
NLPTekstNiebezpieczeństwoOgólneSzkolenie ChatbotaZestaw danych zawierający ponad 200,000 XNUMX pytań, których można użyć do trenowania modeli uczenia maszynowego w celu inteligentnego automatycznego odpowiadaniaPołączyć
NLPTekstZbieranie spamu SMS w języku angielskimTelekomunikacjaRozpoznawanie spamuZestaw danych wiadomości spamowych składający się z 5,574 XNUMX angielskich SMS-ówPołączyć
NLPTekstRecenzje YelpOgólneAnaliza sentymentówZbiór danych z ponad 5 milionami recenzji opublikowanych przez YelpPołączyć
NLPTekstBaza spamu UCIEnterprise Rozpoznawanie spamuDuży zbiór danych wiadomości spamowych, przydatny do filtrowania spamu.Połączyć
CVWideo, obrazBerkeley DeepDrive BDD100kMotoryzacjaAutonomiczne pojazdyJeden z największych zbiorów danych dla autonomicznej sztucznej inteligencji, zawierający 1,100 godzin jazdy w ponad 100,000 XNUMX filmów z różnych pór dnia z okolic Nowego Jorku i San Francisco.Połączyć
CVWideoPrzecinek.aiMotoryzacjaAutonomiczne pojazdy Zestaw danych 7-godzinnej jazdy autostradą zawierający informacje o prędkości samochodu, przyspieszeniu, kącie skrętu i współrzędnych GPSPołączyć
CVWideo, obrazZbiór danych o krajobrazie miejskimMotoryzacjaEtykieta semantyczna dla pojazdu autonomicznegoZestaw danych zawierający 5,000 adnotacji na poziomie pikseli oraz większy zestaw 20,000 50 słabo oznaczonych klatek w sekwencjach wideo stereo, nagranych z XNUMX różnych miastPołączyć
CVObrazZbiór danych znaków drogowych KUL w BelgiiMotoryzacjaAutonomiczne pojazdyPonad 10000+ adnotacji o znakach drogowych z regionu Flandrii na podstawie fizycznie odrębnych znaków drogowych z całej Belgii.Połączyć
CVObrazLISA: Laboratorium inteligentnych i bezpiecznych samochodów, zbiory danych UC San DiegoMotoryzacjaAutonomiczne pojazdyBogaty zestaw danych zawierający znaki drogowe, wykrywanie pojazdów, sygnalizację świetlną i wzorce trajektorii.Połączyć
CVObrazCIFAR-10OgólneRozpoznawanie obiektówZestaw danych składający się z 50,000 10,000 obrazów i 60,000 32 obrazów testowych (tj. 32 10 obrazów XNUMX×XNUMX kolorowych w XNUMX klasach) do rozpoznawania obiektów.Połączyć
CVObrazModa MNISTModaZestaw danych obrazu składający się z 60,000 10,000 przykładów i zestaw testowy 28 28 przykładów w obrazach w skali szarości 10 × XNUMX, powiązany z etykietą z XNUMX klas.Połączyć
CVObrazZbiór danych IMDB-WikirozrywkaRozpoznawanie twarzyDuży zbiór danych obrazów twarzy z etykietami, takimi jak płeć i wiek. Z ogólnej liczby 523,051 460,723 zdjęć twarzy, 20,284 62,328 XNUMX pochodzi od XNUMX XNUMX celebrytów z IMDB i XNUMX XNUMX z Wikipedii.Połączyć
CVWideoKinetyka-700OgólneDla każdej klasy akcji zestaw danych wysokiej jakości składa się z 650,000 700 klipów wideo i obejmuje 600 klas działań ludzkich z co najmniej 10 klipami wideo. Tutaj każdy klip trwa około XNUMX sekund.Połączyć
CVObrazMS KokoOgólneWykrywanie obiektów, segmentacjaZestaw danych zawiera 328 tys. obrazów i zawiera łącznie 2.5 mln wystąpień i 91 obrazów obiektów do trenowania wykrywania obiektów na dużą skalę, segmentacji i opisywania danych związanych z modelami ML.Połączyć
CVObrazZbiór danych MPII dotyczących ludzkiej pozycjiOgólneW zbiorze danych, który służy do szacowania ludzkiej pozy, znajduje się około 25 40 zdjęć zawierających ponad 410 XNUMX osób z adnotowanymi stawami ciała. Ogólnie zbiór danych obejmuje XNUMX działań człowieka, a każdy obraz jest opatrzony etykietą aktywności.Połączyć
CVObrazOtwórz obrazyOgólneAdnotacje dotyczące lokalizacji obiektuZbiór danych obrazu z około 9 Mn obrazów z adnotacjami na poziomie obrazu, obramowaniem obiektu, segmentacją obiektu itp. Zbiór danych składa się również z 16 Mn. ramki ograniczające dla 600 klas obiektów na obrazach 1.9 Mn.Połączyć
CVWideo, obrazArgo, przez Argo, USAMotoryzacjaPudełko ograniczające, przepływ optyczny, etykieta behawioralna, etykieta semantyczna, oznaczanie pasa ruchuSamojezdny zestaw danych składający się z map HD z metadanymi geometrycznymi i semantycznymi, tj. liniami środkowymi pasa, kierunkiem pasa i obszarem do przejechania. Zbiór danych służy do trenowania modeli ML, aby stworzyć dokładniejsze algorytmy percepcji, które pomogą pojazdom autonomicznym w bezpiecznej nawigacji.Połączyć
CVWideoMałe sygnalizatory drogowe Bosch, opracowane przez firmę Bosch North America ResearchMotoryzacjaObwiedniaZestaw danych składający się z 13427 obrazów z kamer o rozdzielczości 1280*720 do budowy wizyjnego systemu wykrywania sygnalizacji świetlnej. Zbiór danych zawiera ponad 24000 sygnalizacji świetlnej z adnotacjami.Połączyć
CVWideoBrain4Cars, Cornell Univ., Stany ZjednoczoneMotoryzacjaEtykieta behawioralnaZestaw danych składający się z szeregu czujników kabinowych (kamer, czujników dotykowych, urządzeń inteligentnych itp.) w celu uzyskania przydatnych statystyk dotyczących czujności kierowcy. Nasze algorytmy mogą wykrywać sennych lub rozkojarzonych kierowców i wzmacniać niezbędne alarmy w celu poprawy ochrony.Połączyć
CVObrazCULane, przez Chinese Univ. Hongkongu, Pekinu, ChinMotoryzacjaOznakowanie pasa ruchuZestaw danych Computer Vision dotyczący wykrywania pasów ruchu, składający się z 55 godzin nagrań wideo, z których wyodrębniono 133,235 88880 (zestaw treningowy 9675, zestaw walidacyjny 34680 i zestaw testowy XNUMX). Jest on zbierany przez kamery zamontowane na sześciu różnych pojazdach prowadzonych przez różnych kierowców w Pekinie.Połączyć
CVWideoDAVIS, przez Univ. Zurychu, ETH (Zurych, Niemcy, Szwajcaria)MotoryzacjaKompleksowy zestaw danych treningowych dotyczących jazdy pojazdem, który wykorzystuje kamerę DAVIS event+frame. Dane samochodu, takie jak układ kierowniczy, przepustnica, GPS itp., są wykorzystywane do oceny połączenia danych ramowych i danych o zdarzeniach w aplikacjach motoryzacyjnych.Połączyć
CVWideoDBNet, Shanghai Jiao Tong Univ., Xiamen Univ., ChinyMotoryzacjaChmura punktów, LiDARRzeczywiste dane dotyczące jazdy na dystansie 1000 km, które obejmują wyrównane wideo, chmurę punktów, GPS i zachowanie kierowcy do dogłębnych badań nad zachowaniami podczas jazdy. .Połączyć
CVWideoDr(eye)ve, przez Univ. Modeny i Reggio Emilia, Modena, WłochyMotoryzacjaEtykieta behawioralnaZestaw danych zawierający 74 sekwencje wideo po 5 minut każda, które zostały opatrzone adnotacjami w ponad 500,000 XNUMX ramkach. Zbiór danych składa się z lokalizacji georeferencyjnych, prędkości jazdy, kursu, a także etykiet fiksacji wzrokowych kierowców i ich integracji czasowej, dostarczając mapy specyficzne dla zadania.Połączyć
CVWideoETH Pedestrian (2009), ETH Zurich, Zurych, SzwajcariaOgólneObwiedniaZestaw danych składający się z 74 sekwencji wideo po 5 minut każda, z adnotacjami w ponad 500,000 XNUMX ramkach. Zestaw danych zawiera pozycje georeferencyjne, prędkość jazdy, kierunek, a także etykiety fiksacji wzroku dla kierowców i ich integrację czasową, w tym mapy specyficzne dla zadania.Połączyć
CVWideoFord (2009), przez Univ. z Michigan, Michigan, USAMotoryzacjaPudełko ograniczające, , LiDARZbiór danych skompilowany przez zautomatyzowany pojazd lądowy uzbrojony w skaner lidarowy Velodyne 3D, dwa frontowe lidary Rieg z miotłą pchaną, techniczny i konsumencki zespół pomiaru bezwładnościowego (IMU) oraz wielokierunkowy system kamer Point Grey Ladybug3.Połączyć
CVWideoHCI Challenging Stereo, Bosch Corporation Research, Hildesheim, NiemcyOgólneZbiór danych składający się z kilku milionów klatek z przechwyconych scen wideo, które obejmują szeroki zakres różnych warunków pogodowych, wiele warstw ruchu i głębi; sytuacje w mieście i na wsi itp.Połączyć
CVWideoJAAD, York University, Ukraina, KanadaMotoryzacjaRamka ograniczająca, etykieta behawioralna„JAAD to zbiór danych do badania wspólnej uwagi w kontekście autonomicznej jazdy. Nacisk kładziony jest na zachowania pieszych i kierowców w miejscu przejścia oraz czynniki, które na nie wpływają. W tym celu zbiór danych JAAD zapewnia bogato opatrzoną adnotacją kolekcję 346 krótkich filmów klipy (5–10 s) wyodrębnione z ponad 240 godzin nagrań z jazdy w kilku lokalizacjach w Ameryce Północnej i Europie Wschodniej. W przypadku wszystkich pieszych stosowane są ramki ograniczające z tagami okluzji, dzięki czemu ten zbiór danych jest odpowiedni do wykrywania pieszych. Adnotacje dotyczące zachowania określają zachowania pieszych które wchodzą w interakcję z kierowcą lub wymagają jego uwagi. Dla każdego filmu istnieje kilka tagów (pogoda, lokalizacje itp.) oraz etykiet zachowania z sygnaturą czasową (np. zatrzymanie, spacer, patrzenie itp.). Ponadto lista atrybutów demograficznych jest przewidziana dla każdego pieszego (np. wiek, płeć, kierunek ruchu itp.), a także wykaz widocznych elementów sceny ruchu (np. znak stopu, sygnalizacja świetlna itp.) w każdej ramce."Połączyć
CVObrazZnak drogowy LISA firmy Univ. w Kalifornii, San Diego, Stany ZjednoczoneMotoryzacjaObwiedniaZbiór danych zawierający filmy i klatki z adnotacjami zawierające znaki drogowe w Stanach Zjednoczonych. Jest wydawany w dwóch etapach, jeden zawiera tylko zdjęcia, a drugi zarówno zdjęcia, jak i filmy.Połączyć
CVObrazMapillary Vistas, Mapillary AB, GlobalMotoryzacjaEtykieta semantycznaZbiór danych dotyczących zdjęć z poziomu ulicy do interpretacji scen ulicznych na całym świecie za pomocą precyzyjnych do pikseli i specyficznych dla instancji adnotacji ludzkich.Połączyć
CVWideo, obrazSemantic KITTI, Uniwersytet w Bonn, Karlsruhe, NiemcyMotoryzacjaRamka ograniczająca, etykieta semantyczna, oznaczenie pasa ruchuZestaw danych, który zawiera adnotację semantyczną dla wszystkich sekwencji Odometry Benchmark. Zbiór danych zawiera adnotacje do różnych typów ruchu w ruchu i bez ruchu: w tym samochodów, rowerów, rowerów, pieszych i rowerzystów, umożliwiając badanie obiektów na scenie.Połączyć
CVWideoStanford Track, Uniwersytet Stanforda, Stany ZjednoczoneMotoryzacjaWykrywanie obiektów / klasyfikacja LiDAR, GPS, kodyZestaw danych zawierający 14,000 64 oznakowanych ścieżek obiektów obserwowanych przez LIDAR Velodyne HDL-2E S3 w naturalnych scenach ulicznych, który można wykorzystać do trenowania modeli uczenia maszynowego do rozpoznawania obiektów XNUMXD.Połączyć
CVWideo, obrazThe Boxy Dataset firmy Bosch, Stany ZjednoczoneMotoryzacjaRamka ograniczająca / wykrywanie pojazdówZestaw danych wykrywania pojazdów zawierający 2 miliony pojazdów z adnotacjami do szkolenia i analizy strategii rozpoznawania obiektów dla samochodów autonomicznych na autostradach.Połączyć
CVWideoAutostrada TME, Czeska Politechnika, Północne WłochyMotoryzacjaObwiedniaZestaw danych składający się z 28 klipów o łącznej długości 27 minut, rozwidlony na ponad 30,000 XNUMX ramek adnotacji pojazdów. Adnotacja została wykonana półautomatycznie z wykorzystaniem danych ze skanera laserowego. Gromadzenie danych obejmuje zmienne scenariusze ruchu, liczbę pasów, krzywiznę drogi i oświetlenie, obejmujące większość warunków pełnego akwizycji.Połączyć
CVWideoLamy nienadzorowane, Bosch, Stany ZjednoczoneMotoryzacjaOznakowanie pasa ruchu, LiDARZestaw danych Nienadzorowane lamy został opatrzony adnotacjami poprzez wygenerowanie automatycznych map jazdy w wysokiej rozdzielczości, w tym znaczników pasów ruchu opartych na Lidar. Autonomiczny pojazd można ustawić na tych mapach, a oznaczenia pasów są wyświetlane w ramie kamery. Projekcja 3D jest optymalizowana poprzez minimalizację rozbieżności między już obserwowanymi a przewidywanymi znacznikami obrazu.Połączyć
NLPAudioWielojęzyczna LibriSpeech AI na Facebooku (MLS)OgólneAdnotacje dźwiękowe / rozpoznawanie mowyFacebook AI Multilingual LibriSpeech (MLS) to wielkoskalowy zestaw danych o otwartym kodzie źródłowym, który ma pomóc w rozwoju badań nad automatycznym rozpoznawaniem mowy (ASR). MLS zapewnia ponad 50,000 8 godzin dźwięku w XNUMX językach: angielskim, niemieckim, holenderskim, francuskim, hiszpańskim, włoskim, portugalskim i polskim. Połączyć