Otwarte zbiory danych

Odkryj zbiory danych typu open source, które pozwolą Ci trenować modele ML

Zbiory danych typu open source, aby rozpocząć pracę z modelami AI/ML

Wyniki Twoich modeli AI i ML są tak dobre, jak dane, których używasz do ich trenowania – dlatego precyzja, jaką stosujesz do agregacji danych oraz znakowania i identyfikowania tych danych, jest ważna!

Więc jeśli chcesz rozpocząć nową inicjatywę AI/ML, a teraz szybko zdajesz sobie sprawę, że znalezienie wysokiej jakości danych treningowych będzie jednym z trudniejszych aspektów twojego projektu, ponieważ wysokiej jakości zestawy danych są paliwem, które utrzymuje sztuczną inteligencję/ Działa silnik ML. Zgromadziliśmy listę otwartych zbiorów danych, z których można bezpłatnie korzystać i trenować modele AI/ML przyszłości.

Specjalizacja	DataType	Nazwa zbioru danych	Przemysł / Dział	Adnotacja/przypadek użycia	Opis	Połączyć
NLP	Tekst	Amazon Recenzje	E-commerce	Analiza sentymentów	Zestaw 35 milionów recenzji i ocen z ostatnich 18 lat w postaci zwykłego tekstu ze szczegółami użytkownika i produktu.	Połączyć
NLP	Tekst	Dane linków do Wikipedii	Ogólne		Ponad 4 mln. artykuły zawierające 1.9 mld. słowo składające się ze słów i fraz oraz akapitów.	Połączyć
NLP	Tekst	Bank drzew sentymentu w Standford	rozrywka	Analiza sentymentów	Zestaw danych z adnotacjami na temat sentymentów dla ponad 10,000 XNUMX recenzji z Rotten Tomatoes w formacie pliku HTML HTML	Połączyć
NLP	Tekst	Sentyment linii lotniczych USA na Twitterze	Linia lotnicza	Analiza sentymentów	Tweety z 2015 r. w US Airlines rozwinęły się w pozytywne, negatywne i neutralne tony	Połączyć
CV	Obraz	Oznaczone twarze na wolności	Ogólne	Rozpoznawanie twarzy	Zbiór danych zawierający ponad 13,000 XNUMX przyciętych twarzy z dwoma różnymi zdjęciami do treningu rozpoznawania twarzy.	Połączyć
CV	Wideo, obraz	Zbiór danych UMDFaces	Ogólne	Rozpoznawanie twarzy	Zbiór danych z adnotacjami zawierający ponad 367,000 8,000 twarzy od ponad XNUMX XNUMX osób, który obejmuje zdjęcia i obrazy wideo.	Połączyć
CV	Obraz	Sieć obrazów	Ogólne		Zbiór danych z ponad 14 mln. obrazy w różnych formatach plików, zorganizowane zgodnie z hierarchią WordNet.	Połączyć
CV	Obraz	Otwarte obrazy Google	Ogólne		9 mln Adresy URL do kategoryzacji obrazów publicznych z ponad 6,000 kategorii.	Połączyć
NLP	Tekst	Baza danych intensywnej opieki MIMIC	Zdrowie		Zbiory danych z fizjologii obliczeniowej zawierające zdeidentyfikowane dane od 40,000 XNUMX pacjentów wymagających intensywnej opieki medycznej. Zbiór danych zawiera informacje, takie jak dane demograficzne, parametry życiowe, leki itp.	Połączyć
CV	Obraz	Amerykańskie Narodowe Biuro Podróży i Turystyki	Turystyka		Udostępnia szerokie zdjęcia z branży turystycznej z wiarygodnymi bazami danych, obejmującymi takie tematy, jak podróże przychodzące i wychodzące oraz międzynarodowe informacje turystyczne.	Połączyć
NLP	Tekst	Departament Transportu	Turystyka		Zbiory danych turystycznych, które obejmują parki narodowe, rejestry kierowców, mosty i informacje o kolei itp.	Połączyć
NLP	Audio	Korpus napisów audio Flickr	Ogólne		Ponad 40 tys. podpisów mówionych z 8,000 zdjęć zaprojektowanych z myślą o nienadzorowanych wzorcach mowy	Połączyć
NLP	Audio	Zestaw danych poleceń mowy	Ogólne	Rozpoznawanie mowy, adnotacje dźwiękowe	1-sekundowe wypowiedzi tysięcy osób w celu zbudowania podstawowego interfejsu głosowego.	Połączyć
NLP	Audio	Zbiory danych dźwiękowych dotyczących środowiska	Ogólne		Zestawy danych dźwiękowych środowiska, które zawierają tabele dźwięków zdarzeń i tabele scen akustycznych.	Połączyć
NLP	Tekst	Zbiór danych otwartych badań COVID-19	Zdrowie	Medyczna sztuczna inteligencja	Zbiór danych badawczych składający się z 45,000 19 artykułów naukowych na temat COVID-XNUMX i rodziny wirusów koronawirusa.	Połączyć
CV	Obraz	Otwarty zbiór danych Waymo	Motoryzacja		Najbardziej zróżnicowane zbiory danych o autonomicznej jeździe wydane przez Waymo	Połączyć
CV	Obraz	Genom wizualny	Ogólne	Podpisy obrazów	Wizualna baza wiedzy ze szczegółowymi podpisami ponad 100 tys. obrazów	Połączyć
CV	Obraz	Etykieta	Rząd publiczny		Duży zestaw obrazów z adnotacjami dostępny przez Labelme Matlab	Połączyć
CV	Obraz	COIL100	Ogólne		Ponad 100 różnych obiektów sfotografowanych pod różnymi kątami (tj. 360 stopni)	Połączyć
CV	Obraz	Zbiór danych psów Stanford	Ogólne		Ponad 20,500 120+ obrazów podzielonych na zestaw obrazów XNUMX różnych ras psów	Połączyć
CV	Obraz	Rozpoznawanie sceny wewnętrznej Indoor	Ogólne	Rozpoznawanie sceny	Konkretny zestaw danych składający się z 15620 obrazów z 67 kategorii wnętrz do budowy modeli rozpoznawania scen	Połączyć
CV	Obraz	Wizualna kontrola jakości	Ogólne		Zestaw danych, który zawiera pytania otwarte dotyczące 265,016 XNUMX zdjęć, które wymagają zrozumienia wizji i zrozumienia języka, aby odpowiedzieć.	Połączyć
NLP	Tekst	Wielodomenowy zbiór danych analizy nastrojów	E-commerce	Analiza sentymentów	Zestaw danych zawierający recenzje produktów z Amazon	Połączyć
NLP	Tekst	Recenzje IMDB	rozrywka	Analiza sentymentów	Zestaw danych zawierający 25000 recenzji filmów do analizy sentymentu	Połączyć
NLP	Tekst	Sentyment 140	Ogólne	Analiza sentymentów	Zestaw danych zawierający 160,000 XNUMX tweetów ze wstępnie usuniętymi emotikonami dla większej dokładności	Połączyć
NLP	Tekst	Korpus Bloggera	Ogólne	Analiza słów kluczowych	Zbiór danych zawierający 681,288 postów na blogu z blogger.com składający się z minimum 200 wystąpień powszechnie używanych angielskich słów.	Połączyć
NLP	Tekst	Niebezpieczeństwo	Ogólne	Szkolenie Chatbota	Zestaw danych zawierający ponad 200,000 XNUMX pytań, których można użyć do trenowania modeli uczenia maszynowego w celu inteligentnego automatycznego odpowiadania	Połączyć
NLP	Tekst	Zbieranie spamu SMS w języku angielskim	Telekomunikacja	Rozpoznawanie spamu	Zestaw danych wiadomości spamowych składający się z 5,574 XNUMX angielskich SMS-ów	Połączyć
NLP	Tekst	Recenzje Yelp	Ogólne	Analiza sentymentów	Zbiór danych z ponad 5 milionami recenzji opublikowanych przez Yelp	Połączyć
NLP	Tekst	Baza spamu UCI	Enterprise	Rozpoznawanie spamu	Duży zbiór danych wiadomości spamowych, przydatny do filtrowania spamu.	Połączyć
CV	Wideo, obraz	Berkeley DeepDrive BDD100k	Motoryzacja	Autonomiczne pojazdy	Jeden z największych zbiorów danych dla autonomicznej sztucznej inteligencji, zawierający 1,100 godzin jazdy w ponad 100,000 XNUMX filmów z różnych pór dnia z okolic Nowego Jorku i San Francisco.	Połączyć
CV	Wideo	Przecinek.ai	Motoryzacja	Autonomiczne pojazdy	Zestaw danych 7-godzinnej jazdy autostradą zawierający informacje o prędkości samochodu, przyspieszeniu, kącie skrętu i współrzędnych GPS	Połączyć
CV	Wideo, obraz	Zbiór danych o krajobrazie miejskim	Motoryzacja	Etykieta semantyczna dla pojazdu autonomicznego	Zestaw danych zawierający 5,000 adnotacji na poziomie pikseli oraz większy zestaw 20,000 50 słabo oznaczonych klatek w sekwencjach wideo stereo, nagranych z XNUMX różnych miast	Połączyć
CV	Obraz	Zbiór danych znaków drogowych KUL w Belgii	Motoryzacja	Autonomiczne pojazdy	Ponad 10000+ adnotacji o znakach drogowych z regionu Flandrii na podstawie fizycznie odrębnych znaków drogowych z całej Belgii.	Połączyć
CV	Obraz	LISA: Laboratorium inteligentnych i bezpiecznych samochodów, zbiory danych UC San Diego	Motoryzacja	Autonomiczne pojazdy	Bogaty zestaw danych zawierający znaki drogowe, wykrywanie pojazdów, sygnalizację świetlną i wzorce trajektorii.	Połączyć
CV	Obraz	CIFAR-10	Ogólne	Rozpoznawanie obiektów	Zestaw danych składający się z 50,000 10,000 obrazów i 60,000 32 obrazów testowych (tj. 32 10 obrazów XNUMX×XNUMX kolorowych w XNUMX klasach) do rozpoznawania obiektów.	Połączyć
CV	Obraz	Moda MNIST	Moda		Zestaw danych obrazu składający się z 60,000 10,000 przykładów i zestaw testowy 28 28 przykładów w obrazach w skali szarości 10 × XNUMX, powiązany z etykietą z XNUMX klas.	Połączyć
CV	Obraz	Zbiór danych IMDB-Wiki	rozrywka	Rozpoznawanie twarzy	Duży zbiór danych obrazów twarzy z etykietami, takimi jak płeć i wiek. Z ogólnej liczby 523,051 460,723 zdjęć twarzy, 20,284 62,328 XNUMX pochodzi od XNUMX XNUMX celebrytów z IMDB i XNUMX XNUMX z Wikipedii.	Połączyć
CV	Wideo	Kinetyka-700	Ogólne		Dla każdej klasy akcji zestaw danych wysokiej jakości składa się z 650,000 700 klipów wideo i obejmuje 600 klas działań ludzkich z co najmniej 10 klipami wideo. Tutaj każdy klip trwa około XNUMX sekund.	Połączyć
CV	Obraz	MS Koko	Ogólne	Wykrywanie obiektów, segmentacja	Zestaw danych zawiera 328 tys. obrazów i zawiera łącznie 2.5 mln wystąpień i 91 obrazów obiektów do trenowania wykrywania obiektów na dużą skalę, segmentacji i opisywania danych związanych z modelami ML.	Połączyć
CV	Obraz	Zbiór danych MPII dotyczących ludzkiej pozycji	Ogólne		W zbiorze danych, który służy do szacowania ludzkiej pozy, znajduje się około 25 40 zdjęć zawierających ponad 410 XNUMX osób z adnotowanymi stawami ciała. Ogólnie zbiór danych obejmuje XNUMX działań człowieka, a każdy obraz jest opatrzony etykietą aktywności.	Połączyć
CV	Obraz	Otwórz obrazy	Ogólne	Adnotacje dotyczące lokalizacji obiektu	Zbiór danych obrazu z około 9 Mn obrazów z adnotacjami na poziomie obrazu, obramowaniem obiektu, segmentacją obiektu itp. Zbiór danych składa się również z 16 Mn. ramki ograniczające dla 600 klas obiektów na obrazach 1.9 Mn.	Połączyć
CV	Wideo	Apollo Open Platform, Baidu Inc, Chiny	Motoryzacja	Pudełko ograniczające, LiDAR	Bogaty zestaw danych o autonomicznej jeździe, który zapewnia programistom wymagane dane w autonomicznej jeździe w celu przyspieszenia wydajności innowacyjnej iteracji.	Połączyć
CV	Wideo, obraz	Argo, przez Argo, USA	Motoryzacja	Pudełko ograniczające, przepływ optyczny, etykieta behawioralna, etykieta semantyczna, oznaczanie pasa ruchu	Samojezdny zestaw danych składający się z map HD z metadanymi geometrycznymi i semantycznymi, tj. liniami środkowymi pasa, kierunkiem pasa i obszarem do przejechania. Zbiór danych służy do trenowania modeli ML, aby stworzyć dokładniejsze algorytmy percepcji, które pomogą pojazdom autonomicznym w bezpiecznej nawigacji.	Połączyć
CV	Wideo	Małe sygnalizatory drogowe Bosch, opracowane przez firmę Bosch North America Research	Motoryzacja	Obwiednia	Zestaw danych składający się z 13427 obrazów z kamer o rozdzielczości 1280*720 do budowy wizyjnego systemu wykrywania sygnalizacji świetlnej. Zbiór danych zawiera ponad 24000 sygnalizacji świetlnej z adnotacjami.	Połączyć
CV	Wideo	Brain4Cars, Cornell Univ., Stany Zjednoczone	Motoryzacja	Etykieta behawioralna	Zestaw danych składający się z szeregu czujników kabinowych (kamer, czujników dotykowych, urządzeń inteligentnych itp.) w celu uzyskania przydatnych statystyk dotyczących czujności kierowcy. Nasze algorytmy mogą wykrywać sennych lub rozkojarzonych kierowców i wzmacniać niezbędne alarmy w celu poprawy ochrony.	Połączyć
CV	Obraz	CULane, przez Chinese Univ. Hongkongu, Pekinu, Chin	Motoryzacja	Oznakowanie pasa ruchu	Zestaw danych Computer Vision dotyczący wykrywania pasów ruchu, składający się z 55 godzin nagrań wideo, z których wyodrębniono 133,235 88880 (zestaw treningowy 9675, zestaw walidacyjny 34680 i zestaw testowy XNUMX). Jest on zbierany przez kamery zamontowane na sześciu różnych pojazdach prowadzonych przez różnych kierowców w Pekinie.	Połączyć
CV	Wideo	DAVIS, przez Univ. Zurychu, ETH (Zurych, Niemcy, Szwajcaria)	Motoryzacja		Kompleksowy zestaw danych treningowych dotyczących jazdy pojazdem, który wykorzystuje kamerę DAVIS event+frame. Dane samochodu, takie jak układ kierowniczy, przepustnica, GPS itp., są wykorzystywane do oceny połączenia danych ramowych i danych o zdarzeniach w aplikacjach motoryzacyjnych.	Połączyć
CV	Wideo	DBNet, Shanghai Jiao Tong Univ., Xiamen Univ., Chiny	Motoryzacja	Chmura punktów, LiDAR	Rzeczywiste dane dotyczące jazdy na dystansie 1000 km, które obejmują wyrównane wideo, chmurę punktów, GPS i zachowanie kierowcy do dogłębnych badań nad zachowaniami podczas jazdy. .	Połączyć
CV	Wideo	Dr(eye)ve, przez Univ. Modeny i Reggio Emilia, Modena, Włochy	Motoryzacja	Etykieta behawioralna	Zestaw danych zawierający 74 sekwencje wideo po 5 minut każda, które zostały opatrzone adnotacjami w ponad 500,000 XNUMX ramkach. Zbiór danych składa się z lokalizacji georeferencyjnych, prędkości jazdy, kursu, a także etykiet fiksacji wzrokowych kierowców i ich integracji czasowej, dostarczając mapy specyficzne dla zadania.	Połączyć
CV	Wideo	ETH Pedestrian (2009), ETH Zurich, Zurych, Szwajcaria	Ogólne	Obwiednia	Zestaw danych składający się z 74 sekwencji wideo po 5 minut każda, z adnotacjami w ponad 500,000 XNUMX ramkach. Zestaw danych zawiera pozycje georeferencyjne, prędkość jazdy, kierunek, a także etykiety fiksacji wzroku dla kierowców i ich integrację czasową, w tym mapy specyficzne dla zadania.	Połączyć
CV	Wideo	Ford (2009), przez Univ. z Michigan, Michigan, USA	Motoryzacja	Pudełko ograniczające, , LiDAR	Zbiór danych skompilowany przez zautomatyzowany pojazd lądowy uzbrojony w skaner lidarowy Velodyne 3D, dwa frontowe lidary Rieg z miotłą pchaną, techniczny i konsumencki zespół pomiaru bezwładnościowego (IMU) oraz wielokierunkowy system kamer Point Grey Ladybug3.	Połączyć
CV	Wideo	HCI Challenging Stereo, Bosch Corporation Research, Hildesheim, Niemcy	Ogólne		Zbiór danych składający się z kilku milionów klatek z przechwyconych scen wideo, które obejmują szeroki zakres różnych warunków pogodowych, wiele warstw ruchu i głębi; sytuacje w mieście i na wsi itp.	Połączyć
CV	Wideo	JAAD, York University, Ukraina, Kanada	Motoryzacja	Ramka ograniczająca, etykieta behawioralna	„JAAD to zbiór danych do badania wspólnej uwagi w kontekście autonomicznej jazdy. Nacisk kładziony jest na zachowania pieszych i kierowców w miejscu przejścia oraz czynniki, które na nie wpływają. W tym celu zbiór danych JAAD zapewnia bogato opatrzoną adnotacją kolekcję 346 krótkich filmów klipy (5–10 s) wyodrębnione z ponad 240 godzin nagrań z jazdy w kilku lokalizacjach w Ameryce Północnej i Europie Wschodniej. W przypadku wszystkich pieszych stosowane są ramki ograniczające z tagami okluzji, dzięki czemu ten zbiór danych jest odpowiedni do wykrywania pieszych. Adnotacje dotyczące zachowania określają zachowania pieszych które wchodzą w interakcję z kierowcą lub wymagają jego uwagi. Dla każdego filmu istnieje kilka tagów (pogoda, lokalizacje itp.) oraz etykiet zachowania z sygnaturą czasową (np. zatrzymanie, spacer, patrzenie itp.). Ponadto lista atrybutów demograficznych jest przewidziana dla każdego pieszego (np. wiek, płeć, kierunek ruchu itp.), a także wykaz widocznych elementów sceny ruchu (np. znak stopu, sygnalizacja świetlna itp.) w każdej ramce."	Połączyć
CV	Wideo	KAIST Urban, KAIST, Korea Południowa South	Ogólne	LiDAR	Gromadzenie danych obejmuje liczne czujniki lokalizacyjne dla danych LiDAR i obrazów stereo ukierunkowanych na bardzo złożony obszar miejski (np. obszary metropolii, złożone budynki i obszary mieszkalne).	Połączyć
CV	Obraz	Znak drogowy LISA firmy Univ. w Kalifornii, San Diego, Stany Zjednoczone	Motoryzacja	Obwiednia	Zbiór danych zawierający filmy i klatki z adnotacjami zawierające znaki drogowe w Stanach Zjednoczonych. Jest wydawany w dwóch etapach, jeden zawiera tylko zdjęcia, a drugi zarówno zdjęcia, jak i filmy.	Połączyć
CV	Obraz	Mapillary Vistas, Mapillary AB, Global	Motoryzacja	Etykieta semantyczna	Zbiór danych dotyczących zdjęć z poziomu ulicy do interpretacji scen ulicznych na całym świecie za pomocą precyzyjnych do pikseli i specyficznych dla instancji adnotacji ludzkich.	Połączyć
CV	Wideo, obraz	Semantic KITTI, Uniwersytet w Bonn, Karlsruhe, Niemcy	Motoryzacja	Ramka ograniczająca, etykieta semantyczna, oznaczenie pasa ruchu	Zestaw danych, który zawiera adnotację semantyczną dla wszystkich sekwencji Odometry Benchmark. Zbiór danych zawiera adnotacje do różnych typów ruchu w ruchu i bez ruchu: w tym samochodów, rowerów, rowerów, pieszych i rowerzystów, umożliwiając badanie obiektów na scenie.	Połączyć
CV	Wideo	Stanford Track, Uniwersytet Stanforda, Stany Zjednoczone	Motoryzacja	Wykrywanie obiektów / klasyfikacja LiDAR, GPS, kody	Zestaw danych zawierający 14,000 64 oznakowanych ścieżek obiektów obserwowanych przez LIDAR Velodyne HDL-2E S3 w naturalnych scenach ulicznych, który można wykorzystać do trenowania modeli uczenia maszynowego do rozpoznawania obiektów XNUMXD.	Połączyć
CV	Wideo, obraz	The Boxy Dataset firmy Bosch, Stany Zjednoczone	Motoryzacja	Ramka ograniczająca / wykrywanie pojazdów	Zestaw danych wykrywania pojazdów zawierający 2 miliony pojazdów z adnotacjami do szkolenia i analizy strategii rozpoznawania obiektów dla samochodów autonomicznych na autostradach.	Połączyć
CV	Wideo	Autostrada TME, Czeska Politechnika, Północne Włochy	Motoryzacja	Obwiednia	Zestaw danych składający się z 28 klipów o łącznej długości 27 minut, rozwidlony na ponad 30,000 XNUMX ramek adnotacji pojazdów. Adnotacja została wykonana półautomatycznie z wykorzystaniem danych ze skanera laserowego. Gromadzenie danych obejmuje zmienne scenariusze ruchu, liczbę pasów, krzywiznę drogi i oświetlenie, obejmujące większość warunków pełnego akwizycji.	Połączyć
CV	Wideo	Lamy nienadzorowane, Bosch, Stany Zjednoczone	Motoryzacja	Oznakowanie pasa ruchu, LiDAR	Zestaw danych Nienadzorowane lamy został opatrzony adnotacjami poprzez wygenerowanie automatycznych map jazdy w wysokiej rozdzielczości, w tym znaczników pasów ruchu opartych na Lidar. Autonomiczny pojazd można ustawić na tych mapach, a oznaczenia pasów są wyświetlane w ramie kamery. Projekcja 3D jest optymalizowana poprzez minimalizację rozbieżności między już obserwowanymi a przewidywanymi znacznikami obrazu.	Połączyć
NLP	Audio	Wielojęzyczna LibriSpeech AI na Facebooku (MLS)	Ogólne	Adnotacje dźwiękowe / rozpoznawanie mowy	Facebook AI Multilingual LibriSpeech (MLS) to wielkoskalowy zestaw danych o otwartym kodzie źródłowym, który ma pomóc w rozwoju badań nad automatycznym rozpoznawaniem mowy (ASR). MLS zapewnia ponad 50,000 8 godzin dźwięku w XNUMX językach: angielskim, niemieckim, holenderskim, francuskim, hiszpańskim, włoskim, portugalskim i polskim.	Połączyć

Otwarte zbiory danych

Zbiory danych typu open source, aby rozpocząć pracę z modelami AI/ML

Usługi danych AI

Specjalne

Przemysłowe

Produkty

O nas

Zasoby

Skontaktuj się z nami