Otwarte zbiory danych
Odkryj zbiory danych typu open source, które pozwolą Ci trenować modele ML
Zbiory danych typu open source, aby rozpocząć pracę z modelami AI/ML
Wyniki Twoich modeli AI i ML są tak dobre, jak dane, których używasz do ich trenowania – dlatego precyzja, jaką stosujesz do agregacji danych oraz znakowania i identyfikowania tych danych, jest ważna!
Więc jeśli chcesz rozpocząć nową inicjatywę AI/ML, a teraz szybko zdajesz sobie sprawę, że znalezienie wysokiej jakości danych treningowych będzie jednym z trudniejszych aspektów twojego projektu, ponieważ wysokiej jakości zestawy danych są paliwem, które utrzymuje sztuczną inteligencję/ Działa silnik ML. Zgromadziliśmy listę otwartych zbiorów danych, z których można bezpłatnie korzystać i trenować modele AI/ML przyszłości.
Specjalizacja | DataType | Nazwa zbioru danych | Przemysł / Dział | Adnotacja/przypadek użycia | Opis | Połączyć |
---|---|---|---|---|---|---|
NLP | Tekst | Amazon Recenzje | E-commerce | Analiza sentymentów | Zestaw 35 milionów recenzji i ocen z ostatnich 18 lat w postaci zwykłego tekstu ze szczegółami użytkownika i produktu. | Połączyć |
NLP | Tekst | Dane linków do Wikipedii | Ogólne | Ponad 4 mln. artykuły zawierające 1.9 mld. słowo składające się ze słów i fraz oraz akapitów. | Połączyć | |
NLP | Tekst | Bank drzew sentymentu w Standford | rozrywka | Analiza sentymentów | Zestaw danych z adnotacjami na temat sentymentów dla ponad 10,000 XNUMX recenzji z Rotten Tomatoes w formacie pliku HTML HTML | Połączyć |
NLP | Tekst | Sentyment linii lotniczych USA na Twitterze | Linia lotnicza | Analiza sentymentów | Tweety z 2015 r. w US Airlines rozwinęły się w pozytywne, negatywne i neutralne tony | Połączyć |
CV | Obraz | Sieć obrazów | Ogólne | Zbiór danych z ponad 14 mln. obrazy w różnych formatach plików, zorganizowane zgodnie z hierarchią WordNet. | Połączyć | |
CV | Obraz | Otwarte obrazy Google | Ogólne | 9 mln Adresy URL do kategoryzacji obrazów publicznych z ponad 6,000 kategorii. | Połączyć | |
NLP | Tekst | Baza danych intensywnej opieki MIMIC | Zdrowie | Zbiory danych z fizjologii obliczeniowej zawierające zdeidentyfikowane dane od 40,000 XNUMX pacjentów wymagających intensywnej opieki medycznej. Zbiór danych zawiera informacje, takie jak dane demograficzne, parametry życiowe, leki itp. | Połączyć | |
CV | Obraz | Amerykańskie Narodowe Biuro Podróży i Turystyki | Turystyka | Udostępnia szerokie zdjęcia z branży turystycznej z wiarygodnymi bazami danych, obejmującymi takie tematy, jak podróże przychodzące i wychodzące oraz międzynarodowe informacje turystyczne. | Połączyć | |
NLP | Tekst | Departament Transportu | Turystyka | Zbiory danych turystycznych, które obejmują parki narodowe, rejestry kierowców, mosty i informacje o kolei itp. | Połączyć | |
NLP | Audio | Korpus napisów audio Flickr | Ogólne | Ponad 40 tys. podpisów mówionych z 8,000 zdjęć zaprojektowanych z myślą o nienadzorowanych wzorcach mowy | Połączyć | |
NLP | Audio | Zestaw danych poleceń mowy | Ogólne | Rozpoznawanie mowy, adnotacje dźwiękowe | 1-sekundowe wypowiedzi tysięcy osób w celu zbudowania podstawowego interfejsu głosowego. | Połączyć |
NLP | Audio | Zbiory danych dźwiękowych dotyczących środowiska | Ogólne | Zestawy danych dźwiękowych środowiska, które zawierają tabele dźwięków zdarzeń i tabele scen akustycznych. | Połączyć | |
NLP | Tekst | Zbiór danych otwartych badań COVID-19 | Zdrowie | Medyczna sztuczna inteligencja | Zbiór danych badawczych składający się z 45,000 19 artykułów naukowych na temat COVID-XNUMX i rodziny wirusów koronawirusa. | Połączyć |
CV | Obraz | Otwarty zbiór danych Waymo | Motoryzacja | Najbardziej zróżnicowane zbiory danych o autonomicznej jeździe wydane przez Waymo | Połączyć | |
CV | Obraz | Etykieta | Rząd publiczny | Duży zestaw obrazów z adnotacjami dostępny przez Labelme Matlab | Połączyć | |
CV | Obraz | Zbiór danych psów Stanford | Ogólne | Ponad 20,500 120+ obrazów podzielonych na zestaw obrazów XNUMX różnych ras psów | Połączyć | |
CV | Obraz | Rozpoznawanie sceny wewnętrznej Indoor | Ogólne | Rozpoznawanie sceny | Konkretny zestaw danych składający się z 15620 obrazów z 67 kategorii wnętrz do budowy modeli rozpoznawania scen | Połączyć |
CV | Obraz | Wizualna kontrola jakości | Ogólne | Zestaw danych, który zawiera pytania otwarte dotyczące 265,016 XNUMX zdjęć, które wymagają zrozumienia wizji i zrozumienia języka, aby odpowiedzieć. | Połączyć | |
NLP | Tekst | Wielodomenowy zbiór danych analizy nastrojów | E-commerce | Analiza sentymentów | Zestaw danych zawierający recenzje produktów z Amazon | Połączyć |
NLP | Tekst | Recenzje IMDB | rozrywka | Analiza sentymentów | Zestaw danych zawierający 25000 recenzji filmów do analizy sentymentu | Połączyć |
NLP | Tekst | Korpus Bloggera | Ogólne | Analiza słów kluczowych | Zbiór danych zawierający 681,288 postów na blogu z blogger.com składający się z minimum 200 wystąpień powszechnie używanych angielskich słów. | Połączyć |
NLP | Tekst | Niebezpieczeństwo | Ogólne | Szkolenie Chatbota | Zestaw danych zawierający ponad 200,000 XNUMX pytań, których można użyć do trenowania modeli uczenia maszynowego w celu inteligentnego automatycznego odpowiadania | Połączyć |
NLP | Tekst | Zbieranie spamu SMS w języku angielskim | Telekomunikacja | Rozpoznawanie spamu | Zestaw danych wiadomości spamowych składający się z 5,574 XNUMX angielskich SMS-ów | Połączyć |
NLP | Tekst | Recenzje Yelp | Ogólne | Analiza sentymentów | Zbiór danych z ponad 5 milionami recenzji opublikowanych przez Yelp | Połączyć |
NLP | Tekst | Baza spamu UCI | Enterprise | Rozpoznawanie spamu | Duży zbiór danych wiadomości spamowych, przydatny do filtrowania spamu. | Połączyć |
CV | Wideo, obraz | Berkeley DeepDrive BDD100k | Motoryzacja | Autonomiczne pojazdy | Jeden z największych zbiorów danych dla autonomicznej sztucznej inteligencji, zawierający 1,100 godzin jazdy w ponad 100,000 XNUMX filmów z różnych pór dnia z okolic Nowego Jorku i San Francisco. | Połączyć |
CV | Wideo | Przecinek.ai | Motoryzacja | Autonomiczne pojazdy | Zestaw danych 7-godzinnej jazdy autostradą zawierający informacje o prędkości samochodu, przyspieszeniu, kącie skrętu i współrzędnych GPS | Połączyć |
CV | Wideo, obraz | Zbiór danych o krajobrazie miejskim | Motoryzacja | Etykieta semantyczna dla pojazdu autonomicznego | Zestaw danych zawierający 5,000 adnotacji na poziomie pikseli oraz większy zestaw 20,000 50 słabo oznaczonych klatek w sekwencjach wideo stereo, nagranych z XNUMX różnych miast | Połączyć |
CV | Obraz | Zbiór danych znaków drogowych KUL w Belgii | Motoryzacja | Autonomiczne pojazdy | Ponad 10000+ adnotacji o znakach drogowych z regionu Flandrii na podstawie fizycznie odrębnych znaków drogowych z całej Belgii. | Połączyć |
CV | Obraz | LISA: Laboratorium inteligentnych i bezpiecznych samochodów, zbiory danych UC San Diego | Motoryzacja | Autonomiczne pojazdy | Bogaty zestaw danych zawierający znaki drogowe, wykrywanie pojazdów, sygnalizację świetlną i wzorce trajektorii. | Połączyć |
CV | Obraz | CIFAR-10 | Ogólne | Rozpoznawanie obiektów | Zestaw danych składający się z 50,000 10,000 obrazów i 60,000 32 obrazów testowych (tj. 32 10 obrazów XNUMX×XNUMX kolorowych w XNUMX klasach) do rozpoznawania obiektów. | Połączyć |
CV | Obraz | Moda MNIST | Moda | Zestaw danych obrazu składający się z 60,000 10,000 przykładów i zestaw testowy 28 28 przykładów w obrazach w skali szarości 10 × XNUMX, powiązany z etykietą z XNUMX klas. | Połączyć | |
CV | Obraz | Zbiór danych IMDB-Wiki | rozrywka | Rozpoznawanie twarzy | Duży zbiór danych obrazów twarzy z etykietami, takimi jak płeć i wiek. Z ogólnej liczby 523,051 460,723 zdjęć twarzy, 20,284 62,328 XNUMX pochodzi od XNUMX XNUMX celebrytów z IMDB i XNUMX XNUMX z Wikipedii. | Połączyć |
CV | Wideo | Kinetyka-700 | Ogólne | Dla każdej klasy akcji zestaw danych wysokiej jakości składa się z 650,000 700 klipów wideo i obejmuje 600 klas działań ludzkich z co najmniej 10 klipami wideo. Tutaj każdy klip trwa około XNUMX sekund. | Połączyć | |
CV | Obraz | MS Koko | Ogólne | Wykrywanie obiektów, segmentacja | Zestaw danych zawiera 328 tys. obrazów i zawiera łącznie 2.5 mln wystąpień i 91 obrazów obiektów do trenowania wykrywania obiektów na dużą skalę, segmentacji i opisywania danych związanych z modelami ML. | Połączyć |
CV | Obraz | Zbiór danych MPII dotyczących ludzkiej pozycji | Ogólne | W zbiorze danych, który służy do szacowania ludzkiej pozy, znajduje się około 25 40 zdjęć zawierających ponad 410 XNUMX osób z adnotowanymi stawami ciała. Ogólnie zbiór danych obejmuje XNUMX działań człowieka, a każdy obraz jest opatrzony etykietą aktywności. | Połączyć | |
CV | Obraz | Otwórz obrazy | Ogólne | Adnotacje dotyczące lokalizacji obiektu | Zbiór danych obrazu z około 9 Mn obrazów z adnotacjami na poziomie obrazu, obramowaniem obiektu, segmentacją obiektu itp. Zbiór danych składa się również z 16 Mn. ramki ograniczające dla 600 klas obiektów na obrazach 1.9 Mn. | Połączyć |
CV | Wideo, obraz | Argo, przez Argo, USA | Motoryzacja | Pudełko ograniczające, przepływ optyczny, etykieta behawioralna, etykieta semantyczna, oznaczanie pasa ruchu | Samojezdny zestaw danych składający się z map HD z metadanymi geometrycznymi i semantycznymi, tj. liniami środkowymi pasa, kierunkiem pasa i obszarem do przejechania. Zbiór danych służy do trenowania modeli ML, aby stworzyć dokładniejsze algorytmy percepcji, które pomogą pojazdom autonomicznym w bezpiecznej nawigacji. | Połączyć |
CV | Wideo | Małe sygnalizatory drogowe Bosch, opracowane przez firmę Bosch North America Research | Motoryzacja | Obwiednia | Zestaw danych składający się z 13427 obrazów z kamer o rozdzielczości 1280*720 do budowy wizyjnego systemu wykrywania sygnalizacji świetlnej. Zbiór danych zawiera ponad 24000 sygnalizacji świetlnej z adnotacjami. | Połączyć |
CV | Wideo | Brain4Cars, Cornell Univ., Stany Zjednoczone | Motoryzacja | Etykieta behawioralna | Zestaw danych składający się z szeregu czujników kabinowych (kamer, czujników dotykowych, urządzeń inteligentnych itp.) w celu uzyskania przydatnych statystyk dotyczących czujności kierowcy. Nasze algorytmy mogą wykrywać sennych lub rozkojarzonych kierowców i wzmacniać niezbędne alarmy w celu poprawy ochrony. | Połączyć |
CV | Obraz | CULane, przez Chinese Univ. Hongkongu, Pekinu, Chin | Motoryzacja | Oznakowanie pasa ruchu | Zestaw danych Computer Vision dotyczący wykrywania pasów ruchu, składający się z 55 godzin nagrań wideo, z których wyodrębniono 133,235 88880 (zestaw treningowy 9675, zestaw walidacyjny 34680 i zestaw testowy XNUMX). Jest on zbierany przez kamery zamontowane na sześciu różnych pojazdach prowadzonych przez różnych kierowców w Pekinie. | Połączyć |
CV | Wideo | DAVIS, przez Univ. Zurychu, ETH (Zurych, Niemcy, Szwajcaria) | Motoryzacja | Kompleksowy zestaw danych treningowych dotyczących jazdy pojazdem, który wykorzystuje kamerę DAVIS event+frame. Dane samochodu, takie jak układ kierowniczy, przepustnica, GPS itp., są wykorzystywane do oceny połączenia danych ramowych i danych o zdarzeniach w aplikacjach motoryzacyjnych. | Połączyć | |
CV | Wideo | DBNet, Shanghai Jiao Tong Univ., Xiamen Univ., Chiny | Motoryzacja | Chmura punktów, LiDAR | Rzeczywiste dane dotyczące jazdy na dystansie 1000 km, które obejmują wyrównane wideo, chmurę punktów, GPS i zachowanie kierowcy do dogłębnych badań nad zachowaniami podczas jazdy. . | Połączyć |
CV | Wideo | Dr(eye)ve, przez Univ. Modeny i Reggio Emilia, Modena, Włochy | Motoryzacja | Etykieta behawioralna | Zestaw danych zawierający 74 sekwencje wideo po 5 minut każda, które zostały opatrzone adnotacjami w ponad 500,000 XNUMX ramkach. Zbiór danych składa się z lokalizacji georeferencyjnych, prędkości jazdy, kursu, a także etykiet fiksacji wzrokowych kierowców i ich integracji czasowej, dostarczając mapy specyficzne dla zadania. | Połączyć |
CV | Wideo | ETH Pedestrian (2009), ETH Zurich, Zurych, Szwajcaria | Ogólne | Obwiednia | Zestaw danych składający się z 74 sekwencji wideo po 5 minut każda, z adnotacjami w ponad 500,000 XNUMX ramkach. Zestaw danych zawiera pozycje georeferencyjne, prędkość jazdy, kierunek, a także etykiety fiksacji wzroku dla kierowców i ich integrację czasową, w tym mapy specyficzne dla zadania. | Połączyć |
CV | Wideo | Ford (2009), przez Univ. z Michigan, Michigan, USA | Motoryzacja | Pudełko ograniczające, , LiDAR | Zbiór danych skompilowany przez zautomatyzowany pojazd lądowy uzbrojony w skaner lidarowy Velodyne 3D, dwa frontowe lidary Rieg z miotłą pchaną, techniczny i konsumencki zespół pomiaru bezwładnościowego (IMU) oraz wielokierunkowy system kamer Point Grey Ladybug3. | Połączyć |
CV | Wideo | HCI Challenging Stereo, Bosch Corporation Research, Hildesheim, Niemcy | Ogólne | Zbiór danych składający się z kilku milionów klatek z przechwyconych scen wideo, które obejmują szeroki zakres różnych warunków pogodowych, wiele warstw ruchu i głębi; sytuacje w mieście i na wsi itp. | Połączyć | |
CV | Wideo | JAAD, York University, Ukraina, Kanada | Motoryzacja | Ramka ograniczająca, etykieta behawioralna | „JAAD to zbiór danych do badania wspólnej uwagi w kontekście autonomicznej jazdy. Nacisk kładziony jest na zachowania pieszych i kierowców w miejscu przejścia oraz czynniki, które na nie wpływają. W tym celu zbiór danych JAAD zapewnia bogato opatrzoną adnotacją kolekcję 346 krótkich filmów klipy (5–10 s) wyodrębnione z ponad 240 godzin nagrań z jazdy w kilku lokalizacjach w Ameryce Północnej i Europie Wschodniej. W przypadku wszystkich pieszych stosowane są ramki ograniczające z tagami okluzji, dzięki czemu ten zbiór danych jest odpowiedni do wykrywania pieszych. Adnotacje dotyczące zachowania określają zachowania pieszych które wchodzą w interakcję z kierowcą lub wymagają jego uwagi. Dla każdego filmu istnieje kilka tagów (pogoda, lokalizacje itp.) oraz etykiet zachowania z sygnaturą czasową (np. zatrzymanie, spacer, patrzenie itp.). Ponadto lista atrybutów demograficznych jest przewidziana dla każdego pieszego (np. wiek, płeć, kierunek ruchu itp.), a także wykaz widocznych elementów sceny ruchu (np. znak stopu, sygnalizacja świetlna itp.) w każdej ramce." | Połączyć |
CV | Obraz | Znak drogowy LISA firmy Univ. w Kalifornii, San Diego, Stany Zjednoczone | Motoryzacja | Obwiednia | Zbiór danych zawierający filmy i klatki z adnotacjami zawierające znaki drogowe w Stanach Zjednoczonych. Jest wydawany w dwóch etapach, jeden zawiera tylko zdjęcia, a drugi zarówno zdjęcia, jak i filmy. | Połączyć |
CV | Obraz | Mapillary Vistas, Mapillary AB, Global | Motoryzacja | Etykieta semantyczna | Zbiór danych dotyczących zdjęć z poziomu ulicy do interpretacji scen ulicznych na całym świecie za pomocą precyzyjnych do pikseli i specyficznych dla instancji adnotacji ludzkich. | Połączyć |
CV | Wideo, obraz | Semantic KITTI, Uniwersytet w Bonn, Karlsruhe, Niemcy | Motoryzacja | Ramka ograniczająca, etykieta semantyczna, oznaczenie pasa ruchu | Zestaw danych, który zawiera adnotację semantyczną dla wszystkich sekwencji Odometry Benchmark. Zbiór danych zawiera adnotacje do różnych typów ruchu w ruchu i bez ruchu: w tym samochodów, rowerów, rowerów, pieszych i rowerzystów, umożliwiając badanie obiektów na scenie. | Połączyć |
CV | Wideo | Stanford Track, Uniwersytet Stanforda, Stany Zjednoczone | Motoryzacja | Wykrywanie obiektów / klasyfikacja LiDAR, GPS, kody | Zestaw danych zawierający 14,000 64 oznakowanych ścieżek obiektów obserwowanych przez LIDAR Velodyne HDL-2E S3 w naturalnych scenach ulicznych, który można wykorzystać do trenowania modeli uczenia maszynowego do rozpoznawania obiektów XNUMXD. | Połączyć |
CV | Wideo, obraz | The Boxy Dataset firmy Bosch, Stany Zjednoczone | Motoryzacja | Ramka ograniczająca / wykrywanie pojazdów | Zestaw danych wykrywania pojazdów zawierający 2 miliony pojazdów z adnotacjami do szkolenia i analizy strategii rozpoznawania obiektów dla samochodów autonomicznych na autostradach. | Połączyć |
CV | Wideo | Autostrada TME, Czeska Politechnika, Północne Włochy | Motoryzacja | Obwiednia | Zestaw danych składający się z 28 klipów o łącznej długości 27 minut, rozwidlony na ponad 30,000 XNUMX ramek adnotacji pojazdów. Adnotacja została wykonana półautomatycznie z wykorzystaniem danych ze skanera laserowego. Gromadzenie danych obejmuje zmienne scenariusze ruchu, liczbę pasów, krzywiznę drogi i oświetlenie, obejmujące większość warunków pełnego akwizycji. | Połączyć |
CV | Wideo | Lamy nienadzorowane, Bosch, Stany Zjednoczone | Motoryzacja | Oznakowanie pasa ruchu, LiDAR | Zestaw danych Nienadzorowane lamy został opatrzony adnotacjami poprzez wygenerowanie automatycznych map jazdy w wysokiej rozdzielczości, w tym znaczników pasów ruchu opartych na Lidar. Autonomiczny pojazd można ustawić na tych mapach, a oznaczenia pasów są wyświetlane w ramie kamery. Projekcja 3D jest optymalizowana poprzez minimalizację rozbieżności między już obserwowanymi a przewidywanymi znacznikami obrazu. | Połączyć |
NLP | Audio | Wielojęzyczna LibriSpeech AI na Facebooku (MLS) | Ogólne | Adnotacje dźwiękowe / rozpoznawanie mowy | Facebook AI Multilingual LibriSpeech (MLS) to wielkoskalowy zestaw danych o otwartym kodzie źródłowym, który ma pomóc w rozwoju badań nad automatycznym rozpoznawaniem mowy (ASR). MLS zapewnia ponad 50,000 8 godzin dźwięku w XNUMX językach: angielskim, niemieckim, holenderskim, francuskim, hiszpańskim, włoskim, portugalskim i polskim. | Połączyć |