Otwarte zbiory danych
Odkryj zbiory danych typu open source, które pozwolą Ci trenować modele ML
Zbiory danych typu open source, aby rozpocząć pracę z modelami AI/ML
Wyniki Twoich modeli AI i ML są tak dobre, jak dane, których używasz do ich trenowania – dlatego precyzja, jaką stosujesz do agregacji danych oraz znakowania i identyfikowania tych danych, jest ważna!
Więc jeśli chcesz rozpocząć nową inicjatywę AI/ML, a teraz szybko zdajesz sobie sprawę, że znalezienie wysokiej jakości danych treningowych będzie jednym z trudniejszych aspektów twojego projektu, ponieważ wysokiej jakości zestawy danych są paliwem, które utrzymuje sztuczną inteligencję/ Działa silnik ML. Zgromadziliśmy listę otwartych zbiorów danych, z których można bezpłatnie korzystać i trenować modele AI/ML przyszłości.
| Specjalizacja | DataType | Nazwa zbioru danych | Przemysł / Dział | Adnotacja/przypadek użycia | Połączyć |
|---|---|---|---|---|---|
| +NLP | Tekst | Amazon Recenzje | E-commerce | Analiza sentymentów | Połączyć |
| OPIS | Zestaw 35 milionów recenzji i ocen z ostatnich 18 lat w postaci zwykłego tekstu ze szczegółami użytkownika i produktu. | ||||
| +NLP | Tekst | Dane linków do Wikipedii | Ogólne | Połączyć | |
| OPIS | Ponad 4 mln artykułów zawierających 1.9 mld słów z Wikipedii. Każdy artykuł zawiera hiperłącza do powiązanego podmiotu. | ||||
| +NLP | Tekst | Bank drzew sentymentu w Standford | rozrywka | Analiza sentymentów | Połączyć |
| OPIS | Zbiór danych adnotacji sentymentalnych dla ponad 10 000 zdań recenzji filmów Rotten Tomatoes. Dostępne na poziomie frazy – każde zdanie jest analizowane na podfrazy poprzez binaryzację drzew parsowania w formacie Penn Treebank. | ||||
| +NLP | Tekst | Sentyment linii lotniczych USA na Twitterze | Linia lotnicza | Analiza sentymentów | Połączyć |
| OPIS | Wpisy na Twitterze dotyczące linii lotniczych US Airlines w 2015 r. podzieliły się na pozytywne, neutralne i negatywne. | ||||
| +CV | Obraz | Sieć obrazów | Ogólne | Połączyć | |
| OPIS | Zbiór danych zawierający ponad 14 milionów obrazów w różnych formatach plików, zmapowanych na około 21 000 synsetów. Synsety to synonimy z powiązanymi obiektami przedstawionymi jako obraz. 1 milion obrazów ma pola ograniczające, a ponad 1 milion obrazów ma funkcje SIFT. | ||||
| +CV | Obraz | Otwarte obrazy Google | Ogólne | Połączyć | |
| OPIS | Zbiór danych podobny do ImageNet z 600 kategoriami. Dostępny w wersjach do tworzenia, walidacji i trenowania. Niektóre obrazy zawierają również pola ograniczające i relacje wizualne. | ||||
| +NLP | Tekst | Dialogi filmowe Cornella | rozrywka | Dialogi | Połączyć |
| OPIS | Zbiór fikcyjnych rozmów z metadanymi postaci i filmów. Każdy wiersz to dialog między dwiema osobami, w formacie pytania i odpowiedzi. | ||||
| OPIS | Zbiór danych składający się z pytań i odpowiedzi pochodzących z portalu Yahoo Answers z okresu od kwietnia 2007 r. do października 2007 r. | ||||
| +NLP | Tekst | Pani Marco | Ogólne | Odpowiadanie na pytania | Połączyć |
| OPIS | Zestaw danych typu pytanie-odpowiedź z adnotacjami z dzienników wyszukiwania w sieci Bing. Każde pytanie zawiera odpowiedź udzieloną przez użytkownika, a także fragmenty tekstu zawierające tę odpowiedź. | ||||
| +NLP | Tekst | Zestaw danych pytań naturalnych | Ogólne | Odpowiadanie na pytania | Połączyć |
| OPIS | Zbiór danych udostępniony przez Google zawiera prawdziwe zapytania użytkowników i odpowiedzi pochodzące z artykułów Wikipedii. | ||||
| +NLP | Tekst | DBPedia | Ogólne | Wykres Wiedza | Połączyć |
| OPIS | Ustrukturyzowana wersja Wikipedii, z encjami i relacjami wyodrębnionymi w postaci Grafu wiedzy. | ||||
| +NLP | Tekst | JAGO | Ogólne | Wykres Wiedza | Połączyć |
| OPIS | Graf wiedzy zawierający encje i relacje z Wikipedii, WordNet i GeoNames. | ||||
| +NLP | Tekst | FreeBase | Ogólne | Wykres Wiedza | Połączyć |
| OPIS | Baza wiedzy tworzona przez społeczność, składająca się z encji i relacji, obecnie włączona do Grafu wiedzy Google. | ||||
| +NLP | Tekst | Ontonotes | Ogólne | Etykietowanie ról semantycznych | Połączyć |
| OPIS | Korpus zawierający adnotacje składniowe, semantyczne i na poziomie dyskursu używane w zadaniach współdzielonych CoNLL. | ||||
| OPIS | Zbiór danych w języku angielskim, zawierający adnotacje dotyczące nazwanych jednostek, takich jak osoba, organizacja i lokalizacja. | ||||
| +CV | Obraz | Orzech kokosowy | Ogólne | Wykrywanie obiektów | Połączyć |
| OPIS | Common Objects in Context: bogato opisany zbiór danych umożliwiający wykrywanie obiektów, segmentację i dodawanie podpisów. | ||||
| +CV | Obraz | LZO PASKALA | Ogólne | Wykrywanie obiektów | Połączyć |
| OPIS | Zbiór danych porównawczych służących do wykrywania obiektów i segmentacji. | ||||
| +CV | Obraz | Krajobrazy miejskie | Autonomiczna jazda | Segmentacja semantyczna | Połączyć |
| OPIS | Zbiór danych do zrozumienia sceny miejskiej z adnotacjami na poziomie pikseli dla 30 klas. | ||||
| +CV | Obraz | MNIST | Ogólne | Klasyfikacja cyfr | Połączyć |
| OPIS | Zbiór danych zawierających ręcznie pisane cyfry, zawierający 60 000 obrazów szkoleniowych i 10 000 obrazów testowych o rozmiarze 28x28 pikseli. | ||||
| +CV | Obraz | Moda-MNIST | Sprzedaż detaliczna | Klasyfikacja obrazu | Połączyć |
| OPIS | Zbiór danych obrazów artykułów Zalando w tym samym formacie co MNIST, używany jako zamiennik do testów porównawczych. | ||||
| +NLP | Audio | Libriseeech | Ogólne | ASR | Połączyć |
| OPIS | Zbiór tekstów mówionych w języku angielskim pochodzących z audiobooków, obejmujący 1000 godzin wypowiedzi i powiązanych tekstów. | ||||
| +NLP | Audio | TED-LIUM | Ogólne | ASR | Połączyć |
| OPIS | Transkrypcja wystąpień TED z dźwiękiem i dopasowane transkrypcje na potrzeby badań nad rozpoznawaniem mowy. | ||||
| +NLP | Audio | TYMIT | Ogólne | Rozpoznawanie fonemów | Połączyć |
| OPIS | Fonetycznie zapisana mowa amerykańskich użytkowników języka angielskiego, powszechnie stosowana w zadaniach rozpoznawania fonemów. | ||||
| +NLP | Audio | Wspólny głos | Ogólne | ASR | Połączyć |
| OPIS | Wielojęzyczny korpus mowy czytanej, stworzony przez wolontariuszy z całego świata. | ||||
| +NLP | Audio | VoxCeleb | Ogólne | Rozpoznawanie mówców | Połączyć |
| OPIS | Duży zbiór danych identyfikujących mówców zebrany z filmów na YouTube. | ||||
| +NLP | Tekst | Zrzut Wikipedii | Ogólne | Modelowanie języka | Połączyć |
| OPIS | Pełne teksty artykułów z Wikipedii, regularnie aktualizowane, wykorzystywane do wstępnego trenowania modeli językowych. | ||||
| +NLP | Tekst | Gigaword | Aktualności | Modelowanie języka | Połączyć |
| OPIS | Kompleksowe archiwum danych tekstowych z wielu agencji informacyjnych. | ||||
| +NLP | Tekst | Recenzje IMDB | rozrywka | Analiza sentymentów | Połączyć |
| OPIS | Duży zbiór danych recenzji filmów do klasyfikacji nastrojów binarnych. | ||||
| +CV | Wideo | Kinetyka-700 | Ogólne | Rozpoznawanie akcji | Połączyć |
| OPIS | Obszerny, wysokiej jakości zbiór danych klipów wideo z serwisu YouTube obejmujący 700 klas działań człowieka. | ||||
| +CV | Wideo | UCF101 | Ogólne | Rozpoznawanie akcji | Połączyć |
| OPIS | Zbiór realistycznych filmów akcji podzielonych na 101 kategorii. | ||||
| +CV | Wideo | HMDB51 | Ogólne | Rozpoznawanie akcji | Połączyć |
| OPIS | Duża baza danych filmów przedstawiających ruchy ludzi, zawierająca 51 kategorii działań. | ||||
| OPIS | Baza danych fotografii twarzy przeznaczona do badania nieograniczonego rozpoznawania twarzy. | ||||
| +CV | Obraz | CASIA-WebFace | Ogólne | Rozpoznawanie twarzy | Połączyć |
| OPIS | Zbiór danych zawierający miliony obrazów twarzy, służący do trenowania modeli głębokiego rozpoznawania twarzy. | ||||
| +NLP | Tekst | Drużyna | Ogólne | Czytanie ze zrozumieniem | Połączyć |
| OPIS | Zbiór danych Stanford Question Answering Dataset: pytania zadawane przez pracowników społecznościowych na podstawie zestawu artykułów Wikipedii. | ||||
| OPIS | Zbiór danych do zrozumienia maszynowego zawierający pytania i odpowiedzi oparte na artykułach informacyjnych CNN. | ||||
| +NLP | Tekst | MultiNLI | Ogólne | Wnioskowanie w języku naturalnym | Połączyć |
| OPIS | Zbiór danych do wnioskowania w języku naturalnym na podstawie par zdań w różnych gatunkach. | ||||
| +NLP | Tekst | SNLI | Ogólne | Wnioskowanie w języku naturalnym | Połączyć |
| OPIS | Korpus wnioskowania językowego Stanforda z parami zdań oznaczonymi jako wynikające, sprzeczne lub neutralne. | ||||
| OPIS | Zbiór ponad 100 milionów tokenów wyodrębnionych z zestawu zweryfikowanych dobrych i wyróżnionych artykułów w Wikipedii. | ||||
| OPIS | Zbiór danych zawierający 16 185 zdjęć 196 klas samochodów. | ||||
| +CV | Obraz | Kwiaty Oksfordzkie 102 | botanika | Klasyfikacja drobnoziarnista | Połączyć |
| OPIS | 102 kategorie kwiatów powszechnie występujące w Wielkiej Brytanii. | ||||
| +CV | Obraz | CIFAR-10 | Ogólne | Klasyfikacja obrazu | Połączyć |
| OPIS | Obrazki przedstawiające 10 klas: samolot, samochód, ptak, kot, jeleń, pies, żaba, koń, statek i ciężarówka. | ||||
| +CV | Obraz | CIFAR-100 | Ogólne | Klasyfikacja obrazu | Połączyć |
| OPIS | Zbiór danych podobny do CIFAR-10, ale zawierający 100 szczegółowych klas. | ||||
| +CV | Obraz | Układ osoby VOC | Ogólne | Oszacowanie pozycji | Połączyć |
| OPIS | Część PASCAL VOC skupiająca się na adnotacjach dotyczących rozmieszczenia osób, np. głowy, rąk i stóp. | ||||
| +CV | Obraz | Pozycja człowieka MPII | Ogólne | Oszacowanie pozycji | Połączyć |
| OPIS | Około 25 000 zdjęć przedstawiających ponad 40 000 osób z opisanymi stawami ciała. | ||||
| OPIS | Zbiór artykułów agencji Reuters dotyczących badań nad kategoryzacją tekstów. | ||||
| +NLP | Tekst | 20 grup dyskusyjnych | Ogólne | Klasyfikacja tekstu | Połączyć |
| OPIS | Zbiór 20 000 dokumentów grup dyskusyjnych podzielonych na 20 różnych grup dyskusyjnych. | ||||