Zbiór danych NLP dla ML

15 najlepszych zestawów danych NLP do trenowania modeli przetwarzania języka naturalnego

Przetwarzanie języka naturalnego jest istotnym elementem w zbroi uczenia maszynowego. Jednak do prawidłowego działania modelu potrzebne są ogromne ilości danych i szkolenia. Jednym z istotnych problemów związanych z NLP jest brak zestawów danych szkoleniowych, które mogą obejmować rozległe obszary zainteresowań w tej domenie.

Jeśli zaczynasz w tej rozległej dziedzinie, tworzenie zbiorów danych może okazać się trudne i praktycznie zbędne. Zwłaszcza, gdy jest jakość NLP dostępne zestawy danych do trenowania modeli uczenia maszynowego w oparciu o ich przeznaczenie.

Rynek NLP ma wzrosnąć w CAGR na poziomie 11.7% w 2018 i 2026 roku, aby osiągnąć 28.6 mld USD do 2026 r. Dzięki rosnącemu zapotrzebowaniu na NLP i uczenie maszynowe, teraz możliwe jest uzyskanie wysokiej jakości zestawów danych obsługujących analizę nastrojów, recenzje, analizę pytań i odpowiedzi oraz zestawy danych do analizy mowy.

Zestawy danych NLP do uczenia maszynowego, którym możesz zaufać

Ponieważ niezliczone zbiory danych – skupiające się na różnych potrzebach – są publikowane prawie każdego dnia, dostęp do wysokiej jakości, niezawodnych i najlepszych zbiorów danych może być trudny. Tutaj ułatwiliśmy Ci pracę, ponieważ przedstawiliśmy Ci wyselekcjonowane zbiory danych posegregowane na podstawie kategorii, które obsługują.

Ogólne

Spambase, stworzona w Hewlett-Packard Labs, zawiera zbiór wiadomości spamowych od użytkowników, których celem jest opracowanie spersonalizowanego filtra spamu. Ma ponad 4600 obserwacji z wiadomości e-mail, z których blisko 1820 to spam.

Zbiór danych Enron zawiera ogromną kolekcję anonimowych „prawdziwych” wiadomości e-mail dostępnych publicznie w celu trenowania modeli uczenia maszynowego. Może pochwalić się ponad pół miliona wiadomości e-mail od ponad 150 użytkowników, głównie wyższego kierownictwa Enronu. Ten zbiór danych jest dostępny do użytku zarówno w formatach ustrukturyzowanych, jak i nieustrukturyzowanych. Aby urozmaicić nieustrukturyzowane dane, musisz zastosować techniki przetwarzania danych.

  • Rekomendowany zestaw danych systemów (Link)

Zestaw danych systemu rekomendacji to ogromny zbiór różnych zestawów danych zawierających różne funkcje, takie jak:

  • Opinie o produkcie
  • Oceny w gwiazdkach
  • Śledzenie kondycji
  • Dane utworu
  • Sieci społecznościowe
  • Znaczniki czasu
  • Interakcje użytkownika/przedmiotu
  • Dane GPS

Analiza sentymentów

  • Słowniki filmowe i finansowe (Link)

Analiza sentymentów
Zestaw danych Słowniki filmów i finansów zawiera słowniki specyficzne dla domeny, pozwalające na pozytywną lub negatywną polaryzację wypełnień finansowych i recenzji filmów. Te słowniki pochodzą z wypełnień IMDb i US Form-8.

Sentiment 140 zawiera ponad 160,000 6 tweetów z różnymi emotikonami podzielonymi na XNUMX różnych pól: data tweeta, polaryzacja, tekst, nazwa użytkownika, identyfikator i zapytanie. Ten zestaw danych umożliwia odkrycie sentymentu do marki, produktu, a nawet tematu na podstawie aktywności na Twitterze. Ponieważ ten zestaw danych jest tworzony automatycznie, w przeciwieństwie do innych tweetów z adnotacjami ludzkimi, tweety zawierające pozytywne i negatywne emocje są klasyfikowane jako niekorzystne.

  • Zbiór danych o nastrojach w wielu domenach (Link)

Ten wielodomenowy zestaw danych nastrojów jest repozytorium recenzji Amazon dotyczących różnych produktów. Niektóre kategorie produktów, takie jak książki, mają tysiące recenzji, podczas gdy inne mają tylko kilkaset recenzji. Poza tym recenzje z ocenami w postaci gwiazdek można przekształcić w etykiety binarne.

Omówmy dzisiaj Twoje wymagania dotyczące danych szkoleniowych AI.

Tekst

Stworzony, aby pomóc w badaniach pytań i odpowiedzi w otwartej domenie, WiKi QA Corpus jest jednym z najobszerniejszych publicznie dostępnych zbiorów danych. Skompilowany na podstawie dzienników zapytań wyszukiwarki Bing zawiera pary pytań i odpowiedzi. Zawiera ponad 3000 pytań i 1500 oznaczonych zdań odpowiedzi.

  • Sprawozdania prawne Zbiór danych (Link)

Zestaw danych Raporty o sprawach prawnych zawiera zbiór 4000 spraw prawnych i może być używany do szkolenia w zakresie automatycznego podsumowywania tekstów i analizy cytowań. Używany jest każdy dokument, chwytliwe hasła, klasy cytowania, chwytliwe frazesy cytowań i inne.

Zestaw danych Jeopardy to zbiór ponad 200,000 XNUMX pytań przedstawionych w popularnym telewizyjnym quizie, zebranym przez użytkownika Reddit. Każdy punkt danych jest klasyfikowany według daty emisji, numeru odcinka, wartości, rundy i pytania/odpowiedzi.

Mowa audio

  • Mówiona Wikipedia Corpora (Link)

Mowa dźwiękowa Ten zestaw danych jest idealny dla wszystkich, którzy chcą wyjść poza język angielski. Ten zbiór danych zawiera zbiór artykułów w języku niderlandzkim, niemieckim i angielskim. Ma różnorodny zakres tematów i zestawów głośnikowych trwających setki godzin.

Zbiór danych w języku angielskim 2000 HUB5 zawiera 40 transkrypcji rozmów telefonicznych w języku angielskim. Dane są dostarczane przez Narodowy Instytut Standardów i Technologii, a jego głównym celem jest rozpoznawanie mowy konwersacyjnej i przekształcanie mowy w tekst.

Zbiór danych LibriSpeech to zbiór prawie 1000 godzin mowy w języku angielskim pobranych i odpowiednio podzielonych według tematów na rozdziały z książek audio, co czyni go idealnym narzędziem do przetwarzania języka naturalnego.

Recenzje

Zbiór danych Yelp zawiera obszerną kolekcję około 8.5 miliona recenzji ponad 160,000 200,000 firm, ich recenzji i danych użytkowników. Przeglądy mogą służyć do trenowania modeli w zakresie analizy sentymentu. Poza tym ten zbiór danych zawiera również ponad XNUMX XNUMX zdjęć obejmujących osiem lokalizacji metropolitalnych.

Recenzje IMDB należą do najpopularniejszych zbiorów danych zawierających informacje o obsadzie, oceny, opis i gatunek dla ponad 50 tysięcy filmów. Ten zestaw danych może służyć do testowania i trenowania modeli uczenia maszynowego.

  • Zbiór danych recenzji i ocen Amazon (Link)

Zestaw danych recenzji i ocen Amazon zawiera cenny zbiór metadanych i recenzji różnych produktów Amazon zebranych w latach 1996-2014 – około 142.8 miliona rekordów. Metadane obejmują cenę, opis produktu, markę, kategorię i nie tylko, podczas gdy recenzje mają jakość tekstu, przydatność tekstu, oceny i inne.

Na jakim zbiorze danych wybrałeś więc trenowanie swojego modelu uczenia maszynowego?

Jak pójdziemy, zostawimy Cię z profesjonalna porada. 

Pamiętaj, aby dokładnie przejrzeć plik README przed wybraniem zestawu danych NLP dla swoich potrzeb. Zestaw danych będzie zawierał wszystkie niezbędne informacje, których możesz potrzebować, takie jak zawartość zestawu danych, różne parametry, według których dane zostały skategoryzowane, oraz prawdopodobne przypadki użycia zestawu danych.

Niezależnie od modeli, które zbudujesz, istnieje ekscytująca perspektywa bliższej i nieodłącznej integracji naszych maszyn z naszym życiem. Dzięki NLP możliwości biznesowe, filmowe, rozpoznawanie mowy, finanse i nie tylko są wielorakie zwiększone. Jeśli szukasz więcej takich zbiorów danych Kliknij tutaj.

Podziel społecznej

Może Ci się spodobać