Zbiór danych NLP dla ML

Najlepszy zbiór danych NLP do udoskonalenia modeli uczenia maszynowego

Zbiory danych NLP stanowią podstawę wielu projektów przetwarzania języka naturalnego, oferując elastyczność w szerokim zakresie zadań, takich jak klasyfikacja tekstu, analiza sentymentu i odpowiadanie na pytania. Na przykład, Blog Authorship Corpus zawiera ponad 681,000 20,000 wpisów blogowych od blisko XNUMX XNUMX blogerów, co czyni go bogatym źródłem informacji do badania stylów pisania, identyfikacji autorów i nie tylko.

Dla osób zainteresowanych badaniami akademickimi, zbiór danych arXiv z artykułami badawczymi zapewnia dostęp do obszernej kolekcji artykułów naukowych z wielu dyscyplin, wspierając zaawansowane zadania NLP, takie jak analiza cytowań i klasyfikacja dokumentów. Zbiór danych Federal Procurement Data Center to kolejne cenne źródło, oferujące szczegółowe informacje na temat kontraktów federalnych – idealne dla projektów obejmujących dane rządowe i rozpoznawanie podmiotów.

Te zestawy danych NLP są szeroko wykorzystywane do trenowania i oceny modeli uczenia maszynowego, pomagając badaczom i programistom w poprawie wydajności systemów w różnych zadaniach NLP. Niezależnie od tego, czy pracujesz z wpisami na blogu, artykułami naukowymi, czy danymi rządowymi, te zestawy danych stanowią podstawę dla solidnych i wszechstronnych zastosowań NLP.

Co to jest NLP?

NLP (Natural Language Processing) pomaga komputerom zrozumieć język ludzki. To tak, jakby uczyć komputery czytania, rozumienia i reagowania na tekst i mowę w sposób, w jaki robią to ludzie.

Co potrafi NLP?

  • Zmień chaotyczny tekst w uporządkowane dane
  • Dowiedz się, czy komentarze są pozytywne czy negatywne
  • Przetłumacz między językami
  • Tworzenie streszczeń długich tekstów
  • I wiele więcej!
  • Pierwsze kroki z NLP:

Aby zbudować dobre systemy NLP, potrzebujesz wielu przykładów, aby je wytrenować – tak jak ludzie uczą się lepiej z większą praktyką. Dobra wiadomość jest taka, że ​​istnieje wiele bezpłatnych źródeł, w których można znaleźć te przykłady: Przytulanie Twarzy, Kaggle oraz GitHub. Dostęp do zbiorów danych z tych platform jest łatwy, co przyspiesza rozwój projektów przetwarzania języka naturalnego.

Wielkość i wzrost rynku NLP:

W 2023 r. rynek przetwarzania języka naturalnego (NLP) był wyceniany na około 26 miliardów dolarów. Oczekuje się, że wzrośnie znacząco, ze średnioroczną stopą wzrostu (CAGR) wynoszącą około 30% w latach 2023–2030. Wzrost ten jest napędzany rosnącym popytem na aplikacje NLP w takich branżach jak opieka zdrowotna, finanse i obsługa klienta.

Wybierając dobry zbiór danych NLP, należy wziąć pod uwagę następujące czynniki:

  • Sortowanie::Upewnij się, że zbiór danych jest zgodny z Twoim konkretnym zadaniem lub domeną.
  • Rozmiar:Większe zbiory danych zazwyczaj poprawiają wydajność modelu, ale należy zachować równowagę między rozmiarem a jakością.
  • Różnorodność:Szukaj zestawów danych o zróżnicowanych stylach językowych i kontekstach, aby zwiększyć stabilność modelu.
  • Jakość:Sprawdź, czy dane są dobrze oznaczone i dokładne, aby uniknąć wprowadzania błędów.
  • Dostępność bez barier: Upewnij się, że zbiór danych jest gotowy do użycia i weź pod uwagę wszelkie ograniczenia licencyjne.
  • Przetwarzanie wstępne:Określ, czy zbiór danych wymaga znaczącego oczyszczenia lub wstępnego przetworzenia.
  • Wsparcia Wspólnoty:Popularne zbiory danych zazwyczaj mają więcej zasobów i wsparcie społeczności, co może być pomocne.

Oceniając te czynniki, możesz wybrać zbiór danych, który najlepiej odpowiada potrzebom Twojego projektu. Wybór odpowiednich zbiorów danych jest kluczowy dla osiągnięcia optymalnych rezultatów w projektach NLP, ponieważ bezpośrednio wpływają one na wydajność modelu i efektywność szkolenia.

33 najlepsze otwarte zbiory danych do przetwarzania języka naturalnego, które musisz zobaczyć

Ogólne

  • Baza spamu UCI (Link)

    Spambase, stworzona w Hewlett-Packard Labs, zawiera zbiór wiadomości spamowych od użytkowników, których celem jest opracowanie spersonalizowanego filtra spamu. Ma ponad 4600 obserwacji z wiadomości e-mail, z których blisko 1820 to spam.

  • Zbiór danych Enron (Link)

    Zbiór danych Enronu zawiera obszerny zbiór zanonimizowanych „prawdziwych” wiadomości e-mail dostępnych publicznie do trenowania modeli uczenia maszynowego. Zawiera ponad pół miliona wiadomości e-mail od ponad 150 użytkowników, głównie kadry kierowniczej wyższego szczebla Enronu. Zbiór danych jest dostępny zarówno w formacie ustrukturyzowanym, jak i nieustrukturyzowanym. Aby udoskonalić dane nieustrukturyzowane, konieczne jest zastosowanie technik przetwarzania danych.

  • Rekomendowany zestaw danych systemów (Link)

    Zestaw danych systemu rekomendacji to ogromny zbiór różnych zestawów danych zawierających różne funkcje, takie jak:

    • Opinie o produkcie
    • Oceny w gwiazdkach
    • Śledzenie kondycji
    • Dane utworu
    • Sieci społecznościowe
    • Znaczniki czasu
    • Interakcje użytkownika/przedmiotu
    • Dane GPS
  • Bank drzew Penn (Link)

    Korpus ten, z Wall Street Journal, jest popularny w testowaniu modeli znakowania sekwencji.

  • NLTK (Link)

    Ta biblioteka Pythona zapewnia dostęp do ponad 100 korpusów i zasobów leksykalnych dla NLP. Zawiera również książkę NLTK, kurs szkoleniowy dotyczący korzystania z biblioteki. NLTK zapewnia dostęp do WordNet, obszernej bazy danych leksykalnych języka angielskiego, w której słowa takie jak rzeczowniki, czasowniki, przymiotniki i przysłówki są pogrupowane w synsety na podstawie wspólnych znaczeń. NLTK udostępnia również opatrzoną adnotacjami listę korpusów i zasobów leksykalnych do badań NLP.

  • Uniwersalne zależności (Link)

    UD zapewnia spójny sposób dodawania adnotacji gramatycznych, korzystając z zasobów w ponad 100 językach, 200 banków drzew i wsparcia ze strony ponad 300 członków społeczności.

Zbiory danych analizy nastrojów

  • Słowniki filmowe i finansowe (Link)

    Analiza sentymentów
    Zestaw danych Słowniki filmów i finansów zawiera słowniki specyficzne dla domeny, pozwalające na pozytywną lub negatywną polaryzację wypełnień finansowych i recenzji filmów. Te słowniki pochodzą z wypełnień IMDb i US Form-8.

  • Sentyment 140 (Link)

    Sentiment 140 zawiera ponad 160,000 6 tweetów z różnymi emotikonami podzielonymi na XNUMX różnych pól: data tweeta, polaryzacja, tekst, nazwa użytkownika, identyfikator i zapytanie. Ten zestaw danych umożliwia odkrycie sentymentu do marki, produktu, a nawet tematu na podstawie aktywności na Twitterze. Ponieważ ten zestaw danych jest tworzony automatycznie, w przeciwieństwie do innych tweetów z adnotacjami ludzkimi, tweety zawierające pozytywne i negatywne emocje są klasyfikowane jako niekorzystne.

  • Zbiór danych o nastrojach w wielu domenach (Link)

    Ten wielodomenowy zestaw danych nastrojów jest repozytorium recenzji Amazon dotyczących różnych produktów. Niektóre kategorie produktów, takie jak książki, mają tysiące recenzji, podczas gdy inne mają tylko kilkaset recenzji. Poza tym recenzje z ocenami w postaci gwiazdek można przekształcić w etykiety binarne.

  • Bank drzew nastrojów w Standford (Link)

    Ten zbiór danych NLP z Rotten Tomatoes zawiera dłuższe frazy i bardziej szczegółowe przykłady tekstowe.

  • Korpus autorów bloga (Link)

    Ta kolekcja zawiera posty na blogu zawierające prawie 1.4 miliona słów, każdy blog to osobny zbiór danych.

  • Zbiór danych OpinRank (Link)

    300,000 XNUMX recenzji z Edmunds i TripAdvisor, uporządkowanych według modelu samochodu, miejsca podróży i hotelu.

Zestaw danych tekstowych

  • Korpus QA Wiki (Link)

    Stworzony, aby pomóc w badaniach pytań i odpowiedzi w otwartej domenie, WiKi QA Corpus jest jednym z najobszerniejszych publicznie dostępnych zbiorów danych. Skompilowany na podstawie dzienników zapytań wyszukiwarki Bing zawiera pary pytań i odpowiedzi. Zawiera ponad 3000 pytań i 1500 oznaczonych zdań odpowiedzi.

  • Sprawozdania prawne Zbiór danych (Link)

    Zestaw danych Raporty o sprawach prawnych zawiera zbiór 4000 spraw prawnych i może być używany do szkolenia w zakresie automatycznego podsumowywania tekstów i analizy cytowań. Używany jest każdy dokument, chwytliwe hasła, klasy cytowania, chwytliwe frazesy cytowań i inne.

  • Niebezpieczeństwo (Link)

    Zestaw danych Jeopardy to zbiór ponad 200,000 XNUMX pytań przedstawionych w popularnym telewizyjnym quizie, zebranym przez użytkownika Reddit. Każdy punkt danych jest klasyfikowany według daty emisji, numeru odcinka, wartości, rundy i pytania/odpowiedzi.

  • 20 grup dyskusyjnych (Link)

    Zbiór liczący 20,000 20 dokumentów obejmuje XNUMX grup dyskusyjnych i tematów, szczegółowo omawiających tematy od religii po popularne sporty.

  • Zestaw danych Reuters News (Link)

    Ten zbiór danych, który pojawił się po raz pierwszy w 1987 r., został oznaczony etykietą, zindeksowany i skompilowany na potrzeby uczenia maszynowego.

  • arXiv (Link)

    Ten znaczny zbiór danych o pojemności 270 GB zawiera pełny tekst wszystkich artykułów naukowych arXiv.

  • Korpus równoległy postępowań Parlamentu Europejskiego (Link)

    Pary zdań z prac Parlamentu obejmują wpisy z 21 języków europejskich, w tym kilka języków mniej popularnych w korpusach systemów uczących się.

  • Benchmark miliardów słów (Link)

    Ten zbiór danych dotyczący modelowania języka, pochodzący z indeksowania wiadomości WMT 2011, zawiera prawie miliard słów do testowania innowacyjnych technik modelowania języka.

Zestawy danych mowy audio

  • Mówiona Wikipedia Corpora (Link)

    Mowa dźwiękowa Ten zestaw danych jest idealny dla wszystkich, którzy chcą wyjść poza język angielski. Ten zbiór danych zawiera zbiór artykułów w języku niderlandzkim, niemieckim i angielskim. Ma różnorodny zakres tematów i zestawów głośnikowych trwających setki godzin.

  • 2000 HUB5 angielski (Link)

    Zbiór danych w języku angielskim 2000 HUB5 zawiera 40 transkrypcji rozmów telefonicznych w języku angielskim. Dane są dostarczane przez Narodowy Instytut Standardów i Technologii, a jego głównym celem jest rozpoznawanie mowy konwersacyjnej i przekształcanie mowy w tekst.

  • Libriseeech (Link)

    Zbiór danych LibriSpeech to zbiór prawie 1000 godzin mowy w języku angielskim pobranych i odpowiednio podzielonych według tematów na rozdziały z książek audio, co czyni go idealnym narzędziem do przetwarzania języka naturalnego.

  • Bezpłatny zbiór danych dotyczących cyfr mówionych (Link)

    Ten zbiór danych NLP zawiera ponad 1,500 nagrań mówionych cyfr w języku angielskim.

  • Zbiór danych mowy M-AI Labs (Link)

    Zbiór danych zawiera prawie 1,000 godzin nagrań dźwiękowych z transkrypcjami, obejmujących wiele języków i podzielonych według głosów męskich, żeńskich i mieszanych.

  • Baza danych głośnej mowy (połączyć)

    Ten zbiór danych zawiera równoległe nagrania mowy hałaśliwej i czystej, przeznaczone do tworzenia oprogramowania poprawiającego mowę, ale także przydatne do szkolenia mowy w trudnych warunkach.

Recenzje zestawów danych

  • Recenzje Yelp (Link)

    Zbiór danych Yelp zawiera obszerną kolekcję około 8.5 miliona recenzji ponad 160,000 200,000 firm, ich recenzji i danych użytkowników. Przeglądy mogą służyć do trenowania modeli w zakresie analizy sentymentu. Poza tym ten zbiór danych zawiera również ponad XNUMX XNUMX zdjęć obejmujących osiem lokalizacji metropolitalnych.

  • Recenzje IMDB (Link)

    Recenzje IMDB należą do najpopularniejszych zbiorów danych zawierających informacje o obsadzie, oceny, opis i gatunek dla ponad 50 tysięcy filmów. Ten zestaw danych może służyć do testowania i trenowania modeli uczenia maszynowego.

  • Zbiór danych recenzji i ocen Amazon (Link)

    Zestaw danych recenzji i ocen Amazon zawiera cenny zbiór metadanych i recenzji różnych produktów Amazon zebranych w latach 1996-2014 – około 142.8 miliona rekordów. Metadane obejmują cenę, opis produktu, markę, kategorię i nie tylko, podczas gdy recenzje mają jakość tekstu, przydatność tekstu, oceny i inne.

Zestawy danych pytań i odpowiedzi

  • Zbiór danych pytań i odpowiedzi Stanforda (SQuAD) (Link)

    Ten zbiór danych dotyczących czytania ze zrozumieniem zawiera 100,000 50,000 pytań, na które można odpowiedzieć i XNUMX XNUMX pytań bez odpowiedzi, a wszystkie zostały utworzone przez pracowników Wikipedii.

  • Naturalne pytania (Link)

    Ten zestaw szkoleniowy zawiera ponad 300,000 7,800 przykładów szkoleniowych, 7,800 przykładów programistycznych i XNUMX przykładów testowych, każdy z zapytaniem Google i pasującą stroną Wikipedii.

  • Ciekawostki (Link)

    Ten wymagający zestaw pytań składa się z 950,000 XNUMX par kontroli jakości, w tym podzbiorów zarówno zweryfikowanych przez człowieka, jak i wygenerowanych maszynowo.

  • CLEVR (język kompozycyjny i elementarne rozumowanie wizualne) (Link)

    Ten wizualny zestaw danych zawierający odpowiedzi na pytania zawiera renderowane obiekty 3D i tysiące pytań ze szczegółami dotyczącymi sceny wizualnej.

Na jakim zbiorze danych wybrałeś więc trenowanie swojego modelu uczenia maszynowego?

Jak pójdziemy, zostawimy Cię z profesjonalna porada.

Pamiętaj, aby dokładnie przejrzeć plik README przed wybraniem zestawu danych NLP dla swoich potrzeb. Zestaw danych będzie zawierał wszystkie niezbędne informacje, których możesz potrzebować, takie jak zawartość zestawu danych, różne parametry, według których dane zostały skategoryzowane, oraz prawdopodobne przypadki użycia zestawu danych.

Niezależnie od tego, jakie modele zbudujesz, istnieje ekscytująca perspektywa ściślejszej i nieodłącznej integracji naszych maszyn z naszym życiem. Dzięki NLP możliwości w biznesie, filmach, rozpoznawaniu mowy, finansach i nie tylko zwiększają się wielokrotnie.

Podziel społecznej