Zbieranie danych tekstowych

Zbieranie danych tekstowych

Definicja

Gromadzenie danych tekstowych to proces gromadzenia danych pisanych ze źródeł takich jak książki, strony internetowe czy rejestry czatów w celu wykorzystania ich do szkolenia sztucznej inteligencji.

Cel

Celem jest stworzenie korpusów do rozwoju NLP i LLM.

Znaczenie

  • Dostarcza surowego materiału do modeli językowych.
  • Porusza kwestie praw autorskich i licencji.
  • Różnorodność danych wpływa na ich uczciwość i dokładność.
  • Należy filtrować treści szkodliwe i nieistotne.

Jak to działa

  1. Zidentyfikuj źródła tekstu (sieć, dokumenty, transkrypcje).
  2. Przeszukuj lub zbieraj tekst za zgodą.
  3. Wyczyść i znormalizuj treść.
  4. Przechowuj z metadanymi w celu umożliwienia śledzenia.
  5. Stosować przed treningiem lub w trakcie dostrajania.

Przykłady (świat rzeczywisty)

  • Common Crawl: duży korpus internetowy.
  • Zrzuty Wikipedii: zbiór danych w postaci ustrukturyzowanego tekstu.
  • BooksCorpus: używany do szkolenia BERT.

Odniesienia / Dalsza lektura

Powiedz nam, jak możemy pomóc w Twojej następnej inicjatywie AI.

Szaip
Przegląd prywatności

Ta strona korzysta z plików cookie, abyśmy mogli zapewnić Ci najlepszą możliwą obsługę. Informacje o plikach cookie są przechowywane w przeglądarce użytkownika i służą do wykonywania funkcji, takich jak rozpoznawanie użytkownika po powrocie do naszej witryny i pomaganie naszemu zespołowi w zrozumieniu, które sekcje witryny są dla niego najbardziej interesujące i użyteczne.