Definicja
Gromadzenie danych tekstowych to proces gromadzenia danych pisanych ze źródeł takich jak książki, strony internetowe czy rejestry czatów w celu wykorzystania ich do szkolenia sztucznej inteligencji.
Cel
Celem jest stworzenie korpusów do rozwoju NLP i LLM.
Znaczenie
- Dostarcza surowego materiału do modeli językowych.
- Porusza kwestie praw autorskich i licencji.
- Różnorodność danych wpływa na ich uczciwość i dokładność.
- Należy filtrować treści szkodliwe i nieistotne.
Jak to działa
- Zidentyfikuj źródła tekstu (sieć, dokumenty, transkrypcje).
- Przeszukuj lub zbieraj tekst za zgodą.
- Wyczyść i znormalizuj treść.
- Przechowuj z metadanymi w celu umożliwienia śledzenia.
- Stosować przed treningiem lub w trakcie dostrajania.
Przykłady (świat rzeczywisty)
- Common Crawl: duży korpus internetowy.
- Zrzuty Wikipedii: zbiór danych w postaci ustrukturyzowanego tekstu.
- BooksCorpus: używany do szkolenia BERT.
Odniesienia / Dalsza lektura
- Fundacja Common Crawl.
- Jurafsky i Martin. Przetwarzanie mowy i języka.
- ISO/IEC TR 20547-5: Architektura referencyjna dużych zbiorów danych.
- Zbieranie danych tekstowych dla konkretnego przypadku