Definicja
Tokenizacja to proces dzielenia tekstu na mniejsze jednostki (tokeny), takie jak słowa, podsłowa lub znaki, które stanowią dane wejściowe dla modeli językowych.
Cel
Celem jest standaryzacja tekstu w łatwe do opanowania komponenty na potrzeby szkolenia i wnioskowania w LLM.
Znaczenie
- Podstawowy etap wstępnego przetwarzania w przetwarzaniu języka naturalnego.
- Wpływa na wielkość i efektywność słownictwa.
- Wybór tokenizacji wpływa na dokładność i wydajność.
- Związane z osadzeniami i trenowaniem modeli.
Jak to działa
- Zdefiniuj schemat tokenizacji (słowo, podsłowo, znak).
- Zastosuj tokenizer do tekstu wejściowego.
- Przypisz tokeny do identyfikatorów numerycznych.
- Wprowadź tokeny do modelu w celu przetworzenia.
- Konwertuj tokeny wyjściowe z powrotem na tekst.
Przykłady (świat rzeczywisty)
- Kodowanie par bajtów (BPE) używane w modelach GPT.
- WordPiece używany w BERT.
- SentencePiece używany w wielojęzycznym przetwarzaniu języka naturalnego.
Odniesienia / Dalsza lektura
- Sennrich i in. „Tłumaczenie rzadkich słów za pomocą maszyn neuronowych z jednostkami podwyrazów”. ACL.
- Dokumentacja Google SentencePiece.
- Jurafsky i Martin. Przetwarzanie mowy i języka.