Tokenizacja w LLM-ach

Tokenizacja w LLM-ach

Definicja

Tokenizacja to proces dzielenia tekstu na mniejsze jednostki (tokeny), takie jak słowa, podsłowa lub znaki, które stanowią dane wejściowe dla modeli językowych.

Cel

Celem jest standaryzacja tekstu w łatwe do opanowania komponenty na potrzeby szkolenia i wnioskowania w LLM.

Znaczenie

  • Podstawowy etap wstępnego przetwarzania w przetwarzaniu języka naturalnego.
  • Wpływa na wielkość i efektywność słownictwa.
  • Wybór tokenizacji wpływa na dokładność i wydajność.
  • Związane z osadzeniami i trenowaniem modeli.

Jak to działa

  1. Zdefiniuj schemat tokenizacji (słowo, podsłowo, znak).
  2. Zastosuj tokenizer do tekstu wejściowego.
  3. Przypisz tokeny do identyfikatorów numerycznych.
  4. Wprowadź tokeny do modelu w celu przetworzenia.
  5. Konwertuj tokeny wyjściowe z powrotem na tekst.

Przykłady (świat rzeczywisty)

  • Kodowanie par bajtów (BPE) używane w modelach GPT.
  • WordPiece używany w BERT.
  • SentencePiece używany w wielojęzycznym przetwarzaniu języka naturalnego.

Odniesienia / Dalsza lektura

  • Sennrich i in. „Tłumaczenie rzadkich słów za pomocą maszyn neuronowych z jednostkami podwyrazów”. ACL.
  • Dokumentacja Google SentencePiece.
  • Jurafsky i Martin. Przetwarzanie mowy i języka.

Powiedz nam, jak możemy pomóc w Twojej następnej inicjatywie AI.

Szaip
Przegląd prywatności

Ta strona korzysta z plików cookie, abyśmy mogli zapewnić Ci najlepszą możliwą obsługę. Informacje o plikach cookie są przechowywane w przeglądarce użytkownika i służą do wykonywania funkcji, takich jak rozpoznawanie użytkownika po powrocie do naszej witryny i pomaganie naszemu zespołowi w zrozumieniu, które sekcje witryny są dla niego najbardziej interesujące i użyteczne.