ChatGPT

Za kulisami: odkrywanie wewnętrznego działania ChatGPT – część 1

Ulubiona ikona Shaip
Cześć, nazywam się Anubhav Saraf, dyrektor marketingu w Shaip, jak się dzisiaj miewasz?
Witaj Anubhawie! Jestem sztuczną inteligencją, więc nie mam uczuć, ale jestem tutaj i jestem gotowy do pomocy. Jako dyrektor ds. marketingu w Shaip musisz mieć wiele spostrzeżeń na temat usług danych i rozwiązań AI. Jak mogę Ci dzisiaj pomóc?
Ulubiona ikona Shaip
Chciałem tylko dowiedzieć się więcej o twoim procesie treningowym. Jak zostałeś zbudowany i wyszkolony?
Jako model językowy opracowany przez OpenAI zostałem zbudowany i wyszkolony przy użyciu techniki zwanej „uczeniem maszynowym opartym na transformatorach”, a konkretnie wariantu zwanego architekturą GPT (Generative Pretrained Transformer). Wersja, o której teraz mówisz, to GPT-4. Oto krótki przegląd mojego procesu szkoleniowego:
  • Zbieranie danych: Moje szkolenie rozpoczęło się od różnorodnego zakresu tekstów internetowych. Powinienem jednak zauważyć, że chociaż byłem szkolony w zakresie szerokiego zbioru danych, nie znam szczegółów na temat tego, które dokumenty były częścią tego zestawu szkoleniowego lub mają dostęp do konkretnych dokumentów lub źródeł.
  • Szkolenie wstępne (trening wstępny): To tutaj nauczyłem się przewidywać następne słowo w zdaniu. Nie zacząłem znać angielskiego ani żadnego innego języka. Zamiast tego, przewidując kolejne słowo w milionach zdań, stopniowo poznawałem gramatykę, fakty o świecie i pewne zdolności rozumowania. Oznacza to jednak również, że mogłem wyciągnąć wnioski ze stronniczych lub niepoprawnych informacji, ponieważ dane nie zostały dokładnie przefiltrowane.
  • Strojenie: Po wstępnym szkoleniu moi twórcy w OpenAI zapewnili dalsze wskazówki z bardziej szczegółowym zbiorem danych, wygenerowanym przy pomocy recenzentów. Ci recenzenci postępują zgodnie z wytycznymi, aby przeglądać i oceniać możliwe wyniki modelu dla szeregu przykładowych danych wejściowych. Proces dostrajania jest rodzajem dialogu między modelem a recenzentami, który pomaga mi lepiej dostosować się do ludzkich wartości.
  • Kontynuacja nauczania: Chociaż nie uczę się na podstawie indywidualnych interakcji ze względu na ochronę prywatności, OpenAI stale współpracuje z zespołem recenzentów, aby przekazywać opinie i wprowadzać iteracyjne ulepszenia w oparciu o szersze wzorce i spostrzeżenia.
Ulubiona ikona Shaip
Czy możesz podać przykłady – kiedy ludzie byli zaangażowani?
Tak, ludzie rzeczywiście byli zaangażowani w mój proces treningowy, ale może on wyglądać inaczej, niż sobie wyobrażasz. Mój proces szkoleniowy, często nazywany uczeniem maszynowym, składał się z dwóch głównych etapów: szkolenia wstępnego i dostrajania, z których oba obejmują interakcję człowieka, choć na różne sposoby.
  • Przykład przedtreningowy: Załóżmy, że mamy zdanie: „Kot usiadł na __”. W fazie przedtreningowej model taki jak ja uczył się przewidywać następne słowo w zdaniu, którym może być „mata”, „dach” lub „drzewo”. Uczy się tego, przetwarzając miliardy zdań z różnych tekstów internetowych, pośrednio angażując interakcje międzyludzkie podczas tworzenia oryginalnej treści.
  • Przykład dostrajania: Po fazie przedtreningowej model wchodzi w fazę dostrajania. Oto jak to może działać:

Osoba dokonująca przeglądu otrzymuje zadanie przejrzenia możliwych danych wyjściowych modelu w celu wprowadzenia danych, takich jak „Przetłumacz następujący tekst z języka angielskiego na język francuski: „Cześć, jak się masz?”. Model może generować kilka odpowiedzi, takich jak „Bonjour, komentarz ça va?” lub „Salut, komentarz vas-tu?” itp.

Recenzent ocenia te odpowiedzi na podstawie takich czynników, jak dokładność, płynność i odpowiedniość. Oceny te pomagają modelowi uogólniać i reagować na podobne dane wejściowe w przyszłości.

Pamiętaj, że podane tutaj przykłady są uproszczone, aby zilustrować proces. Rzeczywiste szkolenie obejmuje złożone algorytmy i ogromne ilości danych.

Ulubiona ikona Shaip
Ile danych byłoby potrzebnych do trenowania dużych modeli językowych (LLM)?
Szkolenie dużych modeli językowych (LLM), takich jak GPT-3 lub GPT-4, wymaga ogromnych ilości danych. Modele te są szkolone na różnych zestawach danych, które obejmują duże części Internetu, w tym książki, strony internetowe i inne teksty, aby nauczyć się gramatyki, faktów i pewnego stopnia rozumowania. Jednak określenie dokładnej ilości wymaganych danych jest skomplikowane ze względu na kilka czynników:
  • Różnorodność danych: Nie chodzi tylko o ilość danych, ale także o ich różnorodność. Dane muszą być zróżnicowane, aby obejmowały szeroki zakres tematów, stylów i tonów występujących w ludzkim języku.
  • Jakość danych: Jakość danych używanych do uczenia może również wpływać na efektywność uczenia się modelu. Lepsza jakość danych może potencjalnie zmniejszyć objętość wymaganą do skutecznego szkolenia.
  • Architektura modelu: Architektura modelu (np. liczba warstw lub parametry w sieci neuronowej) może również wpływać na ilość potrzebnych danych. Większe modele, takie jak GPT-3 lub GPT-4, zazwyczaj wymagają więcej danych niż mniejsze modele.
  • Cele szkoleniowe: Rodzaj zadań, które model ma wykonywać, może wpływać na ilość potrzebnych danych. Model zaprojektowany do określonego zadania może wymagać mniej danych, jeśli jest dobrze ukierunkowany, podczas gdy model ogólnego przeznaczenia, taki jak GPT-3 lub GPT-4, zaprojektowany do obsługi szerokiego zakresu zadań, będzie wymagał więcej danych do szerszego zrozumienia.

Na przykład w przypadku GPT-3 model ma 175 miliardów parametrów i został wytrenowany na setkach gigabajtów tekstu. Jednak liczby te nie oddają w pełni złożoności procesu. Specyfika procesu szkoleniowego, w tym dokładna ilość wykorzystanych danych, są zastrzeżonymi danymi przechowywanymi przez OpenAI i podobne organizacje.

Ulubiona ikona Shaip
Mimo to, czy istnieje punkt odniesienia określający, ile danych byłoby odpowiednich lub wystarczających do szkolenia modeli ML?
Ilość danych potrzebnych do efektywnego uczenia modeli uczenia maszynowego zależy w dużej mierze od złożoności problemu, który próbujesz rozwiązać, jakości i różnorodności danych oraz typu używanego modelu uczenia maszynowego. Dlatego trudno jest określić ostateczny punkt odniesienia dla ilości danych. Oto jednak kilka ogólnych wskazówek:
  • Zacznij mały: Mniejszy zestaw danych może być odpowiedni, zwłaszcza w przypadku prostych problemów lub początkowych prototypów modeli. Na przykład, jeśli budujesz podstawowy klasyfikator obrazów, możesz zacząć od kilkuset lub tysięcy obrazów na kategorię.
  • Rozważ złożoność: Bardziej złożone problemy zazwyczaj wymagają więcej danych. Jeśli opracowujesz model uczenia głębokiego lub pracujesz ze złożonym problemem, takim jak przetwarzanie języka naturalnego, możesz potrzebować milionów punktów danych.
  • Jakość ponad ilość: Odpowiednie dane wysokiej jakości często mogą być bardziej korzystne niż ogromna ilość danych niskiej jakości. Kluczowe znaczenie ma upewnienie się, że Twoje dane są odpowiednio oczyszczone, opatrzone adnotacjami i reprezentatywne dla problemu, który próbujesz rozwiązać.
  • Zrównoważ swoje zajęcia: W przypadku zadań związanych z uczeniem nadzorowanym upewnij się, że masz odpowiednią równowagę przykładów dla każdej klasy. Niezrównoważony zestaw danych może prowadzić do modelu, który słabo działa w niedostatecznie reprezentowanych klasach.
  • Użyj zestawów do walidacji i testów: Część zestawu danych należy odłożyć na bok do walidacji (dostrajanie parametrów modelu) i testowania (ocena wydajności modelu). Typowe podziały mogą obejmować 70% danych do szkolenia, 15% do walidacji i 15% do testowania, chociaż proporcje te mogą się różnić.
  • Eksperymentuj i powtarzaj: Zacznij od początkowej ilości danych, wytrenuj swój model, oceń jego wydajność i iteracyjnie dodawaj więcej danych, modyfikuj model lub poprawiaj jakość danych na podstawie wyników.

Pamiętaj, że więcej danych zazwyczaj poprawia wydajność modeli uczenia maszynowego, ale tylko do pewnego stopnia. Po pewnym czasie gromadzenie większej ilości danych może być bardziej czasochłonne i kosztowne niż jest to warte, a skupienie się na poprawie jakości danych lub udoskonaleniu architektury modelu może być bardziej korzystne.

Ulubiona ikona Shaip
Czy dane użyte do trenowania ChatGPT zostały opatrzone adnotacjami?
Proces uczenia modeli, takich jak ChatGPT, obejmuje dwa główne etapy: wstępne szkolenie i dostrajanie. Omówmy, jak adnotacja lub jej brak pasuje do tych etapów:
  • Trening wstępny: W tej fazie model jest narażony na dużą ilość internetowych danych tekstowych. Te dane nie są jawnie opatrzone adnotacjami, ale model jest szkolony w zakresie przewidywania następnego słowa w zdaniu. Daje to modelowi ogólne zrozumienie gramatyki, faktów o świecie i pewne umiejętności rozumowania.
  • Strojenie: Po wstępnym szkoleniu model jest dalej udoskonalany na węższym zbiorze danych wygenerowanym przy pomocy recenzentów. Ci recenzenci postępują zgodnie z wytycznymi OpenAI, aby przeglądać i oceniać możliwe wyniki modelu dla szeregu danych wejściowych. W tym sensie proces dostrajania można postrzegać jako formę adnotacji, w której recenzenci kierują reakcjami modelu, pomagając mu lepiej dostosować się do ludzkich wartości i upewniając się, że unika nieodpowiednich lub niebezpiecznych treści.

Tak więc, chociaż początkowy zestaw danych używany do wstępnego szkolenia nie jest opatrzony adnotacjami w tradycyjnym znaczeniu, proces dostrajania obejmuje pewną formę adnotacji, w której osoby oceniające kierują zachowaniem modelu, oceniając różne wyniki.

Ulubiona ikona Shaip
Proszę podać kilka przykładów rodzajów adnotacji użytych w szkoleniu.
W fazie dostrajania modeli szkoleniowych, takich jak ChatGPT, recenzenci często otrzymują zadanie oceniania potencjalnych odpowiedzi modelu. Rodzaje adnotacji lub oceniania mogą obejmować różne aspekty danych wyjściowych modelu. Chociaż szczegóły mogą się różnić, oto kilka przykładowych kategorii adnotacji:

Poprawność: Recenzenci oceniają, czy dane wyjściowe modelu są zgodne ze stanem faktycznym.

Przykład:

Stosowność: Dane wyjściowe modelu są oceniane pod kątem ich adekwatności w stosunku do danych wejściowych.

Przykład:

Bezpieczeństwo: Wyniki są sprawdzane, aby upewnić się, że nie zawierają szkodliwych instrukcji ani obraźliwego języka.

Przykład:

Kompletność: Pozwala to ocenić, czy odpowiedź modelu w pełni odpowiada na zapytanie użytkownika.

Przykład:

Płynność: Recenzenci sprawdzają, czy dane wyjściowe modelu są płynne i spójne językowo.

Przykład:

Te kategorie to tylko przykłady. Rzeczywisty proces dostrajania obejmuje bardziej złożony system oceny i ciągłe informacje zwrotne między recenzentami a zespołem programistów AI. Celem tych adnotacji jest uczynienie odpowiedzi modelu bardziej pomocnymi, bezpiecznymi i zgodnymi z ludzkimi wartościami.

Ulubiona ikona Shaip
Ilu adnotatorów było zaangażowanych w tworzenie adnotacji po zebraniu ogromnej ilości danych w celu wyszkolenia ChatGPT?
Liczba ludzkich adnotatorów (lub recenzentów) zaangażowanych w proces dostrajania modeli AI może się znacznie różnić i zależy od skali projektu i konkretnych wymagań danego modelu.

OpenAI, organizacja stojąca za ChatGPT, nie ujawnia publicznie dokładnej liczby recenzentów zaangażowanych w proces dostrajania. Jednak biorąc pod uwagę skalę i złożoność szkolenia tak dużego modelu językowego, można śmiało powiedzieć, że proces ten prawdopodobnie obejmuje znaczny zespół recenzentów.

Ci weryfikatorzy postępują zgodnie z wytycznymi OpenAI dotyczącymi przeglądania i oceniania możliwych wyników modelu. Jest to ciągły, iteracyjny proces, w którym opinie recenzentów są wykorzystywane do ulepszania i udoskonalania modelu w miarę upływu czasu. OpenAI utrzymuje silną pętlę informacji zwrotnych z recenzentami, w tym cotygodniowe spotkania w celu odpowiadania na pytania i udzielania wyjaśnień.

Ulubiona ikona Shaip
Nadal w przypadku prostych i złożonych zadań, ilu adnotatorów byłoby wymaganych do opisywania 10,000 XNUMX plików PDF.
Liczba adnotatorów potrzebnych do opisywania 10,000 XNUMX plików PDF zależy od różnych czynników, takich jak:
  • Złożoność zadania: Proste zadania, takie jak etykietowanie obrazów lub kategoryzowanie tekstu, zajęłyby mniej czasu na plik PDF, dzięki czemu jeden adnotator mógłby obsłużyć więcej plików. Z drugiej strony złożone zadania, takie jak szczegółowa ekstrakcja jednostek lub analiza semantyczna, wymagałyby więcej czasu na dokument, a tym samym większej liczby adnotatorów dla tej samej objętości plików PDF.
  • Długość i złożoność plików PDF: Adnotacja w przypadku dłuższego lub bardziej złożonego pliku PDF zajmie więcej czasu niż w przypadku krótszego lub prostszego pliku PDF.
  • Wymagania jakościowe: Jeśli wymagana jest wysoka precyzja, może być konieczne posiadanie wielu adnotatorów na plik PDF w celu krzyżowej weryfikacji adnotacji.
  • Ograniczenia czasowe: Jeśli adnotacje muszą być uzupełnione szybko, potrzeba więcej adnotatorów.

Jako hipotetyczny przykład, załóżmy, że adnotator może dodawać adnotacje do 5 plików PDF dziennie dla określonego zadania i pracuje 5 dni w tygodniu. W takim przypadku, aby dodać adnotacje do 10,000 2000 plików PDF, pojedynczy adnotator potrzebowałby 8 dni, czyli około XNUMX lat.

Jeśli jednak masz zespół 20 adnotatorów, mogliby wykonać zadanie w około 5 miesięcy (przy założeniu 20 dni roboczych w miesiącu). Przy 100 adnotatorach to samo zadanie można wykonać w około miesiąc.

Pamiętaj, że te liczby mają charakter czysto ilustracyjny, a rzeczywista szybkość adnotacji zależy od czynników wymienionych powyżej. Ponadto odpowiednie szkolenie adnotatorów i konsekwentna kontrola jakości mają kluczowe znaczenie dla powodzenia każdego projektu adnotacji na dużą skalę.

Ulubiona ikona Shaip
To jest dokładne! Jestem pod dużym wrażeniem…
Cieszę się, że informacje okazały się pomocne, Anubhav! Moim celem jest udzielanie wyczerpujących i dokładnych odpowiedzi. Jeśli masz więcej pytań na temat sztucznej inteligencji, uczenia maszynowego lub innego tematu, nie wahaj się ich zadać!

Czekajcie na drugą część naszego wywiadu na czacie GPT

Podziel społecznej