Uczenie się ze wzmocnieniem na podstawie informacji zwrotnych od ludzi (RLHF)

RLHF

Definicja

Uczenie się ze Wzmocnieniem na podstawie Informacji Zwrotnej (RLHF) to metoda dopasowywania modeli sztucznej inteligencji do ludzkich wartości poprzez włączenie ludzkich osądów do procesu szkolenia. Jest często wykorzystywana do precyzyjnego dostrajania dużych modeli językowych.

Cel

Celem jest uczynienie wyników sztucznej inteligencji bezpieczniejszymi, bardziej użytecznymi i zgodnymi z ludzkimi preferencjami. RLHF usprawnia systemy konwersacyjne poprzez redukcję szkodliwych, stronniczych lub nieistotnych odpowiedzi.

Znaczenie

  • Zapewnia nadzór ludzki nad szkoleniem sztucznej inteligencji.
  • Zwiększa wiarygodność systemów AI.
  • Wymaga dużej ilości pracy ze względu na konieczność wprowadzania adnotacji przez człowieka.
  • Związane z modelowaniem preferencji i badaniami dopasowania.

Jak to działa

  1. Zbieraj opinie użytkowników, porównując wyniki modeli.
  2. Wytrenuj model nagradzania na podstawie preferencji człowieka.
  3. Wykorzystaj uczenie maszynowe do dopracowania modelu bazowego.
  4. Oceń wydajność w kontekście wyznaczonych celów.
  5. Udoskonalaj, uwzględniając dodatkowe opinie.

Przykłady (świat rzeczywisty)

  • OpenAI ChatGPT: dostrojony do RLHF w celu zapewnienia bezpieczniejszych odpowiedzi.
  • Konstytucyjna sztuczna inteligencja firmy Anthropic: kieruje się zasadami, a nie bezpośrednim sprzężeniem zwrotnym.
  • InstructGPT: wczesny model OpenAI demonstrujący RLHF.

Odniesienia / Dalsza lektura

Powiedz nam, jak możemy pomóc w Twojej następnej inicjatywie AI.

Szaip
Przegląd prywatności

Ta strona korzysta z plików cookie, abyśmy mogli zapewnić Ci najlepszą możliwą obsługę. Informacje o plikach cookie są przechowywane w przeglądarce użytkownika i służą do wykonywania funkcji, takich jak rozpoznawanie użytkownika po powrocie do naszej witryny i pomaganie naszemu zespołowi w zrozumieniu, które sekcje witryny są dla niego najbardziej interesujące i użyteczne.