Definicja
Uczenie się ze Wzmocnieniem na podstawie Informacji Zwrotnej (RLHF) to metoda dopasowywania modeli sztucznej inteligencji do ludzkich wartości poprzez włączenie ludzkich osądów do procesu szkolenia. Jest często wykorzystywana do precyzyjnego dostrajania dużych modeli językowych.
Cel
Celem jest uczynienie wyników sztucznej inteligencji bezpieczniejszymi, bardziej użytecznymi i zgodnymi z ludzkimi preferencjami. RLHF usprawnia systemy konwersacyjne poprzez redukcję szkodliwych, stronniczych lub nieistotnych odpowiedzi.
Znaczenie
- Zapewnia nadzór ludzki nad szkoleniem sztucznej inteligencji.
- Zwiększa wiarygodność systemów AI.
- Wymaga dużej ilości pracy ze względu na konieczność wprowadzania adnotacji przez człowieka.
- Związane z modelowaniem preferencji i badaniami dopasowania.
Jak to działa
- Zbieraj opinie użytkowników, porównując wyniki modeli.
- Wytrenuj model nagradzania na podstawie preferencji człowieka.
- Wykorzystaj uczenie maszynowe do dopracowania modelu bazowego.
- Oceń wydajność w kontekście wyznaczonych celów.
- Udoskonalaj, uwzględniając dodatkowe opinie.
Przykłady (świat rzeczywisty)
- OpenAI ChatGPT: dostrojony do RLHF w celu zapewnienia bezpieczniejszych odpowiedzi.
- Konstytucyjna sztuczna inteligencja firmy Anthropic: kieruje się zasadami, a nie bezpośrednim sprzężeniem zwrotnym.
- InstructGPT: wczesny model OpenAI demonstrujący RLHF.
Odniesienia / Dalsza lektura
- Christiano i in. „Głębokie uczenie się przez wzmacnianie na podstawie preferencji człowieka”. NeurIPS 2017.
- Dokument OpenAI InstructGPT.
- Ramy zarządzania ryzykiem AI NIST.
- Czym jest uczenie się przez wzmacnianie z wykorzystaniem informacji zwrotnej od człowieka (RLHF)?