Co to jest RLHF? Jak AI uczy się odpowiadać jak człowiek
RLHF (Reinforcement Learning from Human Feedback) to metoda treningu AI na podstawie ludzkich preferencji — dzięki niej ChatGPT odpowiada pomocnie zamiast generować losowy tekst.
Model językowy po treningu na internecie potrafi pisać — ale nie potrafi być pomocny. Równie chętnie wygeneruje instrukcję gotowania risotto co instrukcję budowy bomby. RLHF to sposób, w jaki ludzie uczą model zachowywać się odpowiedzialnie i użytecznie.
Jak to działa — krok po kroku
- Model generuje odpowiedzi — na to samo pytanie generuje kilka wariantów
- Ludzie oceniają — zespół annotatorów wybiera lepszą odpowiedź z pary (A vs B)
- Model nagrody — na podstawie tysięcy takich ocen trenowany jest osobny model, który przewiduje "którą odpowiedź wybrałby człowiek"
- Optymalizacja — główny model jest trenowany żeby generować odpowiedzi, które model nagrody ocenia wysoko
Dlaczego to było tak ważne?
GPT-3 (2020) był potężny, ale nieporęczny — odpowiadał chaotycznie, trudno było go kontrolować. ChatGPT (2022) to ten sam bazowy model + RLHF. Różnica była tak duża, że z ciekawostki technicznej stał się produktem dla 100 milionów użytkowników.
Często zadawane pytania
Czym jest DPO i dlaczego zastępuje RLHF?
DPO (Direct Preference Optimization) osiąga podobne wyniki bez trenowania osobnego modelu nagrody — jest prostsze i tańsze. Wiele nowszych modeli (Llama 3, Claude) używa DPO lub jego wariantów zamiast klasycznego RLHF z PPO.
Czy RLHF sprawia, że model jest bezpieczny?
Bezpieczniejszy — nie bezpieczny. RLHF redukuje generowanie szkodliwych treści, ale nie eliminuje go. Dlatego firmy dodają kolejne warstwy: constitutional AI (Anthropic), red teaming, safety filters.
RLHF (Reinforcement Learning from Human Feedback) to technika alignment łącząca supervised fine-tuning z optymalizacją polityki (PPO) wobec learned reward model. Zaproponowana przez Christiano et al. (2017), spopularyzowana przez InstructGPT (Ouyang et al., 2022).
Pipeline
- SFT: fine-tuning na demonstration data (annotator-written ideal responses)
- Reward Model: trenowany na comparison data (pary odpowiedzi ranked przez annotatorów); Bradley-Terry model; cross-entropy loss
- PPO: policy optimization maximizing reward z KL penalty (zapobiega reward hacking/mode collapse)
Alternatywy
- DPO: Direct Preference Optimization — eliminuje reward model; optymalizuje bezpośrednio na preferencjach; prostszy, stabilniejszy
- RLAIF: RL from AI Feedback — model ocenia sam siebie; Constitutional AI (Anthropic)
- KTO: Kahneman-Tversky Optimization — wymaga tylko binary feedback (good/bad), nie porównań
- ORPO: Odds Ratio Preference Optimization — łączy SFT i alignment w jednym kroku
Często zadawane pytania
Jakie są problemy z RLHF?
Reward hacking (model optymalizuje proxy zamiast intencji), sycophancy (model mówi co użytkownik chce usłyszeć), annotator disagreement (preferencje są subiektywne). KL penalty i iteracyjne red teaming łagodzą te problemy, ale nie eliminują.