NA ŻYWO
Nauka, polityka i gaz. AI staje się przemysłem. Co to jest SLM? Small Language Model — mały, ale zdolny Co to jest open source AI? Modele AI dostępne dla każdego Co to jest Ollama? Uruchom modele AI na swoim komputerze Co to jest destylacja modeli AI? Mniejszy model, porównywalna jakość Co to jest guardrails AI? Barierki bezpieczeństwa modeli
CYTRYNA.AI
Słownik AI

Co to jest RLHF? Jak AI uczy się odpowiadać jak człowiek

RLHF (Reinforcement Learning from Human Feedback) to metoda treningu AI na podstawie ludzkich preferencji — dzięki niej ChatGPT odpowiada pomocnie zamiast generować losowy tekst.

Model językowy po treningu na internecie potrafi pisać — ale nie potrafi być pomocny. Równie chętnie wygeneruje instrukcję gotowania risotto co instrukcję budowy bomby. RLHF to sposób, w jaki ludzie uczą model zachowywać się odpowiedzialnie i użytecznie.

Jak to działa — krok po kroku

  1. Model generuje odpowiedzi — na to samo pytanie generuje kilka wariantów
  2. Ludzie oceniają — zespół annotatorów wybiera lepszą odpowiedź z pary (A vs B)
  3. Model nagrody — na podstawie tysięcy takich ocen trenowany jest osobny model, który przewiduje "którą odpowiedź wybrałby człowiek"
  4. Optymalizacja — główny model jest trenowany żeby generować odpowiedzi, które model nagrody ocenia wysoko

Dlaczego to było tak ważne?

GPT-3 (2020) był potężny, ale nieporęczny — odpowiadał chaotycznie, trudno było go kontrolować. ChatGPT (2022) to ten sam bazowy model + RLHF. Różnica była tak duża, że z ciekawostki technicznej stał się produktem dla 100 milionów użytkowników.

Często zadawane pytania

Czym jest DPO i dlaczego zastępuje RLHF?

DPO (Direct Preference Optimization) osiąga podobne wyniki bez trenowania osobnego modelu nagrody — jest prostsze i tańsze. Wiele nowszych modeli (Llama 3, Claude) używa DPO lub jego wariantów zamiast klasycznego RLHF z PPO.

Czy RLHF sprawia, że model jest bezpieczny?

Bezpieczniejszy — nie bezpieczny. RLHF redukuje generowanie szkodliwych treści, ale nie eliminuje go. Dlatego firmy dodają kolejne warstwy: constitutional AI (Anthropic), red teaming, safety filters.

RLHF (Reinforcement Learning from Human Feedback) to technika alignment łącząca supervised fine-tuning z optymalizacją polityki (PPO) wobec learned reward model. Zaproponowana przez Christiano et al. (2017), spopularyzowana przez InstructGPT (Ouyang et al., 2022).

Pipeline

  • SFT: fine-tuning na demonstration data (annotator-written ideal responses)
  • Reward Model: trenowany na comparison data (pary odpowiedzi ranked przez annotatorów); Bradley-Terry model; cross-entropy loss
  • PPO: policy optimization maximizing reward z KL penalty (zapobiega reward hacking/mode collapse)

Alternatywy

  • DPO: Direct Preference Optimization — eliminuje reward model; optymalizuje bezpośrednio na preferencjach; prostszy, stabilniejszy
  • RLAIF: RL from AI Feedback — model ocenia sam siebie; Constitutional AI (Anthropic)
  • KTO: Kahneman-Tversky Optimization — wymaga tylko binary feedback (good/bad), nie porównań
  • ORPO: Odds Ratio Preference Optimization — łączy SFT i alignment w jednym kroku

Często zadawane pytania

Jakie są problemy z RLHF?

Reward hacking (model optymalizuje proxy zamiast intencji), sycophancy (model mówi co użytkownik chce usłyszeć), annotator disagreement (preferencje są subiektywne). KL penalty i iteracyjne red teaming łagodzą te problemy, ale nie eliminują.