Co to jest destylacja modeli AI? Mniejszy model, porównywalna jakość
Destylacja (distillation) to technika przenoszenia wiedzy z dużego modelu AI do mniejszego — mniejszy model uczy się naśladować odpowiedzi większego.
GPT-4 jest świetny, ale kosztuje 10× więcej niż GPT-4o-mini. A jeśli mógłbyś mieć model, który odpowiada prawie tak dobrze jak duży, ale jest 10× tańszy i 5× szybszy? To jest destylacja.
Jak to działa?
Prosty pomysł: bierzesz duży model ("nauczyciel") i generujesz nim tysiące odpowiedzi na różne pytania. Potem trenujesz mały model ("uczeń") żeby naśladował te odpowiedzi. Uczeń nie musi odkrywać wiedzy sam — uczy się z gotowych przykładów.
Gdzie to widzisz w praktyce?
- GPT-4o-mini: destylowany z GPT-4o — 15× tańszy, 80-90% jakości na większości zadań
- Claude Haiku: najszybszy model Anthropic — destylowany z Sonnet/Opus
- Phi-3 (Microsoft): 3.8B parametrów, ale bije modele 10× większe — intensywna destylacja z GPT-4
- Llama 3.2 1B/3B: małe modele destylowane z Llama 3.1 70B
Często zadawane pytania
Czym destylacja różni się od fine-tuningu?
Fine-tuning uczy model nowych zachowań na Twoich danych. Destylacja przenosi istniejące możliwości z dużego modelu do małego. Można je łączyć: najpierw destylacja (ogólne zdolności), potem fine-tuning (Twoja domena).
Czy destylacja jest legalna?
To zależy od licencji. OpenAI zabrania używania outputów GPT-4 do trenowania konkurencyjnych modeli. Modele open source (Llama, Mistral) pozwalają na destylację. Warto sprawdzić Terms of Service.
Knowledge distillation (Hinton et al., 2015) to transfer wiedzy z teacher model do student model przez trening studenta na soft labels (probability distributions) generowanych przez teachera. W kontekście LLM: student trenowany na completion data wygenerowanych przez silniejszy model.
Metody
- Response-based: student uczy się generować takie same odpowiedzi jak teacher; najprostsze, najczęściej używane
- Logit-based: student optymalizuje KL divergence między swoimi logits a logits teachera; wymaga white-box access do teachera
- Feature-based: matching intermediate representations; rzadkie w LLM, popularne w vision
- On-policy distillation: student generuje, teacher ocenia/koryguje; iteracyjne
Ograniczenia
Capacity gap: zbyt duża różnica w rozmiarze (np. 1T→1B) powoduje significant quality loss. Mitigation: progressive distillation (cascade), task-specific distillation (destylacja na wąskie zadanie). Legal: wielu providerów zabrania destylacji ich modeli w ToS (OpenAI, Google).