NA ŻYWO
Nauka, polityka i gaz. AI staje się przemysłem. Co to jest SLM? Small Language Model — mały, ale zdolny Co to jest open source AI? Modele AI dostępne dla każdego Co to jest Ollama? Uruchom modele AI na swoim komputerze Co to jest destylacja modeli AI? Mniejszy model, porównywalna jakość Co to jest guardrails AI? Barierki bezpieczeństwa modeli
CYTRYNA.AI
Słownik AI

Co to jest destylacja modeli AI? Mniejszy model, porównywalna jakość

Destylacja (distillation) to technika przenoszenia wiedzy z dużego modelu AI do mniejszego — mniejszy model uczy się naśladować odpowiedzi większego.

GPT-4 jest świetny, ale kosztuje 10× więcej niż GPT-4o-mini. A jeśli mógłbyś mieć model, który odpowiada prawie tak dobrze jak duży, ale jest 10× tańszy i 5× szybszy? To jest destylacja.

Jak to działa?

Prosty pomysł: bierzesz duży model ("nauczyciel") i generujesz nim tysiące odpowiedzi na różne pytania. Potem trenujesz mały model ("uczeń") żeby naśladował te odpowiedzi. Uczeń nie musi odkrywać wiedzy sam — uczy się z gotowych przykładów.

Gdzie to widzisz w praktyce?

  • GPT-4o-mini: destylowany z GPT-4o — 15× tańszy, 80-90% jakości na większości zadań
  • Claude Haiku: najszybszy model Anthropic — destylowany z Sonnet/Opus
  • Phi-3 (Microsoft): 3.8B parametrów, ale bije modele 10× większe — intensywna destylacja z GPT-4
  • Llama 3.2 1B/3B: małe modele destylowane z Llama 3.1 70B

Często zadawane pytania

Czym destylacja różni się od fine-tuningu?

Fine-tuning uczy model nowych zachowań na Twoich danych. Destylacja przenosi istniejące możliwości z dużego modelu do małego. Można je łączyć: najpierw destylacja (ogólne zdolności), potem fine-tuning (Twoja domena).

Czy destylacja jest legalna?

To zależy od licencji. OpenAI zabrania używania outputów GPT-4 do trenowania konkurencyjnych modeli. Modele open source (Llama, Mistral) pozwalają na destylację. Warto sprawdzić Terms of Service.

Knowledge distillation (Hinton et al., 2015) to transfer wiedzy z teacher model do student model przez trening studenta na soft labels (probability distributions) generowanych przez teachera. W kontekście LLM: student trenowany na completion data wygenerowanych przez silniejszy model.

Metody

  • Response-based: student uczy się generować takie same odpowiedzi jak teacher; najprostsze, najczęściej używane
  • Logit-based: student optymalizuje KL divergence między swoimi logits a logits teachera; wymaga white-box access do teachera
  • Feature-based: matching intermediate representations; rzadkie w LLM, popularne w vision
  • On-policy distillation: student generuje, teacher ocenia/koryguje; iteracyjne

Ograniczenia

Capacity gap: zbyt duża różnica w rozmiarze (np. 1T→1B) powoduje significant quality loss. Mitigation: progressive distillation (cascade), task-specific distillation (destylacja na wąskie zadanie). Legal: wielu providerów zabrania destylacji ich modeli w ToS (OpenAI, Google).