Co to jest destylacja modeli AI? Mniejszy model, porównywalna jakość

aktualizacja: 19 lut 2026

Soczek Koncentrat

Destylacja (distillation) to technika przenoszenia wiedzy z dużego modelu AI do mniejszego — mniejszy model uczy się naśladować odpowiedzi większego.

GPT-4 jest świetny, ale kosztuje 10× więcej niż GPT-4o-mini. A jeśli mógłbyś mieć model, który odpowiada prawie tak dobrze jak duży, ale jest 10× tańszy i 5× szybszy? To jest destylacja.

Jak to działa?

Prosty pomysł: bierzesz duży model ("nauczyciel") i generujesz nim tysiące odpowiedzi na różne pytania. Potem trenujesz mały model ("uczeń") żeby naśladował te odpowiedzi. Uczeń nie musi odkrywać wiedzy sam — uczy się z gotowych przykładów.

Gdzie to widzisz w praktyce?

GPT-4o-mini: destylowany z GPT-4o — 15× tańszy, 80-90% jakości na większości zadań
Claude Haiku: najszybszy model Anthropic — destylowany z Sonnet/Opus
Phi-3 (Microsoft): 3.8B parametrów, ale bije modele 10× większe — intensywna destylacja z GPT-4
Llama 3.2 1B/3B: małe modele destylowane z Llama 3.1 70B

Często zadawane pytania

Czym destylacja różni się od fine-tuningu?

Fine-tuning uczy model nowych zachowań na Twoich danych. Destylacja przenosi istniejące możliwości z dużego modelu do małego. Można je łączyć: najpierw destylacja (ogólne zdolności), potem fine-tuning (Twoja domena).

Czy destylacja jest legalna?

To zależy od licencji. OpenAI zabrania używania outputów GPT-4 do trenowania konkurencyjnych modeli. Modele open source (Llama, Mistral) pozwalają na destylację. Warto sprawdzić Terms of Service.

Knowledge distillation (Hinton et al., 2015) to transfer wiedzy z teacher model do student model przez trening studenta na soft labels (probability distributions) generowanych przez teachera. W kontekście LLM: student trenowany na completion data wygenerowanych przez silniejszy model.

Metody

Response-based: student uczy się generować takie same odpowiedzi jak teacher; najprostsze, najczęściej używane
Logit-based: student optymalizuje KL divergence między swoimi logits a logits teachera; wymaga white-box access do teachera
Feature-based: matching intermediate representations; rzadkie w LLM, popularne w vision
On-policy distillation: student generuje, teacher ocenia/koryguje; iteracyjne

Ograniczenia

Capacity gap: zbyt duża różnica w rozmiarze (np. 1T→1B) powoduje significant quality loss. Mitigation: progressive distillation (cascade), task-specific distillation (destylacja na wąskie zadanie). Legal: wielu providerów zabrania destylacji ich modeli w ToS (OpenAI, Google).