NA ŻYWO
Nauka, polityka i gaz. AI staje się przemysłem. Co to jest SLM? Small Language Model — mały, ale zdolny Co to jest open source AI? Modele AI dostępne dla każdego Co to jest Ollama? Uruchom modele AI na swoim komputerze Co to jest destylacja modeli AI? Mniejszy model, porównywalna jakość Co to jest guardrails AI? Barierki bezpieczeństwa modeli
CYTRYNA.AI
Słownik AI

Co to jest benchmark AI? Jak mierzymy inteligencję modeli

Benchmark AI to standardowy test mierzący zdolności modelu — od rozumienia tekstu po kodowanie i rozumowanie matematyczne.

Kiedy OpenAI mówi "GPT-4o jest lepszy od Claude", a Anthropic twierdzi odwrotnie — obaj powołują się na benchmarki. To standardowe testy, na których modele rywalizują o wynik. Problem: wynik na benchmarku nie zawsze przekłada się na to, jak model sprawdza się w Twojej pracy.

Najważniejsze benchmarki

  • MMLU — 57 przedmiotów akademickich, od fizyki po prawo. Sprawdza wiedzę ogólną. GPT-4o: ~88%, Claude Sonnet 4: ~89%
  • HumanEval / SWE-bench — kodowanie. HumanEval to proste funkcje Pythona. SWE-bench to realne bugi z GitHuba — dużo trudniejsze
  • GPQA — pytania eksperckie z fizyki, chemii, biologii. Na tyle trudne, że eksperci z innych dziedzin radzą sobie na poziomie losowym
  • MATH — problemy matematyczne od szkolnych po olimpiadowe
  • Arena ELO (LMSYS) — ludzie porównują odpowiedzi dwóch anonimowych modeli. Najbliższe realnej ocenie jakości

Dlaczego benchmarki kłamią?

Dwa powody. Po pierwsze: contamination — model mógł widzieć pytania testowe podczas treningu. Po drugie: benchmark mierzy konkretną umiejętność, nie ogólną przydatność. Model z najwyższym wynikiem na MMLU może być gorszy w pisaniu maili niż model z niższym wynikiem.

Często zadawane pytania

Który benchmark jest najbardziej wiarygodny?

LMSYS Chatbot Arena (arena.lmsys.org) — bo opiera się na preferencjach realnych użytkowników, nie syntetycznych testach. Wyniki nie korelują idealnie z MMLU/HumanEval, co potwierdza, że akademickie benchmarki nie mówią całej prawdy.

Benchmark AI to standaryzowany zestaw testów ewaluacyjnych z metrykami (accuracy, pass@k, ELO) do porównywania modeli. Kluczowy mechanizm selekcji w rozwoju LLM, ale z rosnącymi problemami: contamination, overfitting to benchmarks, metric gaming.

Kluczowe benchmarki (2025)

  • MMLU / MMLU-Pro: multiple choice, 57 domen; Pro dodaje trudniejsze pytania i opcje; saturation problem
  • HumanEval / MBPP: code generation; pass@1 i pass@k; HumanEval+ z augmented test cases
  • SWE-bench: real-world software engineering tasks z GitHub issues; resolved rate jako metryka
  • GPQA Diamond: expert-level science QA; PhD-level pytania
  • LMSYS Chatbot Arena: crowdsourced pairwise comparison; Bradley-Terry ELO; gold standard for overall quality
  • LiveBench: monthly refreshed questions to avoid contamination

Problemy ewaluacji

Data contamination (model widział test set), benchmark saturation (ceiling effect na starszych benchmarkach), Goodhart's law (optymalizacja pod metrykę zamiast pod capability). Rozwiązania: held-out benchmarki, dynamic/refreshed benchmarki (LiveBench), human evaluation (Arena).