NA ŻYWO
Nauka, polityka i gaz. AI staje się przemysłem. Co to jest SLM? Small Language Model — mały, ale zdolny Co to jest open source AI? Modele AI dostępne dla każdego Co to jest Ollama? Uruchom modele AI na swoim komputerze Co to jest destylacja modeli AI? Mniejszy model, porównywalna jakość Co to jest guardrails AI? Barierki bezpieczeństwa modeli
CYTRYNA.AI
Słownik AI

Co to jest hallucination w AI? Dlaczego modele kłamią?

Hallucination (halucynacja AI) to sytuacja, gdy model językowy generuje informacje, które brzmią wiarygodnie, ale są fałszywe lub nieistniejące — wymyślone daty, osoby, cytaty.

Poprosiłem kiedyś model o podanie źródeł do artykułu. Dostałem sześć linków, wszystkie wyglądały poważnie — czasopisma, autorzy, daty. Sprawdziłem. Trzy z nich nie istniały. Model je wymyślił z pełnym przekonaniem. To jest halucynacja AI.

Skąd się to bierze?

Model językowy nie "wie" — on przewiduje. Jest wytrenowany na miliardach tekstów i nauczył się, jak powinna wyglądać dobra odpowiedź. Problem w tym, że "dobra odpowiedź" to dla niego tekst, który statystycznie pasuje do pytania — niekoniecznie tekst, który jest prawdziwy.

Kiedy model nie zna odpowiedzi, nie mówi "nie wiem". Generuje coś, co wygląda jak odpowiedź, bo tego go nauczyliśmy. To nie jest kłamstwo — to artefakt architektury.

Co halucynuje najczęściej?

  • Linki i źródła — model "wie", że po cytacie powinien być link, więc generuje link, który wygląda prawdziwie
  • Daty i liczby — szczególnie mniej znane fakty historyczne, statystyki, wzory
  • Cytaty przypisywane realnym osobom — brzmią autentycznie, mogły nigdy nie paść
  • Biografie — szczególnie mniej znanych osób; model wypełnia luki domysłem

Jak się przed tym bronić?

Trzy proste nawyki, które warto wyrobić:

  • Nigdy nie cytuj odpowiedzi AI bez weryfikacji faktów, które mają znaczenie
  • Zamiast prosić o "podaj źródła", podaj modelowi źródła sam — i poproś żeby z nich korzystał
  • Jeśli coś brzmi zbyt pewnie i zbyt szczegółowo — sprawdź podwójnie

Często zadawane pytania

Czy nowsze modele nie halucynują?

Halucynują rzadziej — ale wciąż halucynują. GPT-4o i Claude 3.7 są znacznie lepsze od starszych generacji, ale żaden model nie jest odporny na ten problem. Reasoning models (o3, o1) radzą sobie lepiej w zadaniach logicznych, ale halucynacje w faktografii pozostają.

Czy model wie, że halucynuje?

Zazwyczaj nie — i to jest najgroźniejsza cecha. Model generuje fałszywe informacje z taką samą pewnością jak prawdziwe. Dlatego pewność wypowiedzi AI nie jest sygnałem jej prawdziwości.

Co to jest confabulation i czym różni się od halucynacji?

Confabulation to gdy model uzupełnia luki w wiedzy spójnymi, ale wymyślonymi detalami — jak pacjent z amnezją, który nieświadomie "przypomina sobie" rzeczy których nie przeżył. To ten sam mechanizm co halucynacja, tylko bardziej subtelny.

Halucynacja (ang. hallucination) to generowanie przez model treści niezgodnych z faktami lub nieistniejących, przy jednoczesnym zachowaniu wysokiego confidence score. Mechanizm wynika z natury modeli autoregresyjnych: optymalizacja odbywa się pod kątem perplexity (prawdopodobieństwo następnego tokenu), nie pod kątem faktograficznej poprawności.

Taksonomia halucynacji

  • Faktograficzne (factual): błędne daty, liczby, nazwy, biografie
  • Faithfulness: odpowiedź niezgodna z dostarczonym kontekstem (RAG hallucination) — model ignoruje lub sprzecza się z przekazanym dokumentem
  • Confabulation: spójne narracyjnie, ale fikcyjne uzupełnienia luk
  • Sycophantic hallucination: model potwierdza fałszywe założenia z pytania zamiast korygować

Metody redukcji

  • RAG: grounding w zewnętrznych źródłach; model generuje na podstawie pobranych dokumentów
  • Constitutional AI / RLHF: trening preferencyjny redukujący confabulation
  • Temperature=0: redukcja losowości, ale nie eliminacja halucynacji
  • Self-consistency: wielokrotne próbkowanie + voting redukuje błędy faktograficzne
  • Explicit uncertainty prompting: "jeśli nie wiesz, powiedz 'nie wiem'" — poprawia kalibrację

Metryki ewaluacji

TruthfulQA, HaluEval, HELM — benchmarki do pomiaru halucynacji. W projektach produkcyjnych: LLM-as-judge (model oceniający odpowiedź innego modelu) lub faktograficzna weryfikacja przez retrieval.

Często zadawane pytania

Jak RAG zmienia profil halucynacji?

RAG eliminuje halucynacje "z próżni" (model nie zna faktu), ale wprowadza nowy typ: faithfulness hallucination — model ma dokument, ale generuje odpowiedź z nim niezgodną. Przy dobrze skonstruowanym retrieval i prompcie, faithfulness hallucination jest rzadsza niż halucynacja faktograficzna w base modelu.

Czy większe modele halucynują rzadziej?

Generalnie tak, ale nie liniowo. Skalowanie poprawia kalibrację (model lepiej "wie co nie wie"), ale nie eliminuje halucynacji. Najbardziej poprawiają wyniki: RLHF, constitutional AI i retrieval augmentation.