NA ŻYWO
Nauka, polityka i gaz. AI staje się przemysłem. Co to jest SLM? Small Language Model — mały, ale zdolny Co to jest open source AI? Modele AI dostępne dla każdego Co to jest Ollama? Uruchom modele AI na swoim komputerze Co to jest destylacja modeli AI? Mniejszy model, porównywalna jakość Co to jest guardrails AI? Barierki bezpieczeństwa modeli
CYTRYNA.AI
Słownik AI

Co to jest Ollama? Uruchom modele AI na swoim komputerze

Ollama to darmowe narzędzie do uruchamiania modeli AI lokalnie — na Twoim komputerze, bez chmury, bez opłat za tokeny, z pełną prywatnością.

Chcesz rozmawiać z AI bez wysyłania swoich danych do OpenAI czy Google? Ollama pozwala uruchomić model językowy na Twoim laptopie. Dosłownie: instalujesz, odpalasz jedną komendę i masz własnego ChatGPT — offline, za darmo.

Jak zacząć?

Trzy kroki:

  1. Zainstaluj Ollama z ollama.com (Mac, Linux, Windows)
  2. Uruchom: ollama run llama3.2
  3. Rozmawiaj. Wszystko działa lokalnie.

Jakie modele warto wypróbować?

  • Llama 3.2 3B — szybki, dobry do prostych zadań, działa nawet na 8GB RAM
  • Llama 3.1 8B — najlepszy stosunek jakość/zasoby dla ogólnego użycia
  • Mistral 7B — świetny do kodowania i instrukcji
  • Llama 3.1 70B — jakość bliska GPT-4, ale wymaga 48GB+ RAM lub GPU
  • Phi-3 3.8B — zaskakująco dobry jak na rozmiar, świetny do eksperymentów

Po co mi lokalny model?

  • Prywatność — dane nie opuszczają Twojego komputera. Kancelarie prawne, szpitale, firmy z wrażliwymi danymi
  • Koszt — zero opłat za tokeny. Bez limitu zapytań
  • Offline — działa bez internetu
  • Customizacja — możesz zrobić fine-tuning na własnych danych

Często zadawane pytania

Czy jakość jest porównywalna z ChatGPT?

Mniejsze modele (3B-8B) — nie. Są dobre do prostych zadań, ale nie dorównują GPT-4o. Modele 70B+ są zbliżone jakością do komercyjnych, ale wymagają mocnego sprzętu. Llama 3.1 405B dorównuje GPT-4, ale potrzebuje klastra GPU.

Ile RAM-u potrzebuję?

Orientacyjnie: model 7B = ~4GB RAM (skwantowany do 4-bit). Model 13B = ~8GB. Model 70B = ~40GB. MacBook z M1/M2/M3 i 16GB RAM spokojnie obsłuży modele do 13B.

Ollama to open source runtime do uruchamiania GGUF-quantized LLM lokalnie. Wrapper nad llama.cpp z API kompatybilnym z OpenAI format. Obsługuje CPU (AVX2), Apple Silicon (Metal), NVIDIA GPU (CUDA).

Architektura

  • Backend: llama.cpp (GGML tensor library) — inference engine zoptymalizowany pod CPU i Apple Silicon
  • Kwantyzacja: GGUF format; Q4_K_M (4-bit, balanced), Q5_K_M, Q8_0; trade-off: size vs quality
  • API: REST endpoint kompatybilny z OpenAI chat completions format; localhost:11434
  • Modelfile: deklaratywna konfiguracja modelu (system prompt, temperature, stop tokens)

Alternatywy

LM Studio (GUI, GGUF), vLLM (produkcyjny serving, GPU-only), LocalAI (OpenAI-compatible API), text-generation-webui (feature-rich GUI). Ollama dominuje w developer experience — najprostsza instalacja i CLI.