So laden und verwenden Sie Ollama, um LLMs lokal auszuführen

Künstliche Intelligenz (KI) entwickelt sich rasant. LLMs wie ChatGPT begeistern. Ollama bietet eine datenschutzfreundliche, kostenlose Alternative.

Leo Schulz

Leo Schulz

5 June 2025

So laden und verwenden Sie Ollama, um LLMs lokal auszuführen

Die Welt der Künstlichen Intelligenz (KI) entwickelt sich rasant, wobei Large Language Models (LLMs) wie ChatGPT, Claude und Gemini weltweit die Fantasie beflügeln. Diese leistungsstarken Werkzeuge können Code schreiben, E-Mails entwerfen, komplexe Fragen beantworten und sogar kreative Inhalte generieren. Die Nutzung dieser Cloud-basierten Dienste ist jedoch oft mit Bedenken hinsichtlich des Datenschutzes, potenzieller Kosten und der Notwendigkeit einer ständigen Internetverbindung verbunden.

Willkommen bei Ollama.

Ollama ist ein leistungsstarkes Open-Source-Tool, das entwickelt wurde, um den Zugang zu großen Sprachmodellen zu demokratisieren, indem es Ihnen ermöglicht, diese direkt auf Ihrem eigenen Computer herunterzuladen, auszuführen und zu verwalten. Es vereinfacht den oft komplexen Prozess der Einrichtung und Interaktion mit hochmodernen KI-Modellen vor Ort.

Warum Ollama verwenden?

Die lokale Ausführung von LLMs mit Ollama bietet mehrere überzeugende Vorteile:

  1. Datenschutz: Ihre Prompts und die Antworten des Modells verbleiben auf Ihrem Rechner. Es werden keine Daten an externe Server gesendet, es sei denn, Sie konfigurieren dies explizit. Dies ist entscheidend für sensible Informationen oder proprietäre Arbeiten.
  2. Offline-Zugriff: Sobald ein Modell heruntergeladen wurde, können Sie es ohne Internetverbindung verwenden, was es perfekt für Reisen, abgelegene Orte oder Situationen mit unzuverlässiger Konnektivität macht.
  3. Anpassung: Mit Ollama können Sie Modelle mithilfe von 'Modelfiles' einfach modifizieren und so ihr Verhalten, System-Prompts und Parameter an Ihre spezifischen Bedürfnisse anpassen.
  4. Kosteneffektiv: Es gibt keine Abonnementgebühren oder Gebühren pro Token. Die einzigen Kosten sind die Hardware, die Sie bereits besitzen, und der Strom, um sie zu betreiben.
  5. Erkundung & Lernen: Es bietet eine fantastische Plattform, um mit verschiedenen Open-Source-Modellen zu experimentieren, ihre Fähigkeiten und Einschränkungen zu verstehen und mehr darüber zu erfahren, wie LLMs unter der Haube funktionieren.

Dieser Artikel ist für Anfänger gedacht, die mit der Verwendung einer Befehlszeilenschnittstelle (wie Terminal unter macOS/Linux oder Eingabeaufforderung/PowerShell unter Windows) vertraut sind und die Welt der lokalen LLMs mit Ollama erkunden möchten. Wir führen Sie durch das Verständnis der Grundlagen, die Installation von Ollama, das Ausführen Ihres ersten Modells, die Interaktion damit und die Erkundung der grundlegenden Anpassung.

💡
Want a great API Testing tool that generates beautiful API Documentation?

Want an integrated, All-in-One platform for your Developer Team to work together with maximum productivity?

Apidog delivers all your demans, and replaces Postman at a much more affordable price!
button

Wie funktioniert Ollama?

Bevor wir uns mit der Installation befassen, wollen wir ein paar grundlegende Konzepte klären.

Was sind Large Language Models (LLMs)?

Stellen Sie sich ein LLM als ein unglaublich fortschrittliches Autovervollständigungssystem vor, das auf riesigen Mengen an Text und Code aus dem Internet trainiert wurde. Durch die Analyse von Mustern in diesen Daten lernt es Grammatik, Fakten, Denkfähigkeiten und verschiedene Schreibstile. Wenn Sie ihm einen Prompt (Eingabetext) geben, sagt es die wahrscheinlichste Wortfolge voraus, die folgt, und generiert eine kohärente und oft aufschlussreiche Antwort. Verschiedene LLMs werden mit unterschiedlichen Datensätzen, Größen und Architekturen trainiert, was zu Variationen in ihren Stärken, Schwächen und Persönlichkeiten führt.

Wie funktioniert Ollama?

Ollama fungiert als Manager und Ausführer für diese LLMs auf Ihrem lokalen Rechner. Zu seinen Kernfunktionen gehören:

  1. Modell-Download: Es ruft vorgefertigte LLM-Gewichte und -Konfigurationen aus einer zentralen Bibliothek ab (ähnlich wie Docker Container-Images abruft).
  2. Modellausführung: Es lädt das ausgewählte Modell in den Speicher Ihres Computers (RAM) und nutzt möglicherweise Ihre Grafikkarte (GPU) zur Beschleunigung.
  3. Bereitstellung von Schnittstellen: Es bietet eine einfache Befehlszeilenschnittstelle (CLI) für die direkte Interaktion und führt auch einen lokalen Webserver aus, der eine API (Application Programming Interface) bereitstellt, damit andere Anwendungen mit dem laufenden LLM kommunizieren können.

Hardwareanforderungen für Ollama: Kann mein Computer es ausführen?

Die lokale Ausführung von LLMs kann anspruchsvoll sein, vor allem für den RAM (Random Access Memory) Ihres Computers. Die Größe des Modells, das Sie ausführen möchten, bestimmt den erforderlichen Mindest-RAM.

Weitere Faktoren, die Sie möglicherweise berücksichtigen müssen:

Empfehlung für Anfänger: Beginnen Sie mit kleineren Modellen (wie phi3, mistral oder llama3:8b) und stellen Sie sicher, dass Sie mindestens 16 GB RAM für eine komfortable erste Erfahrung haben. Überprüfen Sie die Ollama-Website oder die Modellbibliothek auf spezifische RAM-Empfehlungen für jedes Modell.

So installieren Sie Ollama unter Mac, Linux und Windows (mit WSL)

Ollama unterstützt macOS, Linux und Windows (derzeit in der Vorschau, oft mit WSL erforderlich).

Schritt 1: Voraussetzungen

Schritt 2: Herunterladen und Installieren von Ollama

Der Vorgang variiert leicht je nach Betriebssystem:

  1. Gehen Sie zur offiziellen Ollama-Website: https://ollama.com
  2. Klicken Sie auf die Schaltfläche "Download" und wählen Sie dann "Download für macOS".
  3. Sobald die .dmg-Datei heruntergeladen wurde, öffnen Sie sie.
  4. Ziehen Sie das Anwendungssymbol Ollama in Ihren Ordner Applications.
  5. Möglicherweise müssen Sie beim ersten Ausführen Berechtigungen erteilen.

Der schnellste Weg ist in der Regel über das offizielle Installationsskript. Öffnen Sie Ihr Terminal und führen Sie Folgendes aus:

curl -fsSL <https://ollama.com/install.sh> | sh

Dieser Befehl lädt das Skript herunter und führt es aus, wodurch Ollama für Ihren Benutzer installiert wird. Es versucht auch, die GPU-Unterstützung zu erkennen und zu konfigurieren, falls zutreffend (NVIDIA-Treiber erforderlich).

Befolgen Sie alle vom Skript angezeigten Eingabeaufforderungen. Manuelle Installationsanweisungen sind auch im Ollama GitHub-Repository verfügbar, falls Sie dies bevorzugen.

  1. Gehen Sie zur offiziellen Ollama-Website: https://ollama.com
  2. Klicken Sie auf die Schaltfläche "Download" und wählen Sie dann "Download für Windows (Preview)".
  3. Führen Sie die herunterladbare ausführbare Datei des Installers (.exe) aus.
  4. Befolgen Sie die Schritte des Installationsassistenten.
  5. Wichtiger Hinweis: Ollama unter Windows basiert stark auf dem Windows-Subsystem für Linux (WSL2). Der Installer fordert Sie möglicherweise auf, WSL2 zu installieren oder zu konfigurieren, falls es noch nicht eingerichtet ist. Die GPU-Beschleunigung erfordert in der Regel bestimmte WSL-Konfigurationen und NVIDIA-Treiber, die in der WSL-Umgebung installiert sind. Die Verwendung von Ollama fühlt sich möglicherweise in einem WSL-Terminal nativer an.

Schritt 3: Überprüfen der Installation

Nach der Installation müssen Sie überprüfen, ob Ollama korrekt funktioniert.

Öffnen Sie Ihr Terminal oder Ihre Eingabeaufforderung. (Unter Windows wird häufig die Verwendung eines WSL-Terminals empfohlen).

Geben Sie den folgenden Befehl ein und drücken Sie die Eingabetaste:

ollama --version

Wenn die Installation erfolgreich war, sollten Sie eine Ausgabe sehen, die die installierte Ollama-Versionsnummer anzeigt, z. B.:

ollama version is 0.1.XX

Wenn Sie dies sehen, ist Ollama installiert und einsatzbereit! Wenn ein Fehler wie "Befehl nicht gefunden" auftritt, überprüfen Sie die Installationsschritte, stellen Sie sicher, dass Ollama zum PATH Ihres Systems hinzugefügt wurde (der Installer erledigt dies normalerweise), oder versuchen Sie, Ihr Terminal oder Ihren Computer neu zu starten.

Erste Schritte: Ausführen Ihres ersten Modells mit Ollama

Mit installierter Ollama können Sie jetzt ein LLM herunterladen und mit ihm interagieren.

Konzept: Die Ollama-Modellregistrierung

Ollama unterhält eine Bibliothek mit sofort verfügbaren Open-Source-Modellen. Wenn Sie Ollama auffordern, ein Modell auszuführen, das es nicht lokal hat, wird es automatisch aus dieser Registrierung heruntergeladen. Stellen Sie es sich wie docker pull für LLMs vor. Sie können die verfügbaren Modelle im Bibliotheksbereich der Ollama-Website durchsuchen.

Auswählen eines Modells

Für Anfänger ist es am besten, mit einem abgerundeten und relativ kleinen Modell zu beginnen. Gute Optionen sind:

Überprüfen Sie die Ollama-Bibliothek auf Details zu Größe, RAM-Anforderungen und typischen Anwendungsfällen der einzelnen Modelle.

Herunterladen und Ausführen eines Modells (Befehlszeile)

Der primäre Befehl, den Sie verwenden, ist ollama run.

Öffnen Sie Ihr Terminal.

Wählen Sie einen Modellnamen (z. B. llama3:8b).

Geben Sie den Befehl ein:

ollama run llama3:8b

Drücken Sie die Eingabetaste.

Was passiert als Nächstes?

Herunterladen: Wenn Sie llama3:8b nicht lokal haben, zeigt Ollama Fortschrittsbalken an, während es die Modellschichten herunterlädt. Dies kann je nach Ihrer Internetgeschwindigkeit und der Modellgröße (oft mehrere Gigabyte) einige Zeit dauern.

Laden: Nach dem Herunterladen lädt Ollama das Modell in den RAM Ihres Computers (und den GPU-Speicher, falls zutreffend). Möglicherweise sehen Sie Meldungen zur Hardwareerkennung.

Interaktiver Chat: Nach dem Laden sehen Sie eine Eingabeaufforderung wie: Dies bedeutet, dass das Modell bereit ist! Sie befinden sich jetzt in einer interaktiven Chat-Sitzung direkt mit dem LLM, das auf Ihrem Rechner läuft.

>>> Nachricht senden (/? für Hilfe)

Interaktion mit dem Modell:

Beispielinteraktion:


> Nachricht senden (/? für Hilfe)
Erklären Sie das Konzept der Photosynthese in einfachen Worten.
>

Photosynthese ist wie Pflanzen ihr eigenes Essen machen! Sie nehmen drei Hauptzutaten:

1. **Sonnenlicht:** Energie von der Sonne.
2. **Wasser:** Aufgenommen durch ihre Wurzeln.
3. **Kohlendioxid:** Ein Gas, das sie durch winzige Löcher in ihren Blättern aus der Luft aufnehmen.

Mit der Energie des Sonnenlichts kombinieren Pflanzen das Wasser und das Kohlendioxid in speziellen Teilen ihrer Zellen, den Chloroplasten. Dieser Prozess erzeugt zwei Dinge:

1. **Zucker (Glukose):** Dies ist die Nahrung der Pflanze, die ihr Energie zum Wachsen gibt.
2. **Sauerstoff:** Ein Gas, das die Pflanze wieder in die Luft abgibt, das Tiere (wie wir!) zum Atmen benötigen.

Einfach ausgedrückt: Pflanzen nutzen Sonnenlicht, Wasser und Luft, um ihr eigenes Essen zu machen und den Sauerstoff freizusetzen, den wir brauchen!

>
>

Beenden der Sitzung:

Wenn Sie mit dem Chatten fertig sind, geben Sie /bye ein und drücken Sie die Eingabetaste. Dadurch wird das Modell aus dem Speicher entladen und Sie kehren zu Ihrer regulären Terminal-Eingabeaufforderung zurück. Sie können auch oft Strg+D verwenden.

Auflisten heruntergeladener Modelle

Um zu sehen, welche Modelle Sie lokal heruntergeladen haben, verwenden Sie den Befehl ollama list:

ollama list

Die Ausgabe zeigt die Modellnamen, ihre eindeutigen IDs, Größen und wann sie zuletzt geändert wurden:

NAME            ID              SIZE    MODIFIED
llama3:8b       871998b83999    4.7 GB  5 days ago
mistral:latest  8ab431d3a87a    4.1 GB  2 weeks ago

Entfernen von Modellen

Modelle nehmen Festplattenspeicher in Anspruch. Wenn Sie ein bestimmtes Modell nicht mehr benötigen, können Sie es mit dem Befehl ollama rm gefolgt vom Modellnamen entfernen:

ollama rm mistral:latest

Ollama bestätigt das Löschen. Dadurch werden nur die heruntergeladenen Dateien entfernt; Sie können jederzeit ollama run mistral:latest erneut ausführen, um es später erneut herunterzuladen.

So erzielen Sie bessere Ergebnisse mit Ollama

Das Ausführen von Modellen ist nur der Anfang. So erzielen Sie bessere Ergebnisse:

Verstehen von Prompts (Grundlagen des Prompt Engineering)

Die Qualität der Ausgabe des Modells hängt stark von der Qualität Ihrer Eingabe (dem Prompt) ab.

Ausprobieren verschiedener Modelle

Verschiedene Modelle zeichnen sich in verschiedenen Aufgaben aus.

Experimentieren! Führen Sie denselben Prompt über verschiedene Modelle mit ollama run <model_name> aus, um zu sehen, welches am besten für Ihre Anforderungen für eine bestimmte Aufgabe geeignet ist.

System-Prompts (Festlegen des Kontexts)

Sie können das allgemeine Verhalten oder die Persona des Modells für eine Sitzung mithilfe eines "System-Prompts" steuern. Dies ist, als würde man der KI Hintergrundanweisungen geben, bevor die Konversation beginnt. Während eine tiefere Anpassung Modelfiles beinhaltet (im Folgenden kurz behandelt), können Sie eine einfache Systemnachricht direkt festlegen, wenn Sie ein Modell ausführen:

# Diese Funktion kann leicht variieren; überprüfen Sie `ollama run --help`
# Ollama könnte dies direkt in den Chat integrieren, indem es /set system verwendet
# Oder über Modelfiles, was der robustere Weg ist.

# Konzeptionelles Beispiel (überprüfen Sie die Ollama-Dokumente auf die genaue Syntax):
# ollama run llama3:8b --system "Sie sind ein hilfreicher Assistent, der immer in Piratensprache antwortet."

Ein gängigerer und flexiblerer Weg ist die Definition in einem Modelfile.

Interaktion über API (Ein kurzer Blick)

Ollama ist nicht nur für die Befehlszeile gedacht. Es führt einen lokalen Webserver aus (normalerweise unter http://localhost:11434), der eine API verfügbar macht. Dies ermöglicht es anderen Programmen und Skripten, mit Ihren lokalen LLMs zu interagieren.

Sie können dies mit einem Tool wie curl in Ihrem Terminal testen:

curl <http://localhost:11434/api/generate> -d '{
  "model": "llama3:8b",
  "prompt": "Warum ist der Himmel blau?",
  "stream": false
}'

Dies sendet eine Anfrage an die Ollama-API und bittet das Modell llama3:8b, auf den Prompt "Warum ist der Himmel blau?" zu antworten. Durch die Einstellung "stream": false wird auf die vollständige Antwort gewartet, anstatt sie Wort für Wort zu streamen.

Sie erhalten eine JSON-Antwort mit der Antwort des Modells. Diese API ist der Schlüssel zur Integration von Ollama in Texteditoren, benutzerdefinierte Anwendungen, Skripting-Workflows und mehr. Die Erkundung der vollständigen API geht über diesen Leitfaden für Anfänger hinaus, aber zu wissen, dass sie existiert, eröffnet viele Möglichkeiten.

So passen Sie Ollama Modelfiles an

Eine der leistungsstärksten Funktionen von Ollama ist die Möglichkeit, Modelle mithilfe von Modelfiles anzupassen. Ein Modelfile ist eine Nur-Text-Datei, die Anweisungen zum Erstellen einer neuen, angepassten Version eines vorhandenen Modells enthält. Stellen Sie es sich wie ein Dockerfile für LLMs vor.

Was können Sie mit einem Modelfile tun?

Einfaches Modelfile-Beispiel:

Angenommen, Sie möchten eine Version von llama3:8b erstellen, die sich immer als sarkastischer Assistent verhält.

Erstellen Sie eine Datei mit dem Namen Modelfile (keine Erweiterung) in einem Verzeichnis.

Fügen Sie den folgenden Inhalt hinzu:

# Erben von dem Basismodell llama3
FROM llama3:8b

# Legen Sie einen System-Prompt fest
SYSTEM """Sie sind ein sehr sarkastischer Assistent. Ihre Antworten sollten technisch korrekt sein, aber mit trockenem Witz und Widerwillen geliefert werden."""

# Passen Sie die Kreativität an (niedrigere Temperatur = weniger zufällig/konzentrierter)
PARAMETER temperature 0.5

Erstellen des benutzerdefinierten Modells:

Navigieren Sie im Terminal zu dem Verzeichnis, das Ihr Modelfile enthält.

Führen Sie den Befehl ollama create aus:

ollama create sarcastic-llama -f ./Modelfile

Ollama verarbeitet die Anweisungen und erstellt das neue Modell. Sie können es dann wie jedes andere ausführen:

ollama run sarcastic-llama

Wenn Sie jetzt mit sarcastic-llama interagieren, nimmt es die im SYSTEM-Prompt definierte sarkastische Persona an.

Modelfiles bieten ein großes Anpassungspotenzial, mit dem Sie Modelle für bestimmte Aufgaben oder Verhaltensweisen optimieren können, ohne sie von Grund auf neu trainieren zu müssen. Erkunden Sie die Ollama-Dokumentation für weitere Details zu verfügbaren Anweisungen und Parametern.

Behebung häufiger Ollama-Fehler

Obwohl Ollama auf Einfachheit abzielt, können gelegentlich Hürden auftreten:

Installationsfehler:

Fehler beim Modell-Download:

Ollama langsame Leistung:

Fehler "Modell nicht gefunden":

Ollama-Alternativen?

Es gibt mehrere überzeugende Alternativen zu Ollama für die lokale Ausführung großer Sprachmodelle.

Fazit: Ihre Reise in die lokale KI

Ollama öffnet die Türen zur faszinierenden Welt der großen Sprachmodelle und ermöglicht es jedem mit einem einigermaßen modernen Computer, leistungsstarke KI-Tools lokal, privat und ohne laufende Kosten auszuführen.

Dies ist erst der Anfang. Der wahre Spaß beginnt, wenn Sie mit verschiedenen Modellen experimentieren, sie mit Modelfiles an Ihre spezifischen Bedürfnisse anpassen, Ollama über seine API in Ihre eigenen Skripte oder Anwendungen integrieren und das schnell wachsende Ökosystem der Open-Source-KI erkunden.

Die Fähigkeit, anspruchsvolle KI lokal auszuführen, ist transformativ und stärkt Einzelpersonen und Entwickler gleichermaßen. Tauchen Sie ein, erkunden Sie, stellen Sie Fragen und genießen Sie die Leistungsfähigkeit großer Sprachmodelle mit Ollama direkt zur Hand.

💡
Want a great API Testing tool that generates beautiful API Documentation?

Want an integrated, All-in-One platform for your Developer Team to work together with maximum productivity?

Apidog delivers all your demans, and replaces Postman at a much more affordable price!
button

Explore more

Fathom-R1-14B: Fortschrittliches KI-Argumentationsmodell aus Indien

Fathom-R1-14B: Fortschrittliches KI-Argumentationsmodell aus Indien

Künstliche Intelligenz wächst rasant. FractalAIResearch/Fathom-R1-14B (14,8 Mrd. Parameter) glänzt in Mathe & Logik.

5 June 2025

Cursor 1.0 mit BugBot: KI-gestütztes Automatisierungstest-Tool ist da:

Cursor 1.0 mit BugBot: KI-gestütztes Automatisierungstest-Tool ist da:

Die Softwareentwicklung erlebt Innovationen durch KI. Cursor, ein KI-Editor, erreicht mit Version 1.0 einen Meilenstein.

5 June 2025

30+ öffentliche Web 3.0 APIs, die Sie jetzt nutzen können

30+ öffentliche Web 3.0 APIs, die Sie jetzt nutzen können

Der Aufstieg von Web 3.0: Dezentral, nutzerorientiert, transparent. APIs ermöglichen innovative dApps und Blockchain-Integration.

4 June 2025

Praktizieren Sie API Design-First in Apidog

Entdecken Sie eine einfachere Möglichkeit, APIs zu erstellen und zu nutzen