Local LLM

Ollama Local Inference

GPU-beschleunigte Lokal-Modelle

Frei laufend auf deinem DGX. Kein Token-Cost.

Beschreibung

Ollama ist die Lokal-Inferenz-Engine. Aktuell gemma3:27b + bge-m3 gepullt. Geplant: qwen2.5:32b, llama3.3:70b, mistral-nemo:12b, phi-4:14b, deepseek-coder:33b, llava:34b. Parallele Inferenz auf dem DGX SuperPOD via Triton/vLLM.

Features & Capabilities · 4 Punkte

F01

Pull/Push/Run via CLI + REST

F02

Modelfile-Customization

F03

Parallel-Inference

F04

GPU-Quantization Q4/Q5/Q8

API & Endpoints

API

http://ollama:11434/api/generate

Models

http://ollama:11434/api/tags

Use-Cases · 2 Beispiele

Wie das Tool real genutzt wird.

Default-Modell für NemoClaw -- $0 Cost

Embeddings für Qdrant via bge-m3

Tech-Stack

Go C++ CUDA

Compliance & Governance

100% lokal

keine Drittland-Daten