Local LLM

Ollama Local Inference

GPU-beschleunigte Lokal-Modelle

Frei laufend auf deinem DGX. Kein Token-Cost.
Beschreibung

Ollama ist die Lokal-Inferenz-Engine. Aktuell gemma3:27b + bge-m3 gepullt. Geplant: qwen2.5:32b, llama3.3:70b, mistral-nemo:12b, phi-4:14b, deepseek-coder:33b, llava:34b. Parallele Inferenz auf dem DGX SuperPOD via Triton/vLLM.

Features & Capabilities · 4 Punkte
F01
Pull/Push/Run via CLI + REST
F02
Modelfile-Customization
F03
Parallel-Inference
F04
GPU-Quantization Q4/Q5/Q8
API & Endpoints
Use-Cases · 2 Beispiele

Wie das Tool real genutzt wird.

01
Default-Modell für NemoClaw -- $0 Cost
02
Embeddings für Qdrant via bge-m3
Tech-Stack
Go C++ CUDA
Compliance & Governance
100% lokal
keine Drittland-Daten