GPU-beschleunigte Lokal-Modelle
Ollama ist die Lokal-Inferenz-Engine. Aktuell gemma3:27b + bge-m3 gepullt. Geplant: qwen2.5:32b, llama3.3:70b, mistral-nemo:12b, phi-4:14b, deepseek-coder:33b, llava:34b. Parallele Inferenz auf dem DGX SuperPOD via Triton/vLLM.