Logo von jodbe.IT

Lokale KI Experimente Stable Diffusion und Ollama

Wer einen Gaming PC oder eine Grafic-Workstation besitzt kann damit nicht nur spielen oder arbeiten sondern auch begrenzt Versuche mit KI's machen.

Lesezeit: 1 Minuten
Headerbild erzeugt mit StableDiffusion
25.2.2025 Jochen Brehm

Dieser Artikel beschreibt Versuche mit einer NVidia Quadro RTX 4000 mit 8GB VRAM, die für das Ausführen von kleinen Bildgeneratoren oder Chatbots ausreichend Leistung hat. Wie CUDA geeignet eine NVidia GPU ist kann man auf der NVidia Developer Seite herausfinden.
Auf dieser sehr begrenzten Hardware lassen sich condensed Modelle der LLMs ausführen. Diesen Modellen fehlt leider das beeindruckende, umfassende Verständnis, das die großen Modelle von OpenAI, Meta oder DeepSeek zur Zeit leisten. Aber dafür kann man sie lokal auf nur einer flotten Grafikkarte ausführen und braucht kein klimatisiertes Rechenzentrum und viele NVidia A100 oder ähnliche Karten für utopische Summen. Trotzdem zeigen sie bei geschickt und einfach formulierten Prompts schon ganz passable Ergebnisse.

Bildgenerator Stable Diffusion

Eine kurze Recherche ergab, dass das Ausführen unter Windows Leistungsvorteile gegenüber Linux haben soll, da die Treiber unter Windows deutlich besser optimiert sind. Aus diesem Grund erfolgte mein erster Versuch auf Windows 11 in deutsch. Die python-Skripte kamen aber mit der deutschen Sprache nicht zurecht. Also folgte der nächste Versuch mit W11 in amerikanischem Englisch - das hat dann problemlos funktioniert.

W11-Englisch Bootstick mit MS mediacreationtool erstellen,
USB-Stick anstecken, Boot Menu aufrufen und vom Stick booten.
language english ->
time and currency english -> Next ->
Shift+F10 -> diskpart -> lis dis -> sel dis 0 -> cle -> exi -> exit
keyboard german -> Next ->
x Install W11 -> x I agree... -> Next ->
I don't have a product key -> Windows 11 Pro -> Next -> ### Lizenz in EFI BIOS
Accept ->
Disk 0 -> Next ->
Install ->

Netzwerkkabel ausstecken ->

...country or region Germany -> yes ->
...keyboard German -> yes -> Skip ->

Shift+F10 -> click
> net user admin geheim /add
> net localgroup Administrators admin /add
> cd oobe
> msoobe && shutdown -r
The user or password is incorrect -> Ok ->

...location -> No -> Accept ->
Find my device -> No -> Accept ->
Send diag... -> Required only -> Accept ->
Improve... -> No -> Accept ->
Get tailored... -> No -> Accept ->
Let apps use... -> No -> Accept ->

Win+i -> Rename -> kikiste -> Next -> Restart later ->
   Accounts -> Other users -> Add account -> user -> Password geheim -> Next ->
   System -> Remote Desktop -> On -> Confirm ->
   RD Users -> admin; user -> Check -> Ok ->

Netzwerkkabel anstecken ->

Firefox inst -> als Standardbrowser ->
7zip inst ->

Treiber (außer Grafikkarten-Treiber) aus der Sicherung installieren ->
nvidia.de -> Treiber -> Quadro RTX 4000, W11, Workstation -> Bei NVidia herunterladen und installieren
testen mit cmd -> nvidia-smi

reboot

Win+i -> Network -> Ethernet -> x Private network

Doku: github AUTOMATIC1111
Download github sd.webui.zip
   und entpacke es nach c:\sd
   update.bat starten -> More info -> Run anyway
   run bat starten -> More info -> Run anyway

Kopiere Modelle z. B. sd_xl_refiner_1.0.safetensors nach c:\sd\webui\models\Stable-diffusion    # Quelle: huggingface
starte c:\sd\run.bat

Nun kann im sich öffnenden Browserfenster ein Prompt - idealerweise in englischer Sprache - eingegeben werden und mit Klick auf den Generate-Button ein Versuch gestartet werden. Viel Spaß beim Experimentieren.

Zur Optimierung können in der Datei c:\sd\webui\webui-user.bat in der Variable COMMANDLINE_ARGS Parameter übergeben werden. Zur Installation des xformers-Pakets muss der ersten Aufruf mit
   set COMMANDLINE_ARGS=--xformers --reinstall-xformers
erfolgen. Nach der Installation reicht "--xformers".
Mit dem Parameter "--listen" veranlasst man SD, das webinterface auch über das Netzwerk anzubieten. (http://192.168.1.3:7860)
Der Parameter "--medvram" teilt SD mit, dass die GPU unter 10GB VRAM hat und veranlasst eine effizientere RAM Nutzung.
Bei mir sieht die Zeile momentan wie folgt aus:
   set COMMANDLINE_ARGS=--listen --xformers --medvram

Doku der Parameter: Github Wiki

Wie oben schon beschrieben fehlt den condensed Modellen das umfassende Verständnis der Sprache. Deshalb gilt es den Prompt in einfacher Sprache so zu formulieren, dass es vom Modell einigermaßen korrekt interpretiert werden kann. Ein "Batch count" von 4 zeigt ganz gut, was das Modell verstanden hat und in welche Richtung der Prompt korrigiert werden muss.

Chatbots

Chatbots sind ein weiteres spannendes Einsatzgebiet. Mit dem Commandline-Tool Ollama gelingt ein schneller Einstieg.

Von Ollama lädt man den Installer und installiert ihn. In einem cmd oder powershell Fenster kann man nun mit
   ollama run llama3.2
ein relativ kleines, nur 2 GB großes Modell von META, beim ersten Start herunterladen und ausführen und später auch starten. Nach dem Start kann man direkt in der Shell damit chatten.
Informationen zum Modell können direkt im Chatfenster (am Ollama Prompt ">>>") mit "/show info" abgerufen werden. Vor dem Start, direkt am Prompt der Windows-Shell, kommt man mit "ollama show llama3.2" an die selben Informationen.
Die Ollama shell kann mit
   /bye
verlassen werden.
Informationen über verfügbare Modelle findet man in der Ollama Library. Für den Versuch mit dem DeepSeek-R1:14b Modell werden 16 bis 32 GB RAM und eine High-end GPU, etwa RTX 4090, empfohlen. Ich habe es trotzdem versucht... etwas gemütlich, aber läuft. Sogar das DeepSeek-R1:70b läuft auf einem AMD Ryzen Threadripper 1900X mit 128GB RAM. Ein flüssiges Chatgefühl kommt hier nicht auf, wenn je Sekunde nur etwa ein Wort gedacht oder ausgegeben wird, dafür ist die Qualität der Antwort okay.

Die Modelle speichert Ollama im Userverzeichnis c:\Users\USERNAME\.ollama\models\blobs