Übersicht über kleine KI-Modelle, die sich für den lokalen Betrieb eignen

!-- RSPEAK_STOP -->
Inhaltsverzeichnis

Große Sprachmodelle (LLMs) sind nützlich und für viele aus dem Alltag nicht mehr wegzudenken. Durch ihre hohe Anzahl an Parametern haben sie viel Wissen gespeichert und können dadurch hervorragende Texte formulieren sowie Antworten auf Fragen aus den verschiedensten Themengebieten geben. Viele Parameter brauchen jedoch viel Speicher, und der ist gerade auf Grafikkarten besonders teuer – dabei können GPUs Sprachmodelle aufgrund der Parallelisierung der Aufgaben besonders schnell ausführen. Ist man nur an den Formulierungskünsten oder an Spezialwissen interessiert, wären also etwas kleinere Sprachmodelle (Small Language Models, SLMs) nützlich.

Die Grenze zwischen kleinen und großen Sprachmodellen ist nicht sonderlich scharf. Häufig zählt Metas Llama-Modell mit acht Milliarden Parametern zu den SLMs, andere Quellen setzen die Grenze bei vier Milliarden Parametern, was auch als Basis für diesen Artikel dienen soll.

iX-tract
  • Für große Sprachmodelle mit weniger als 10 Milliarden Parametern etabliert sich die Bezeichnung Small Language Model (SLM).
  • Aufgrund der geringeren Größe von SLMs lassen sich diese Modelle offline mit Grafikkarten, Laptop-CPUs oder auf Smartphones betreiben.
  • Feintunen und RAG sind zwei beliebte Anwendungsfälle für SLMs, wo ihre Größe und die niedrigere Quantisierungsstufe eine höhere Performance erlaubt.
  • Doch gerade bei diesen kleineren Modellen ist die Qualität der Trainingsdaten besonders wichtig. Im Vergleich mit den größeren Varianten neigen SLMs stärker zum Erfinden von Falschinformationen.
Mehr zu generativer KI und Language Models
  • Verschiedene Formate von Sprachmodellen im Überblick
  • Wie riesige Sprachmodelle auf praxistaugliche Maße schrumpfen
  • Small Language Models: Große Sprachmodelle werden klein
  • Kleine Sprachmodelle auf dem Vormarsch
  • Fünf Sprachmodelle im Vergleich mit ChatGPT
  • Vektorsuche mit den Datenbanken Qdrant und PostgreSQL im Vergleich
  • Fünf Vektordatenbanken für generative KI-Modelle im Test

Große Sprachmodelle speichern ihre Parameter in dem speziellen Format bfloat16, das man sich extra für tiefe neuronale Netze ausgedacht hat. Im Vergleich zum gebräuchlicheren float32 liegt hier eine niedrigere Genauigkeit vor, der Wertebereich ist aber identisch. Da Milliarden Parameter ohnehin nur approximativ justiert werden können, fällt diese Ungenauigkeit praktisch nicht ins Gewicht. Da heutige Consumer-GPUs über mindestens 8 GByte RAM verfügen, können sie in der bfloat16-Darstellung etwas weniger als 4 Milliarden Parameter verarbeiten, denn Zwischenergebnisse benötigen auch noch Platz.

Das war die Leseprobe unseres heise-Plus-Artikels "Übersicht über kleine KI-Modelle, die sich für den lokalen Betrieb eignen". Mit einem heise-Plus-Abo können sie den ganzen Artikel lesen und anhören.
Immer mehr Wissen.
Das digitale Abo für IT und Technik.
  • Alle exklusiven Tests, Ratgeber & Hintergründe
  • Ein Abo für alle Magazine: c't, iX, Mac & i, Make, c't Fotografie im Browser lesen und als PDF speichern
  • Wöchentlich schon ab 2,99 €. Rabatt für Magazin-Abonnenten und junge Leute
Passendes Angebot wählen Passendes Angebot wählen
heise+ bereits abonniert?
Anmelden und lesen Jetzt anmelden und Artikel sofort lesen
Dieser Link ist leider nicht mehr gültig.
Links zu verschenkten Artikeln werden ungültig, wenn diese älter als 7 Tage sind oder zu oft aufgerufen wurden.

Um diesen Artikel zu lesen, schließen Sie ein Probeabo ab und lesen Sie alle heise+ Inhalte für einen Monat kostenlos.
1 Monat gratis testen
Sie haben heise+ bereits abonniert? Hier anmelden.
Oder benötigen Sie mehr Informationen zum heise+ Abo
Das könnte Ihnen auch gefallen