Infoseite Large Language Models: Konzept und Anwendung

Diese Infoseite gibt Ihnen einen Überblick über die grundlegenden Prinzipien und Einsatzmöglichkeiten sowie -grenzen von großen Sprachmodellen (sog. „Large Language Models“ bzw. „LLMs“). Auf der uniinternen KI-Plattform YoKI können Sie mit verschiedenen Open-Source-Sprachmodellen datenschutzkonform interagieren.

Was sind große Sprachmodelle?

Sprachmodelle sind eine grundlegende Klasse von Systemen der künstlichen Intelligenz, die in der Lage sind, menschliche Sprache maschinell zu verarbeiten und natürlichsprachliche Texte zu erzeugen oder auszulesen. LLMs wie GPT-4, LLaMA und Qwen verwenden sehr große und komplexe neuronale Netzstrukturen und umfangreiche Mengen von Textdaten, um damit statistische Muster in menschlichen Sprachen zu erkennen und diese in Aufgaben wie z.B. Texterstellung, Übersetzung, Zusammenfassungen und der Beantwortung von Fragen anzuwenden.

Was ist die Idee hinter großen Sprachmodellen?

Die Macht der Statistik

Große Sprachmodelle können Aufgaben in verschiedenen Bereichen mit minimalem oder gar keinem aufgabenspezifischen Training erledigen, indem sie auf allgemeines Wissen zugreifen, welches beim Vortraining kodiert wurde.

Ihre Fähigkeiten sind statistisch und mathematisch, nicht faktisch oder semantisch: Große Sprachmodelle „verstehen“ Texte nicht auf dieselbe Weise wie Menschen, da sie nicht über ein Bewusstsein verfügen. Sie können lediglich wahrscheinliche Fortsetzungen auf Grundlage der im Training gesehenen Daten voraussagen. Dahinter stecken sehr komplexe und ressourcenintensive mathematische Berechnungen, anhand derer das Sprachverhalten von Menschen so effektiv wie möglich nachmodelliert wird. Dementsprechend arbeiten LLMs nicht mit semantischen Bedeutungen von Wörtern wie wir, sondern mit mathematischen Darstellungen und vektorisierten Einheiten.
Kleine Einheiten bilden zusammen unsere gesamte Sprache: Bevor ein Text von einem LLM verarbeitet wird, wird er in kleinere Einheiten, sog. Tokens zerlegt. Tokens sind Texteinheiten und können Buchstaben- und Zeichenabfolgen, einzelne Wörter, Teile von Wörtern oder Sätze sein. Sie berechnen die Wahrscheinlichkeitsverteilung über mögliche nächste Token und wählen das wahrscheinlichste und im Kontext voraussichtlich passendste Token aus.

Von einzelnen Sequenzen zum gesamten Kontext

Moderne große Sprachmodelle verwenden eine sogenannte „Transformer-Architektur“. Diese Architektur ermöglicht es, Eingabesequenzen nicht Token für Token hintereinander zu verarbeiten, sondern parallel. Das bedeutet, dass das Modell alle Wörter oder Zeichen in einem Satz oder Paragraph gleichzeitig betrachtet. Dies ermöglicht es dem Modell, den Kontext eines Chatverlaufs über lange Sequenzen hinweg zu modellieren. Das Modell reagiert nicht nur auf ein einzelnes Wort oder einen Satz, sondern auch auf den gesamten Kontext des Gesprächs.

Ein typisches Anwendungsbeispiel

Stellen Sie sich vor, sie würden mit einem Sprachmodell über ein Buch schreiben. Aufgrund der Transformer-Architektur kann es

den Kontext Ihres Gesprächs über mehrere Sätze hinweg verstehen und den Inhalt vorheriger Eingaben verarbeiten
analysieren, wie Ihre Aussagen zueinander in Beziehung stehen und ggf. ein kleines Profil von Ihnen auf Basis des Chats erstellen.

Sie müssen dann zum Beispiel nicht mehr den Namen des Buchs im weiteren Verlauf des Gesprächs verwenden, sondern können weitere Fragen zu enthaltenen Figuren im Buch o.ä stellen. Das System versteht aufgrund der Kontextanalyse, ob sich ihre Fragen auf den vorherigen Kontext beziehen oder einen neuen Kontext erschaffen.

Was sind die Anwendungsgrenzen von großen Sprachmodellen?

Auch ein Sprachmodell kann „halluzinieren“

Ein großes Sprachmodell (und im Allgemeinen jedes generative System) „halluziniert“ dann, wenn es Inhalte produziert, die auf Laien zwar plausibel wirken, aber faktisch falsch oder frei erfunden sind. Man unterscheidet zwischen folgenden Fehlern:

Sachliche Fehler: Angabe von Ereignissen oder Fakten, die so nie stattgefunden haben oder teilweise ungenau oder falsch
Erfundene Inhalte: Erfinden von Zitaten, Titeln von Forschungsarbeiten und Veröffentlichungen oder historischen Fakten
Widersprüche: Gegensätzliche Antworten in unterschiedlichen Kontexten

Aufgrund ihrer statistischen Struktur können sie keine gesichert wahren Aussagen treffen, denn wahrscheinliche Antworten müssen nicht zwingend richtig sein. Sie sind nicht mit einer Datenbank verbunden oder wurden mit einem Wahrheitssystem implementiert, sodass sie sich ausschließlich auf Muster aus Trainingsdaten verlassen müssen, die in konkreten Anwendungsfällen irreführend sein können. In der Forschung nennt man das Anwenden von allgemeinen Mustern auf unpassende, spezifische Fälle „Übergeneralisierung“.

Warum treten Halluzinationen auf?

Neben der Ursachen, die auf die statistische Natur von LLMs zurückzuführen sind, gibt es einige weitere Ursachen für das Auftreten von Halluzinationen:

Ein Modell kann immer nur so gut sein wie die Datensätze, welche es im Training erhält. Insbesondere aktuelle Ereignisse können Sprachmodelle sehr schlecht verarbeiten, da die Trainingsdaten ab einem gewissen Zeitpunkt zeitlich „abgeschnitten“ werden müssen.
Die Mehrdeutigkeit einer User-Anfrage kann zu einer verminderten Qualität des Outputs führen, da das System nicht genau ermitteln kann, was gefordert wird.
Eine zu komplexe und umfangreiche Eingabe kann das Token-Fenster eines Modells überschreiten, sodass Informationen verloren gehen können.
Transformer-Modelle geben dem Textfluss grundsätzlich Vorrang vor der Wahrheit.
Bestimmte Dekodierungsmethoden, die nicht an den Einsatzkontext des Users angepasst sind, können Fehler verstärken.

Obwohl moderne große Sprachmodelle das Auftreten von halluzinierten Antworten weiter reduzieren, halluzinieren sie gelegentlich immer noch. Deshalb ist es wichtig, ein grundlegendes Verständnis von der Idee von großen Sprachmodelle und ihren Schwachstellen zu haben. Ihre Hauptaufgabe besteht in der Verarbeitung und Generierung von natürlichsprachlichen Texten.

Weitere Herausforderungen

Neben der technischen Herausforderungen gibt es weitere Bedenken, beispielsweise im Hinblick auf

toxische oder diskriminierende Sprache aufgrund von möglichen Biases in den Datensätzen
dem hohen und umweltschädlichen Energieverbrauch
Datenschutz und Urheberrecht (Welche Texte werden für das Training verwendet und geschieht dies im Einvernehmen mit den Urheber:innen? Wie wird mit sensiblen, personenbezogenen Daten in Eingaben umgegangen?)
Transparenz und nachvollziehbare Erklärbarkeit von Output bei rechtlichen Fragen.

Weshalb Open-Source-Modelle?

Die Verwendung von Open-Source-LLMs im forschungsnahen Umfeld bietet Vorteile wie:

erhöhte Transparenz für die Forschung
Reproduzierbarkeit von KI-Outputs
Unabhängigkeit von großen Techfirmen

Mit der zunehmenden Unterstützung für Tools wie vLLM und Ollama wird die Bereitstellung auch für einzelne Entwickler:innen zugänglich. Kommerzielle Modelle wie GPT-4, Claude und Gemini sind zwar sehr leistungsstark, Open-Source-Alternativen wie LLaMA 3.1 oder Qwen holen allerdings schnell auf. In der Linkleiste finden Sie eine umfangreichere Übersicht zu kommerziellen und Open-Source-Sprachmodellen.

Kommerzielle und Open-Source-Sprachmodelle im Vergleich:

Vergleichende Übersicht zu kommerziellen und Open-Source-Sprachmodellen

Tabelle

Zugang	leicht herunterladbar und Selbsthosting möglich	cloud-basiert und Zugang nur über API-Schnittstelle möglich
Kosten	kostenlos (Hardware wird zusätzlich benötigt)	Abonnement oder „Pay-per-call“-System
Anpassungsmöglichkeiten	vollständige, autonome Feinabstimmung und Quantisierung möglich	limitierte Anpassungseinstellungen
Datenschutz	lokale Verarbeitung	Cloud-Dienste von Drittanbietenden
Leistung	bei vielen Aufgaben fast so gut wie GPT-3.5	GPT-4-Niveau (Claude 3 immer noch am leistungsfähigsten)

English

Kontakt