UDE ChatAI im Test – Die studentische Monatszeitung der UDE

UDE goes AI: Seit einigen Wochen können Angehörige der Universität Duisburg-Essen (UDE) das KI-Portal ChatAI vom KI-Servicezentrum für kritische Infrastrukturen (KISSKI) und der Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen (GWDG) zugreifen. Unser Redakteur hat das Portal für eine Woche getestet und zieht Bilanz.

ChatGPT hat die Art, wie wir studieren, tiefgreifend verändert. Studierende draften Hausarbeiten, coden in R oder lassen ihre Grammatik überprüfen. Wer allerdings mit sensiblen Daten oder Forschungsergebnissen arbeitet, sollte vorsichtig sein, mit was er die Sprachmodelle füttert. Denn KI-Firmen wie OpenAI nutzen Nutzer:inneneingaben, um Modelle zu trainieren. Berichten zufolge wurde das zum Beispiel einigen Mitarbeitenden von Samsung zum Verhängnis¹, die geheimen Softwarecode von ChatGPT optimieren ließen. Wer also mit sensiblen oder vertraulichen Daten arbeitet, oder einfach seine:ihre Daten nicht an amerikanische Unternehmen weitergeben möchte, kann nun mit dem ChatAI-Portal auf in Deutschland gehostete Modelle zugreifen.

Das super-gehypte chinese made und open-source DeepSeek R1 Model gibt es natürlich auch bei ChatAI, leider aber mit den chinesischen Guardrails. So kann das Modell zwar keine Fragen zum Tian’anmen-Massaker beantworten, mit der Begründung, dafür entworfen zu sein, nützliche und harmlose (harmless) Antworten zu liefern, beantwortet aber großzügig Fragen über beispielsweise das Massaker von Mỹ Lai. Meiner Meinung nach ist eine so einseitige Zensur vor allem im Sinne der freien Forschung an einer Universität mehr als fragwürdig. Ansonsten sind die Antworten aber überzeugend und vor allem für Programmieraufgaben wirklich super zu gebrauchen.

Wer möchte, dass die Sprachmodelle größere PDFs zusammenfassen, muss sich mitunter gedulden. Schaffen die Modelle von OpenAI das meist in einer halben Minute, kann ich bei ChatAI gemütlich weiterarbeiten und nach fünf Minuten habe ich meistens schon vergessen, dass ich mal etwas in Auftrag gegeben habe. Eine 22-seitige PDF dauert mit DeepSeek R1 bis zu 10 Minuten, vor allem, weil die Verbindung oft nicht sehr stabil ist. Es ist sehr frustrierend, wenn nach minutenlangem Warten die Verbindung abreißt und man von neu beginnen muss.

Modelle von OpenAI sollen auch auf der Plattform der UDE zugänglich sein. Bisher habe ich davon aber noch nichts gesehen, wahrscheinlich, weil das monatliche Kontingent für diese Modelle aufgebraucht wurde.

Eine Sache, für die ich gerne Sprachmodelle benutze, ist das Erstellen von Cheat-Sheets für bestimmte Programmiersprachen oder zum Beispiel statistische Formeln. Die sind meistens besser als die aus dem Internet, weil sie viel präziser an meine Bedürfnisse angepasst sind. Das klappt bei ChatAI auch zuverlässig und auch das Erstellen von Codefragementen funktioniert. Nur welches Modell ist dafür am besten geeignet? Auf der Plattform gibt es eine Vielzahl von Modellen zur Auswahl – welches Modell eignet sich eigentlich für was?

Überforderung: Was ist ein Sauerkraut LM?

Warum müssen deutsche Entwickler:innen ihren Projekten eigentlich immer so bescheuerte Namen geben? Llama 3.1 Sauerkraut LM 70B Instruct ist ein auf die deutsche Sprache feingetuntes Sprachmodell, das auf dem Llama 3.1 70B Modell von Facebook-Mutter Meta basiert. Das erfahren Benutzende aber erst durch googeln oder beim Scrollen durch die Slides der Einführungsveranstaltungen des KI-Portals.² Für solche, die zufällig im AIChat-Portal über dieses Modell stolpern, klingt das eher so, als hätten hier Studierende einen Sauerkraut-Simulator in das Portal geschmuggelt. Allgemein fehlen meines Empfinden nach die Erklärungen, was die verschiedenen Modelle können. Wo ist der Unterschied zwischen DeepSeek R1 und DeepSeek R1 Distill Llama 70B? Und wann benutzt man eigentlich welches Modell?

Hier ein kurzer Überblick über die relevantesten Begriffe:

Die Zahlen hinter dem Modellnamen, zum Beispiel 8B oder 70B stehen für die Anzahl der Parameter, über die das jeweilige Modell verfügt. Ein 70B-Modell hat beispielsweise 70 Milliarden Parameter. Größere Modelle verfügen tendenziell über bessere Fähigkeiten, können also beispielsweise Texte stilsicherer zusammenfassen. Sie brauchen aber mehr Rechenleistung und Energie. Für simplere, klar definierte Aufgaben reicht aber auch ein kleineres Sprachmodell, was dann weniger Energie verbraucht. Hinter einigen Modellen im ChatAI-Portal findet sich die Bezeichnung Instruct. Das sind Modelle, die darauf trainiert sind, Anweisungen gezielt zu befolgen, anstatt einfach nur das wahrscheinlichste nächste Wort zu generieren. Dadurch liefern sie oft präzisere und strukturiertere Antworten, vor allem bei technischen oder erklärenden Fragen. Die LLM-Temperatur beeinflusst und bestimmt, ob die Ausgabe eher zufällig und kreativ oder eher vorhersehbar ist. Eine höhere Temperatur führt zu kreativeren Ausgaben, die Ausgaben mit niedrigerer Temperatur sind vorhersehbarer. Top_p steuert ebenfalls die Vielfalt des Outputs. Statt immer das wahrscheinlichste Wort zu wählen, berücksichtigt das Modell die wahrscheinlichsten Wörter bis zu der gewählten Schwelle. Ein niedriger Wert sorgt für präzise, kontrollierte Ausgaben, ein höherer Wert für mehr Variation. Aber welches Modell ist dann das Richtige? Hier ein kleiner Überblick.

Modellname	Entwickler	Gut für?
Llama 3.1 8BInstruct	Meta	Schnell, allgemeineNutzung, eher simplere Aufgaben
Llama 3.1 70BInstruct	Meta	Gutes Allrounder-Modell, kreativ und multilingual
Llama 3.1SauerkrautLM70B Instruct	VAGOsolutions und Meta	Basiert auf Meta Llama 3.1, auf deutsche Sprache optimiert
Llama 3.1Nemotron 70BInstruct	NVIDIA und Meta	Besser als Llama 3.1 70B
Mistral LargeInstruct	Mistral	Gutes Allrounder-Modell, für Coding und Sprache
Codestral 22BInstruct	Mistral	Auf Coding fokussiert
Qwen 2.572B Instruct	Alibaba Cloud	Globale Themen, Chinesisch, Mathematik, Logik
Qwen 2VL72B Instruct	Alibaba Cloud	Vision-Language Model, Chinesisch
InternVL2 8B	OpenGVLab	Vision-Language Model, klein und schnell, eher simplere Aufgaben

Ich mache mir schon Gedanken über den Energieverbrauch den meine KI-Nutzung verursacht (die ak[due]ll berichtete). Hier könnte das ChatAI-Portal einen wichtigen Beitrag leisten, den Energieverbrauch der Nutzer:innen zu verringern und gleichzeitig auch die Überforderung, die durch die Fülle von Modellen entsteht, die zur Verfügung stehen, verringern. Ein Routing-System, das Nutzende an das richtige KI-Modell verweist (z.B. kleinere Modelle bei kleineren Aufgaben oder ein auf die deutsche Sprache spezialisiertes Modell für Aufgaben auf Deutsch), könnten nicht nur den Energiebedarf deckeln und die Auslastung auf die Modelle besser verteilen, sondern auch der Bedienbarkeit helfen.

Abschließend lässt sich festhalten, dass das KI-Portal der Uni sicherlich ein Schritt in die richtige Richtung ist. KI-Modelle sollten frei zugänglich sein und gleichzeitig Datenschutz gewährleisten. Leider fehlt dem Portal eine vernünftige Anleitung vor allem in Bezug auf die Frage, wann welches Modell verwendet werden sollte.

Volker Strauß