PlagAware hat im Fall von Jonas M. Alarm geschlagen. Das klingt nach zuverlässiger Technik. Die Realität hinter diesem Alarm ist deutlich nuancierter – und sie ist entscheidend dafür, was ein solches Ergebnis hochschulrechtlich bedeutet und was nicht.
Was KI-Detektoren eigentlich messen
KI-Erkennungstools analysieren keine inhaltliche Qualität und prüfen keine Quellen. Sie messen statistische Eigenschaften des Textes – und vergleichen diese mit Mustern, die für maschinell generierte Sprache charakteristisch sind. Zwei Metriken stehen dabei im Zentrum fast aller Systeme:
Perplexity misst, wie vorhersehbar die Wortwahl ist. Sprachmodelle wie ChatGPT wählen statistisch naheliegende Wörter – was zu niedriger Perplexity führt. Menschen schreiben variabler, individueller, gelegentlich überraschend – was die Perplexity erhöht. Das Problem: Auch Menschen können niedrige Perplexity erzeugen – wer sehr formal, konventionell und nach akademischen Standardformulierungen schreibt, landet in demselben Bereich wie ein KI-Text.
Burstiness misst die Variabilität der Satzlängen. Menschliches Schreiben ist stark variabel – kurze Sätze neben langen, kompakte Absätze neben ausschweifenden. KI-generierte Texte neigen zu gleichmäßigeren Satzlängenverteilungen. Auch hier gilt: Neuere Modelle wie GPT-4o oder Claude 3.7 produzieren natürlichere Varianz als ihre Vorgänger. Das Muster wird schwächer, je aktueller das genutzte Modell ist.
Aus diesen Metriken errechnen die Tools einen Wahrscheinlichkeitswert – keinen Nachweis, sondern eine Einschätzung. „87 % KI“ bedeutet nicht, dass 87 % des Textes maschinell erzeugt wurden. Es bedeutet, dass der Text in seiner statistischen Struktur zu 87 % einem KI-typischen Muster entspricht. Ein sehr formell schreibender Mensch kann denselben Wert erzeugen.
PlagAware: das System hinter dem Jonas-M.-Fall
PlagAware ist ein deutschsprachig ausgerichtetes Prüfsystem, das Plagiatserkennung und KI-Erkennung kombiniert. Im Unterschied zu den meisten internationalen Wettbewerbern wurde es explizit auf den DACH-Markt ausgerichtet – mit deutschen Textkorpora als Trainings- und Vergleichsbasis. Das macht PlagAware bei deutschen akademischen Texten methodisch passgenauer als Systeme wie GPTZero oder Originality.ai, die primär mit englischen Daten arbeiten.
Die Stärke von PlagAware liegt in der Kombination: Wenn ein Text sowohl einen erhöhten KI-Verdachtswert als auch Plagiatsübereinstimmungen aufweist – wie im Fall von Jonas M. –, entsteht eine konvergente Indizienlage, die deutlich belastbarer ist als jedes der Signale allein. Im Fallbeispiel war es genau diese Kombination, die das Verfahren in Gang gesetzt hat: kein Einzeltreffer, sondern zwei verschiedene Befunde aus demselben Prüflauf.
Auch PlagAware liefert trotz seiner Spezialisierung keine juristisch verwertbaren Beweise. Es liefert Hinweise – starke Hinweise im Kontext einer konvergenten Indizienlage, aber eben Hinweise.
Turnitin: das meistgenutzte System im Hochschulraum
Turnitin ist in europäischen Hochschulen am weitesten verbreitet, weil es als Plagiatsprüfungssystem bereits seit Jahren tief in die akademische Infrastruktur integriert ist. Die KI-Erkennungskomponente wurde 2023 hinzugefügt und ist seitdem automatisch in alle laufenden Turnitin-Lizenzen eingebaut – was bedeutet, dass viele Hochschulen KI-Erkennung einsetzen, ohne dies aktiv kommuniziert zu haben.
Turnitin gibt an, eine Erkennungsgenauigkeit von über 98 % für englischsprachige Texte zu erreichen. Diese Zahl bezieht sich auf englische Texte, englische Trainingsdaten, englische Kalibrierung. Für deutschsprachige Bachelorarbeiten liegt die tatsächliche Genauigkeit strukturell niedriger – weil deutsche Syntax andere statistische Eigenschaften hat und weil akademischer Stil im Deutschen andere Konventionen folgt als im Englischen. Unabhängige Studien haben für deutschsprachige Texte Falsch-Positiv-Raten von bis zu dreißig Prozent dokumentiert.
Das heißt im Klartext: Bei drei von zehn menschlich verfassten deutschen Bachelorarbeiten könnte Turnitin einen KI-Verdacht signalisieren, obwohl kein KI-Text vorhanden ist. Das macht das System zu einem Hinweisgeber, nicht zu einem Beweismittel.
Warum deutschsprachige Texte schwerer einzuschätzen sind
Deutschen akademischen Texten ist strukturell etwas eigen, das KI-Detektoren systematisch fehlleitet: die Fachsprachlichkeit. In Disziplinen mit engem Fachvokabular – Jura, Medizin, Ingenieurwesen – ist der verfügbare Wortschatz für einen bestimmten Gedanken stark eingeschränkt. Ein Jurist kann „Subsumtion“ nicht durch eine überraschendere Formulierung ersetzen. Diese erzwungene lexikalische Enge erzeugt niedrige Perplexity-Werte, die Tools als KI-typisch interpretieren – obwohl sie schlicht fachsprachlich notwendig sind.
Dazu kommt die Struktur deutscher Schachtelsätze: Langer, mehrgliedriger Satzbau mit Einschüben und Partizipialkonstruktionen ist in deutschen Wissenschaftstexten stilistisch erwartet, in englischen dagegen verpönt. Detektoren, die auf englische Normen kalibriert sind, können deutsche Komplexität als Anomalie interpretieren.
Was die Detektoren nicht sehen – und Prüfer schon
Das fundamentale Erkennungsproblem aller Software-Tools ist, dass sie Textoberflächen analysieren. Was sie nicht analysieren können: inhaltliche Substanz, argumentative Tiefe, Konsistenz über die Gesamtlänge der Arbeit, stilistische Kontinuität zu früheren Arbeiten desselben Studierenden – und die Fähigkeit, im Gespräch die eigene Argumentation zu vertreten.
Genau diese Elemente sind es, die erfahrene Prüfer erkennen. Jonas M. hat die PlagAware-Prüfung nicht allein wegen des Berichtswerts verloren. Er hat sie verloren, weil drei voneinander unabhängige Befunde zusammentrafen: der Bericht, die nicht verifizierbaren Quellen und das inhaltliche Scheitern im Nachfragegespräch. Kein dieser Befunde allein hätte ein Verfahren sicher begründet. Zusammen haben sie eine Indizienkette gebildet, der keine Stellungnahme mehr standhielt.
Was das für die eigene Praxis bedeutet
Wer eine menschlich verfasste Arbeit einreicht – eigenständig oder als Musterarbeit von efactory1.de –, muss sich um Detektor-Ergebnisse grundsätzlich keine Sorgen machen. Kein KI-typisches Muster, weil kein KI-Text vorhanden ist. Keine halluzinierten Quellen, weil ein menschlicher Fachautor recherchiert und verifiziert hat. Und eine inhaltliche Substanz, auf deren Basis das eigene Prüfungsgespräch vorbereitet werden kann.
Wer hingegen einen KI-Text einreicht und dabei auf die Unzuverlässigkeit der Detektoren vertraut, verkennt das eigentliche Risiko: Nicht der Scanner ist das Problem. Es ist die halluzinierte Quelle in Fußnote 34, die der Betreuer am nächsten Morgen nachschlägt.
Häufig gestellte Fragen: KI-Erkennung bei Bachelorarbeiten
Wie erkennt PlagAware KI-Texte in Bachelorarbeiten?
PlagAware kombiniert klassische Plagiatsprüfung mit KI-Erkennung durch Analyse statistischer Sprachmuster (Perplexity, Burstiness) und Vergleich mit bekannten KI-Textdatenbanken. Als deutschsprachig ausgerichtetes System ist PlagAware bei deutschen Texten methodisch robuster als viele englischsprachige Konkurrenten.
Wie zuverlässig ist Turnitin bei der KI-Erkennung in Bachelorarbeiten?
Turnitin beansprucht über 98 % Genauigkeit für englischsprachige Texte. Für deutschsprachige Bachelorarbeiten ist die Erkennungsrate strukturell niedriger, weil die Trainingsdaten primär auf Englisch kalibriert sind. Falsch-Positiv-Raten von bis zu 30 % bei deutschen Texten wurden in unabhängigen Studien dokumentiert.
Reicht ein positiver KI-Detektor-Bericht als Beweis für eine Täuschung?
Nein. Ein Detektor-Bericht allein ist nach herrschender Rechtsauffassung kein ausreichender Nachweis. Hochschulrechtlich belastbar ist erst die Kombination mehrerer Indizien: Detektor-Treffer plus nachgewiesene halluzinierte Quellen plus Scheitern im mündlichen Prüfungsgespräch.
Was ist der Unterschied zwischen PlagAware und Turnitin?
Turnitin ist international das weitest verbreitete System mit tiefer Hochschulintegration, aber primär auf englische Texte kalibriert. PlagAware ist auf den deutschsprachigen Markt ausgerichtet und zeigt bei deutschen akademischen Texten höhere methodische Passgenauigkeit. Beide liefern Wahrscheinlichkeitswerte, keine rechtssicheren Beweise.