aTrain: Interviews automatisch transkribieren – KI statt stundenlanger Tipparbeit

Qualitative Forschung beginnt meistens mit einem guten Gefühl: Du hast deine Interviewpartner gefunden, die Gespräche laufen besser als erwartet, der Leitfaden hat funktioniert. Und dann kommt die bitterste Phase des ganzen Prozesses: Das Transkribieren.

Stunde für Stunde, Satz für Satz, Wort für Wort. Pause, zurückspulen, abtippen. Pause, zurückspulen, abtippen. Wer das schon gemacht hat, weiß: Ein 60-Minuten-Interview kostet dich bis zu 6 Stunden – und das bei jedem einzelnen Gespräch.

aTrain macht damit Schluss. Das Tool wurde von der Universität Graz entwickelt, ist vollständig Open Source, läuft ausschließlich lokal auf deinem Computer – und liefert Transkripte in wissenschaftlich verwertbarer Qualität.

Was ist aTrain – und warum ist es anders als andere Tools?

aTrain ist ein kostenloses, Open-Source-Transkriptionsprogramm, das auf dem KI-Modell Whisper von OpenAI basiert. Der entscheidende Unterschied zu Cloud-Diensten wie Otter.ai oder Descript: Die gesamte Transkription passiert lokal auf deinem Computer. Kein Dateiupload, kein Server, keine Cloud.

Das macht aTrain besonders für wissenschaftliche Arbeiten interessant, bei denen du unter Umständen sensible Interviews führst – etwa mit Patienten, Mitarbeitern, Minderjährigen oder zu vertraulichen Unternehmensthemen. Die DSGVO-Konformität ist bei aTrain strukturell gegeben, nicht nur versprochen.

🔒

100 % offline

Keine Daten verlassen deinen Computer. Keine Uploads, keine Cloud, keine Server-Verbindung während der Transkription.

🆓

Vollständig kostenlos

Kein Abo, kein Freemium, kein Limit. aTrain ist Open Source und wird von der Universität Graz entwickelt.

🌍

Mehrsprachig

Deutsch, Englisch und viele weitere Sprachen. Erkennt Dialekte und Akzente besser als viele kommerzielle Alternativen.

👥

Sprechertrennung

aTrain erkennt automatisch, wer spricht – Interview-Partner und Interviewerin werden im Transkript getrennt dargestellt.

⏱️

Zeitstempel

Jede Aussage wird mit Zeitstempel versehen – für schnelles Nachschlagen in der Audiodatei.

📄

Export-Formate

TXT, DOCX und SRT – direkt in Word weiterschreiben oder in MAXQDA und ATLAS.ti importieren.

Installation & Setup: So startest du in 10 Minuten

aTrain ist für Windows, macOS und Linux verfügbar. Die Installation ist unkompliziert – auch ohne technisches Vorwissen.

Download: Gehe auf github.com/BANDAS-Center/aTrain und lade die aktuelle Version für dein Betriebssystem herunter. Alternativ über die verlinkten Releases-Seite.
Installation: Setup-Datei starten und den Anweisungen folgen. aTrain lädt beim ersten Start das KI-Modell herunter (ca. 1–3 GB je nach gewähltem Modell) – nur einmalig nötig.
Modell wählen: aTrain bietet verschiedene Whisper-Modelle an. Für die meisten Thesis-Interviews empfiehlt sich „large-v3″ für beste Qualität bei deutschen Aufnahmen.
Sprache einstellen: Deutsch auswählen (oder „Automatisch erkennen“ für gemischtsprachige Interviews).
Sprechertrennung aktivieren: Die „Diarization“-Funktion einschalten, wenn du zwischen Interviewerin und Gesprächspartner unterscheiden willst.

💡 Systemanforderungen

aTrain läuft auf den meisten modernen Laptops. Mit einer dedizierten Grafikkarte (GPU) ist die Transkription deutlich schneller. Reine CPU-Transkription ist möglich, dauert aber länger – ein 60-Minuten-Interview kann auf einem normalen Laptop 30–60 Minuten dauern.

Dein erstes Transkript erstellen

Sobald aTrain eingerichtet ist, ist die Bedienung denkbar einfach:

Audiodatei laden: Dein Interview (MP3, WAV, M4A, MP4, FLAC) per Drag & Drop oder über „Datei öffnen“ in aTrain laden.
Einstellungen prüfen: Sprache, Modell und Sprechertrennung nochmal checken.
Transkription starten: Auf „Transkribieren“ klicken und warten. Laufzeit hängt von Aufnahmelänge und Rechenleistung ab.
Ergebnis prüfen: Das fertige Transkript erscheint direkt in aTrain mit Zeitstempeln und Sprechermarkierungen.
Exportieren: Als DOCX für Word, TXT für Textprogramme oder SRT für Untertitel-kompatible Weiterverarbeitung.

Transkriptionsqualität & Nachbearbeitung

aTrain liefert mit dem large-v3-Modell eine Erkennungsgenauigkeit, die bei klaren deutschen Aufnahmen bei 90–95 % liegt. Einige Faktoren beeinflussen die Qualität:

Aufnahmequalität: Ein gutes Mikrofon (z. B. Lavalier oder USB-Mikrofon) macht den größten Unterschied. Handyaufnahmen funktionieren, aber Hintergrundgeräusche senken die Genauigkeit.
Dialekt und Fachsprache: Starke Dialekte und Fachbegriffe können zu Fehlern führen. Bei sehr dialektlastigen Interviews immer nachkorrigieren.
Gesprächsrhythmus: Viele Überlappungen oder gleichzeitiges Sprechen erschwert die Sprechertrennung.

Transkript nachbearbeiten – so geht’s effizient

Eine vollständig fehlerfreie Transkription ohne Nacharbeit gibt es nicht – auch nicht bei aTrain. Das Ziel ist aber, den Nachbearbeitungsaufwand zu minimieren. Aus 6 Stunden manuell werden mit aTrain etwa 30–60 Minuten Korrektur:

Transkript als DOCX exportieren und in Word öffnen
Audio parallel in einem Player öffnen – Zeitstempel als Navigationshilfe nutzen
Unklare Stellen per „Suchen & Ersetzen“ systematisch durchgehen
Sprecherkürzel vereinheitlichen (I: für Interviewerin, IP: für Interviewperson)
Paraverbale Elemente ergänzen, falls in deiner Transkriptionsnotation erforderlich: (lacht), (zögert), (lange Pause)

💡 Transkriptionssystem wählen

Für die meisten qualitativen Thesis-Arbeiten reicht ein einfaches Transkriptionssystem (Gesprochenes wortgenau, Pausen markiert, keine Intonation). Das komplexe GAT2-System ist oft überdimensioniert und von den meisten Betreuern nicht erwartet. Frag vorher nach, was erwartet wird.

DSGVO und Datenschutz: Warum aTrain der sichere Weg ist

Das ist in der wissenschaftlichen Praxis eines der wichtigsten Argumente für aTrain. Bei Cloud-Transkriptionsdiensten lädst du Audiodateien auf fremde Server hoch – Audiodateien, die Stimmen und persönliche Aussagen echter Menschen enthalten.

Wenn du mit deinem Ethikantrag, deiner Einverständniserklärung oder deiner Hochschule keine ausdrückliche Erlaubnis für Cloud-Dienste eingeholt hast, bewegst du dich in einer rechtlichen Grauzone. Viele Hochschulen haben dazu inzwischen klare Richtlinien.

aTrain umgeht dieses Problem vollständig: Die Verarbeitung findet ausschließlich lokal statt. Kein Byte deiner Interviewdateien verlässt deinen Computer. Das kannst du deinem Betreuer, deiner Ethikkommission und deinen Interviewpartnern gegenüber klar kommunizieren.

⚠️ Bei Cloud-Tools immer prüfen

Dienste wie Otter.ai, Descript oder Rev laden deine Audiodateien auf US-amerikanische Server. Informiere dich vor dem Einsatz, ob deine Hochschule und deine Einverständniserklärung das abdecken – sonst riskierst du DSGVO-Probleme.

aTrain vs. andere Tools im Vergleich

Tool	Kosten	Offline	DSGVO-sicher	Sprechertrennung
aTrain	Kostenlos	✓ Ja	✓ Ja	✓ Ja
Otter.ai	Ab 8 €/Monat	✗ Nein	✗ US-Server	✓ Ja
Descript	Ab 12 €/Monat	✗ Nein	✗ US-Server	✓ Ja
Whisper (direkt)	Kostenlos	✓ Ja	✓ Ja	✗ Nein
f4transkript	Ab 6 €/Monat	✓ Ja	✓ Ja	✗ Nein

Zusammenfassung: Warum aTrain ein Muss für qualitative Arbeiten ist

✓

60 Minuten Interview in ~15 Minuten transkribiert – statt 4–6 Stunden Tipparbeit

✓

Vollständig kostenlos – kein Abo, kein Limit, kein Freemium-Gate

✓

100 % DSGVO-konform – keine Daten verlassen deinen Computer

✓

Automatische Sprechertrennung – Interviewerin und Interviewperson werden getrennt

✓

Export in DOCX – direkt in Word weiterbearbeiten oder in MAXQDA importieren

Keine Ahnung? Wir übernehmen die Arbeit.

Hausarbeit KI: Scanner, Check, Erkennung, Hochschulrecht und Alternativen – der vollständige Leitfaden 2026

Empirio: Umfragen für die Thesis erstellen, Teilnehmer finden & Daten auswerten