100% sicher & trotzdem falsch: Warum ChatGPT & Copilot bei Steuerfragen versagen

Ein Steuerberater fragt seinen Microsoft Copilot nach dem Verpflegungsmehraufwand für die Schweiz. Die Antwort: 63 Euro. Auf Nachfrage bestätigt das Tool: "Das ist 100 % sicher." Nur steht im BMF-Schreiben vom Dezember 2025 ein anderer Betrag. Der Steuerberater hätte seinem Mandanten am Telefon die falsche Auskunft gegeben, hätte er nicht selbst nachgeschlagen.

Das ist kein Einzelfall und kein Zufall. Dass ChatGPT bei Steuerfragen falsch liegt, ist ein strukturelles Problem. In Beratungsgesprächen zur KI-Einführung in Steuerkanzleien hören wir diese Berichte mittlerweile regelmäßig: Kanzleien, die ChatGPT oder Copilot für steuerliche Recherche ausprobiert haben und dabei auf falsche Antworten gestoßen sind, die das Tool mit absoluter Überzeugung vorgetragen hat. Ein Steuerberater aus München berichtet, dass ChatGPT BFH-Urteile zitiert, die es gar nicht gibt – mit korrektem Aktenzeichen, korrektem Datum, aber komplett erfundenem Inhalt. Erst nach fünfmaligem Nachfragen räumte das Tool ein, dass die Angabe falsch war.

Das Problem ist nicht, dass generische KI gelegentlich Fehler macht. Das Problem ist, dass sie ihre Fehler mit einer Sicherheit vorträgt, die fachlich unzulässig ist – und dass Steuerberater diese Fehler in einem Kontext entdecken, in dem falsche Antworten reale Konsequenzen haben.

Warum generische KI bei Steuerrecht strukturell versagt

ChatGPT, Copilot und vergleichbare Tools sind Sprachmodelle. Sie wurden darauf trainiert, Texte zu vervollständigen, die statistisch plausibel klingen. Ihre Trainingsdaten umfassen Milliarden von Wörtern aus dem Internet – darunter auch steuerrechtliche Texte. Aber "statistisch plausibel" und "fachlich korrekt" sind zwei grundverschiedene Dinge, besonders im Steuerrecht.

Das Aktualitätsproblem

Steuerrecht ändert sich laufend. BMF-Schreiben, Gesetzesnovellen, neue BFH-Urteile – die Rechtsgrundlage, auf der ein Steuerberater arbeitet, verschiebt sich kontinuierlich. ChatGPT und Copilot haben einen festen Trainingsdatenschnitt. Was nach diesem Datum veröffentlicht wurde, existiert für das Modell nicht. Das BMF-Schreiben vom Dezember 2025 zu den Verpflegungsmehraufwendungen? Nicht im Modell. Die aktuelle Fassung der StBVV? Möglicherweise nicht. Die letzte Änderung im UStAE? Vielleicht, vielleicht nicht.

Für allgemeine Wissensfragen ist das tolerierbar. Für steuerliche Fachfragen, bei denen die korrekte Antwort von der geltenden Fassung eines spezifischen Paragraphen abhängt, ist es ein Ausschlusskriterium.

Das Quellenproblem

Wenn ein Steuerberater eine fachliche Aussage trifft, stützt er sich auf eine nachprüfbare Quelle: ein Gesetz, ein Urteil, ein BMF-Schreiben. Generische Sprachmodelle arbeiten anders. Sie generieren Antworten auf Basis statistischer Muster, nicht auf Basis von Quellenrecherche. Wenn ChatGPT ein BFH-Urteil zitiert, hat es dieses Urteil nicht nachgeschlagen. Es hat eine Zeichenfolge erzeugt, die wie ein BFH-Aktenzeichen aussieht, weil Aktenzeichen in seinen Trainingsdaten ein bestimmtes Muster haben.

Das erklärt, warum die zitierten Urteile manchmal korrekt sind (sie waren in den Trainingsdaten) und manchmal komplett erfunden (das Modell hat das Muster reproduziert, ohne dass das spezifische Urteil existiert). Für den Nutzer ist der Unterschied nicht erkennbar, es sei denn, er prüft jede Quelle manuell nach. Genau das tun die meisten aber nicht, weil der ganze Sinn der KI-Nutzung war, Zeit zu sparen.

Das Konfidenzproblem

Das vielleicht gefährlichste Strukturmerkmal generischer Sprachmodelle im fachlichen Kontext ist ihre fehlende Fähigkeit, Unsicherheit auszudrücken. Ein guter Steuerberater sagt: "Da bin ich mir nicht sicher, ich prüfe das." ChatGPT sagt: "Das ist 100 % sicher." Nicht weil es sich tatsächlich sicher ist – es hat kein Konzept von Sicherheit – sondern weil "Das ist 100 % sicher" eine statistisch wahrscheinliche Antwort auf die Nachfrage "Bist du dir sicher?" ist.

Das Ergebnis ist ein Tool, das sich nie unsicher zeigt, auch wenn es objektiv falsch liegt. In einem Kontext, in dem Fachleute es gewohnt sind, dass Sicherheit in der Aussage mit Verlässlichkeit der Antwort korreliert, ist das ein Vertrauensproblem mit potenziell haftungsrechtlichen Konsequenzen.

Was das für Ihre Kanzleipraxis bedeutet

Die Konsequenzen reichen weiter als ein falscher Pauschbetrag.

Mandanten kommen mit ChatGPT-Antworten

Ein Phänomen, das Kanzleiinhaber zunehmend berichten: Mandanten bereiten sich mit ChatGPT auf Beratungsgespräche vor und konfrontieren ihren Steuerberater mit den Ergebnissen. "ChatGPT sagt aber, das geht so" wird zur neuen Version von "mein Nachbar hat gesagt". Der Unterschied: ChatGPT formuliert seine Antworten so überzeugend, dass Mandanten ihrem Steuerberater weniger glauben als einer Maschine. In unseren Gesprächen mit Kanzleiinhabern schätzt ein erfahrener Steuerberater, dass rund 80 Prozent der steuerlichen Informationen, die Mandanten aus ChatGPT mitbringen, fachlich falsch oder zumindest unvollständig sind.

Das ist eine doppelte Belastung: Der Steuerberater muss nicht nur die richtige Antwort geben, sondern zusätzlich die falsche KI-Antwort widerlegen – und dabei erklären, warum er mehr weiß als eine Technologie, die vermeintlich das gesamte Wissen der Welt enthält.

Haftung bleibt beim Berufsträger

Unabhängig davon, woher eine falsche Auskunft stammt: Die Haftung liegt beim Steuerberater. Wer eine KI-generierte Antwort ungeprüft weitergibt und der Mandant erleidet dadurch einen Schaden, haftet nach den allgemeinen Grundsätzen der Steuerberaterhaftung. "Das hat die KI gesagt" ist kein Enthaftungsargument. Im Gegenteil: Wer ein Tool einsetzt, von dem bekannt ist, dass es fehlerhafte Ergebnisse produziert, und die Ergebnisse nicht prüft, handelt möglicherweise fahrlässig. Seit Februar 2025 verlangt zudem Art. 4 der EU-KI-Verordnung, dass alle Mitarbeiter, die KI-Systeme einsetzen, über ausreichende KI-Kompetenz verfügen – einschließlich des Wissens um die Grenzen dieser Systeme.

Der Effizienzgewinn wird aufgezehrt

Viele Kanzleien, die ChatGPT oder Copilot für steuerliche Recherche einsetzen, berichten von einem paradoxen Effekt: Die erste Antwort kommt schnell, aber die Verifizierung dauert genauso lang wie die manuelle Recherche. Wer jede Quelle, jedes Aktenzeichen und jeden Paragraphen nachprüfen muss, spart unter dem Strich keine Zeit. Der vermeintliche Effizienzgewinn schrumpft auf null – oder wird negativ, weil zusätzlich die falsche Antwort aus dem Kopf geräumt werden muss.

Wie ASCADI das Halluzinationsproblem löst

Das Kernproblem generischer Sprachmodelle bei Steuerrecht ist, dass sie Antworten generieren, statt sie nachzuschlagen. Genau hier setzt ASCADI an – die KI-Plattform von Visionary Data, die speziell für Berufsgeheimnisträger entwickelt wurde.

Quellenbasierte Antworten statt Textvervollständigung

Statt auf Trainingswissen zurückzugreifen, arbeitet ASCADI mit einer kuratierten Wissensbasis: die aktuelle StBVV, BMF-Schreiben, Gesetzestexte, BFH-Urteile und Fachkommentare. Der Tax Journalist Pro – ein spezialisierter Assistent innerhalb der ASCADI-Plattform – greift auf über 10.000 steuerrechtlich relevante Dokumente zu und liefert Antworten nicht auf Basis statistischer Muster, sondern auf Basis der tatsächlichen Quelle. Jede Aussage wird mit der konkreten Fundstelle verknüpft, sodass der Steuerberater mit einem Klick prüfen kann, ob die Antwort korrekt ist.

Der Unterschied in der Praxis: Wo ChatGPT ein BFH-Urteil zitiert, das möglicherweise nicht existiert, liefert ASCADI die Fundstelle mit Seitenzahl und Aktualitätsdatum. Eine Steuerberatungskanzlei, die den Tax Journalist Pro seit dem Beta-Launch im Einsatz hat, berichtet von einer Reduktion der Recherchezeit von zwei Stunden auf zwei bis drei Minuten – bei gleichzeitig höherer Zitierfähigkeit der Ergebnisse.

Aktualität durch laufende Pflege

Generische Modelle werden einmalig trainiert und dann eingefroren. Die Wissensbasis von ASCADI wird laufend aktualisiert – neue BMF-Schreiben, Gesetzesänderungen und Urteile werden eingepflegt. Das eliminiert das Aktualitätsproblem, das generische Modelle im Steuerrecht unbrauchbar macht. Dazu kommt: ASCADI vereint ChatGPT, Gemini, Anthropic und Mistral auf einer Plattform und routet über das eigene Modell Da Vinci automatisch zur jeweils stärksten KI für die jeweilige Aufgabe – ohne dass der Nutzer manuell zwischen Modellen wechseln muss.

§203-Konformität inklusive

Fachliche Verlässlichkeit allein reicht nicht – die datenschutzrechtliche Grundlage muss stimmen. ASCADI ist die einzige KI-Plattform am Markt, die eine §203-Geheimhaltungsvereinbarung mit jeder Kanzlei abschließt. Daten bleiben in der EU (Hosting in Frankfurt), werden nicht zum Modelltraining verwendet, und ein detailliertes Rollenrechte-Konzept stellt sicher, dass innerhalb der Kanzlei nur autorisierte Mitarbeiter auf sensible Informationen zugreifen. Multifaktor-Authentifizierung und ein öffentlich zugängliches Trust Center sind Standard.

Das bedeutet konkret: Steuerberater können mit Mandantennamen, Aktenzeichen und Sachverhaltsbezügen arbeiten, ohne vorher manuell anonymisieren zu müssen. Der Anonymisierungsaufwand, den viele Kanzleien als größte Hürde bei der KI-Nutzung beschreiben, entfällt.

Einen Überblick über alle Kriterien, nach denen sich KI-Tools für Steuerberater bewerten lassen, haben wir in einem separaten Vergleichsartikel zusammengestellt.

Was Sie jetzt tun sollten

Wenn Sie bereits ChatGPT oder Copilot für steuerliche Fragen nutzen, empfehlen sich drei Schritte.

Erstens: Prüfen Sie, wofür Sie generische KI einsetzen. Für allgemeine Aufgaben ohne Fachbezug (Formulierungshilfen, E-Mail-Entwürfe, allgemeine Zusammenfassungen) sind ChatGPT und Copilot brauchbare Werkzeuge. Für alles, was eine fachlich korrekte steuerliche Aussage erfordert – Recherche, Bescheidprüfung, Mandantenberatung – sind sie es nicht.

Zweitens: Etablieren Sie ein Verifizierungsprotokoll. Solange Ihre Kanzlei generische KI-Tools nutzt, muss jede fachliche Aussage manuell gegengeprüft werden. Der BStBK FAQ-Katalog KI vom Februar 2026 empfiehlt ausdrücklich, KI-Ergebnisse grundsätzlich einer fachlichen Plausibilitätsprüfung zu unterziehen. Ein schriftliches Protokoll ("KI-Ergebnisse werden behandelt wie der Entwurf eines Berufsanfängers") hilft, die nötige Skepsis aufrechtzuerhalten.

Drittens: Testen Sie ASCADI kostenlos. Die Plattform bietet eine zwei- bis dreiwöchige Testphase mit vollem Funktionsumfang, einschließlich der Steuerberatersuite. Kein Risiko, keine Mindestlaufzeit: Monatlich kündbar ab 35 Euro pro Lizenz, jährlich ab 26 Euro. Über 40 Steuerberatungskanzleien sind seit Jahresbeginn 2026 auf ASCADI umgestiegen – viele davon nach genau den Erfahrungen mit ChatGPT und Copilot, die dieser Artikel beschreibt.

Kostenlos testen: ASCADI für Steuerkanzleien →

Häufige Fragen

Warum gibt ChatGPT falsche Antworten bei Steuerfragen?

ChatGPT ist ein Sprachmodell, das Antworten auf Basis statistischer Muster erzeugt – nicht auf Basis juristischer Quellen. Es hat keinen Zugriff auf die aktuelle Fassung des EStG, der StBVV oder aktueller BMF-Schreiben. Steuerrecht erfordert jedoch exakte, quellenbasierte Antworten mit Bezug auf geltende Normen. Diese strukturelle Diskrepanz führt dazu, dass ChatGPT steuerliche Fragen mit hoher Konfidenz, aber ohne Verlässlichkeit beantwortet.

Ist Microsoft Copilot besser als ChatGPT für Steuerrecht?

Copilot basiert auf denselben Sprachmodellen wie ChatGPT und hat dieselben strukturellen Einschränkungen bei steuerlichen Fachfragen. Der Vorteil von Copilot liegt in der Integration in Microsoft-365-Anwendungen, nicht in der fachlichen Tiefe bei Steuerrecht. Die Erfahrungsberichte aus Kanzleien zeigen dasselbe Muster: plausibel klingende Antworten, die bei Gegenprüfung fehlerhaft sind.

Kann ich ChatGPT trotzdem in der Kanzlei nutzen?

Ja, aber nicht für steuerliche Fachfragen. Für allgemeine Aufgaben ohne Mandatsbezug – etwa Formulierungshilfen, Marketing-Texte oder interne Zusammenfassungen – ist ChatGPT ein brauchbares Werkzeug. Sobald steuerliche Expertise oder Mandantendaten ins Spiel kommen, brauchen Kanzleien fachspezifische und §203-konforme Lösungen. Entscheidend ist eine klare interne Richtlinie, die definiert, welche Aufgaben mit welchem Tool erledigt werden dürfen.