Visionary-Blog - alles rund um KI & Innovation

KI-Fehler im Steuerrecht: wenn KI plausibel falsch liegt

Geschrieben von Sebastian Sager | 17.06.26 18:17

Eine Kanzlei schickt eine Grundstücksschenkung durch ihren KI-Assistenten. Die KI erkennt zutreffend, dass die Schenkung schenkungsteuerlich begünstigt ist. Was sie nicht erkennt: dass ein vorbehaltener Nießbrauch als Auflage auf seinen Wert Grunderwerbsteuer auslösen kann, obwohl die Schenkung selbst von der Schenkungsteuer befreit ist. Die Antwort klang vollständig. Sie war es nicht. Genau das ist die Sorte Fehler, die im Steuerrecht teuer wird, und sie sieht aus wie eine richtige Antwort.

Die kurze Antwort auf die Frage, warum das gefährlich ist: Eine KI im Steuerrecht ist nicht dann riskant, wenn sie offensichtlich falsch liegt. Sie ist riskant, wenn sie plausibel falsch liegt. Sie übersieht eine Interdependenz zwischen zwei Steuerarten, erfindet ein Urteil mit echt klingender Fundstelle oder liefert beim ersten Treffer eine Zahl, die erst nach drei Nachfragen stimmt. Der Steuerberater, der sich darauf verlässt, haftet. Persönlich, zivilrechtlich, mit dem eigenen Namen. Worauf es ankommt, damit aus Hilfe kein Haftungsfall wird, steht weiter unten.

Der Fehler, der wie eine richtige Antwort aussieht

Bleiben wir bei der Schenkung, weil sie das Muster perfekt zeigt. Eine Grundstücksschenkung unter Lebenden ist grundsätzlich grunderwerbsteuerfrei, weil sie schon der Schenkungsteuer unterliegt. Das steht so in § 3 Nr. 2 Satz 1 GrEStG. So weit kommt fast jede KI. Der nächste Satz desselben Paragrafen ist der, an dem es kippt: Wird die Schenkung mit einer Auflage verbunden, etwa einem vorbehaltenen Nießbrauch oder einem Wohnungsrecht, unterliegt der Wert dieser Auflage der Grunderwerbsteuer, soweit sie bei der Schenkungsteuer abziehbar ist (§ 3 Nr. 2 Satz 2 GrEStG).

Der Bundesfinanzhof hat zu genau dieser Mechanik einen Leitsatz geliefert. In seinem Urteil vom 12.07.2016 (II R 57/14) ging es um ein vorbehaltenes Wohnungsrecht als Auflage, also um einen nah verwandten Auflage-Typ. Entschieden hat der BFH dort: Maßgeblich ist allein, ob die Auflage bei der Schenkungsteuer abziehbar ist, nicht, ob sie tatsächlich abgezogen wurde, und das selbst dann, wenn die Grundstücksschenkung insgesamt von der Schenkungsteuer befreit ist. Das Anknüpfen an die bloße Abziehbarkeit ist der allgemeine Mechanismus des § 3 Nr. 2 Satz 2 GrEStG und gilt über das Wohnungsrecht hinaus; auf den vorbehaltenen Nießbrauch als gleichgelagerte Auflage überträgt sich das Prinzip entsprechend. Wer diese eine Verbindung zwischen zwei Steuerarten übersieht, übersieht eine ganze Steuer.

Ein Steuerberater hat es uns ungefähr so beschrieben: Die KI hat die Schenkungsteuer erkannt, aber dass der Nießbrauch Grunderwerbsteuer auslöst, hat sie übersehen. Das bleibt ein Helferlein. Das ist der ehrliche Stand. Eine generische KI prüft die Frage, die du stellst. Sie prüft nicht die zweite Steuerart, an die ein erfahrener Berater bei diesem Stichwort automatisch denkt. Die Lücke ist nicht laut. Sie ist still, und sie steht nicht in der Antwort.

Steuererratung statt Steuerberatung

Eine Kanzlei hat dafür einen Begriff geprägt, der hängenbleibt: Steuererratung statt Steuerberatung. Die Sorge dahinter ist, dass ein Chatbot einfach generalisiert antwortet, souverän im Ton, dünn in der Sache. Und das trifft einen Punkt, den die meisten Demos überspringen. Eine KI, die auf jede Frage flüssig antwortet, ist leicht zu bauen. Eine, deren Antwort einen steuerlichen Sachverhalt wirklich zu Ende denkt, ist die eigentliche Aufgabe.

Dazu kommt ein zweites Muster, das Kanzleien aus der Praxis kennen. Bei komplexen Erstabfragen ist der erste Treffer oft unvollständig oder schlicht falsch. Verlässlich wird es erst nach mehreren Iterationen, mit viel mitgegebenem Kontext. Ein Berater, der weiß, wie die richtige Antwort aussehen muss, merkt das und hakt nach. Ein Mitarbeiter, der die KI als Auskunft nimmt, übernimmt den Erstaufschlag. Genau da entsteht der Schaden, schon bei der ersten Antwort, lange vor der dritten. Wir haben das Grundproblem im Beitrag dazu beschrieben, warum ChatGPT bei Steuerfragen falsch liegt.

Warum erfundene Urteile für Steuerberater anders wiegen

Es gibt eine Angst, die im Steuerrecht konkreter ist als anderswo: dass die KI Urteile erfindet, die es gar nicht gibt. Mit Aktenzeichen, mit Datum, mit einer Fundstelle, die echt aussieht. Ein Steuerberater hat es uns so gesagt: Es gibt Horror-Storys, dass die KI Urteile erfindet, und als Steuerberater hafte ich direkt, das kann ich mir nicht leisten.

Das ist eine dokumentierte Klasse von Fehlern. Im US-Fall Mata v. Avianca reichten zwei Anwälte einen Schriftsatz ein, in dem ChatGPT mehrere Gerichtsentscheidungen samt Zitaten frei erfunden hatte. Eine als zentral angeführte Entscheidung existierte nicht. Das Gericht verhängte 2023 eine Sanktion. Das ist ein Anwaltsfall aus den USA, kein deutscher Steuerpräzedenzfall, aber das Muster ist exakt dasselbe: Das Modell produziert eine Fundstelle, weil eine Fundstelle an dieser Stelle plausibel ist, nicht weil es sie gibt.

Und hier liegt der Unterschied, der Steuerberater härter trifft. Wer schuldhaft fehlerhaft berät, haftet für den daraus entstehenden Schaden. Das ist die allgemeine Regel aus § 280 Abs. 1 BGB, und der Steuerberatungsvertrag ist genau so ein Schuldverhältnis. Dass der Berufsstand das Risiko ernst nimmt, steht im Gesetz selbst: Jeder selbständige Steuerberater muss eine Berufshaftpflichtversicherung gegen Vermögensschäden unterhalten (§ 67 StBerG). Eine falsche Auskunft bleibt nicht bei der KI hängen. Sie landet bei dem, der unterschreibt.

Was Nachvollziehbarkeit konkret heißt

Die brauchbare Antwort auf halluzinierte Quellen ist banal und wird trotzdem ständig falsch gebaut: Jede fachliche Aussage muss zu einer echten, datierten, verlinkten Quelle führen, die du in zehn Sekunden gegenprüfst. Kanzleien fordern genau das ein. Eine hat bemängelt, dass Quellen nicht direkt verlinkt sind und die Jahresangaben bei den Rechtsgrundlagen inkonsistent wirken, das müsse nachvollziehbar sein. Das ist der einzige Weg, eine KI-Antwort im Steuerrecht überhaupt verantworten zu können.

Eine Quelle, die der Berater mit einem Klick öffnet, verschiebt die Arbeit an die richtige Stelle. Die KI schlägt vor und legt offen, woher die Aussage kommt. Der Mensch entscheidet und prüft den Beleg. Eine KI ohne nachprüfbare Fundstelle dreht das um: Sie zwingt den Berater, einer Behauptung zu vertrauen, die er nicht verifizieren kann. Bei einer Pauschale geht das vielleicht gut. Bei einem Urteil, das über eine zweite Steuerart entscheidet, nicht. Wie sich die Tools darin unterscheiden, haben wir im Vergleich der KI-Tools für Steuerberater auseinandergenommen.

Was Fachtiefe anders macht

Der Unterschied zwischen einer generischen KI und einer, die das Fach mitführt, zeigt sich genau an den Stellen oben. Eine Kanzlei hat uns einen Fall geschildert, der das umdreht: Der Steuergeneralist Pro fand ein kritisches Urteil, das sie bei der Handrecherche übersehen hatten. Der Grund war Tiefe, kein Tempo. Das Steuerberatungswissen läuft im Hintergrund mit und zieht bei dem Sachverhalt die passende Entscheidung mit. Aus einer übersehenen Interdependenz wird so ein Treffer statt einer Lücke.

Genau dafür ist ASCADI gebaut. Der Steuergeneralist Pro führt das Steuerberatungswissen im Hintergrund mit, bis hin zum Buchungs-Fachwissen, und liefert dadurch auch bei normalen Anfragen Antworten, die den Sachverhalt zu Ende denken statt ihn zu generalisieren. Belege werden offengelegt, damit der Berater prüft statt blind vertraut. Das macht die KI nicht zum Steuerberater. Sie nimmt die Recherche und das erste Sortieren ab, und das Urteil bleibt, wo es hingehört.

Die ehrliche Grenze gehört dazu: Auch eine fachtiefe KI ersetzt nicht die Prüfung durch einen Menschen, und sie soll es nicht. Wer daraus den Schluss zieht, KI im Steuerrecht dann eben ganz zu lassen, verschiebt das Problem nur an eine Stelle, die niemand mehr sieht. Denn die Wahl heißt längst kontrollierte, nachprüfbare KI oder stiller Wildwuchs: Mitarbeiter nutzen ChatGPT und Co. dann über private Accounts, und niemand prüft mehr, woher eine Antwort stammt. Die eigentliche Frage ist also nur, ob das Tool dir die Prüfung leicht oder unmöglich macht. Wenn dein Assistent dir morgen ein Urteil nennt, das über eine Steuer entscheidet: Könntest du in zehn Sekunden nachsehen, ob es das wirklich gibt?