„KI hat großes Potenzial für die Wirtschaftsprüfung“
Herr Husemann, Computerprogramme auf Basis künstlicher Intelligenz können bereits heute die Finanzbuchhaltung erledigen und Steuererklärungen erstellen und nähern sich damit den Randbereichen der Wirtschaftsprüfung. Könnte die KI eines Tages sogar Ihren Job als Wirtschaftsprüfer übernehmen?
Auf dem Papier sieht es so aus, als wäre der Job von Wirtschaftsprüfer*innen auf Sicht von fünf oder zehn Jahren ernsthaft bedroht. Doch ich bleibe gelassen, weil ich grundsätzlich nicht von einem Dualismus zwischen Mensch und Maschine ausgehe, sondern von einem Miteinander. Wir bei Forvis Mazars setzen künstliche Intelligenz bereits an verschiedenen Stellen ein. Die Technologie hat großes Potenzial. Meine Aufgabe als Lead für Audit Innnovation ist es dabei, die Chancen der KI zu heben und so viel Prüfungsroutinen zu automatisieren wie möglich. Denn dann bleibt uns Prüfer*innen mehr Zeit für das Wichtigste: die Arbeit am und mit den Mandant*innen – von Mensch zu Mensch. Sorgen, dass mich die KI eines Tages ablösen könnte, mache ich mir nicht. Die KI wird immer an Grenzen stoßen, und zwar dort, wo ich menschlichen Sachverstand brauche. In Situationen, die die Maschine nicht kennt und daher nicht bewerten und einordnen kann – genau da werden echte und professionell geschulte Wirtschaftsprüfer*innen weiter eingreifen müssen. Weil eine Entscheidung getroffen werden muss, die noch nicht hundertmal in der Historie getroffen werden musste. Das kann eine KI nicht wirklich, weil ihr die statistische Basis und die Datengrundlage dafür fehlen. Die KI spielt ihre Stärke immer dann aus, wenn es darum geht, aus historischen Daten und Ereignissen Schlüsse im Hier und Jetzt zu ziehen.
Haben Sie ein konkretes Beispiel dafür, wo die KI aufgrund fehlender historischer Daten noch keine echte Hilfe darstellt?
Gern: Ein Mandant hat einen Rechtsstreit und ich als Prüfer muss beurteilen, ob der Mandant die entsprechende Rückstellung dafür richtig gebildet hat – für ein Verfahren, das unter Umständen noch nie entschieden worden ist. Oder wenn doch: vor langer Zeit, als die Rechtsprechung noch eine komplett andere war. Nehmen Sie an, bei jedem dritten Auto eines Elektrofahrzeugherstellers explodiert die Batterie. Elektroautos gibt es noch nicht lange genug, als dass eine KI gelernt haben könnte, was im Einzelfall eine Reparatur kostet, welche Umweltschäden entstehen, wie hoch das Risiko ist, dass Personen verletzt werden. Und, und, und. In dem Fall braucht es eine*n Verantwortliche*n aus dem Unternehmen, die*der eine mit kaufmännischem Sachverstand einigermaßen begründete Schätzung vornimmt. Und die Aufgabe von uns Wirtschaftsprüfer*innen ist es, diese Schätzung nachzuvollziehen, vielleicht noch mal zu challengen und herauszufinden, welche Faktoren vielleicht nicht oder zu wenig berücksichtigt worden sind, um sie am Ende mitzutragen.
Und die Überprüfung dieser Schätzung würden Sie von einer Maschine ablehnen, obwohl diese doch auf eine Menge an dafür relevanten Daten zugreifen kann?
Aber was hilft es denn, wenn diese Daten zu Rechtsverfahren aus, sagen wir, den USA stammen? Künstliche Intelligenzen sind unglaublich stark, wenn es darum geht, statistische Elemente aus der Vergangenheit zusammenzufassen und daraus Herleitungen vorzunehmen. Sie stoßen aber noch an Grenzen, wenn keine brauchbaren Daten vorliegen oder aus Daten anderer Quellen keine sinnvollen Rückschlüsse gezogen werden können.
Nochmals: Warum soll denn in diesem Beispiel die Schätzung eines Menschen im Sinne der kaufmännischen Vernunft besser sein als die einer KI? Am Ende werden doch auch die Richter*innen schätzen müssen.
Ich würde diese Einschätzung teilen, wenn es bereits Verfahren mit einem vergleichbaren Modell gäbe oder man Urteile aus anderen Ländern auf deutsche Verhältnisse anwenden könnte. Aber es wird Fälle geben, in denen das nicht möglich ist. Das Problem ist, dass ich als Wirtschaftsprüfer nicht weiß, mit welchen Daten die KI trainiert wurde und wie sie welche Datenpunkte genau beurteilt. Die Produkte von Anbietern, die erklärbare KI mit Quellen und Referenzen liefern, sind derzeit nicht so gut für die allgemeine Verwendung wie die Produkte der großen Anbieter. Diese verzichten jedoch meist auf Erklärbarkeit. Das heißt, ich kaufe eine Black Box und muss darauf vertrauen, dass die Maschine keine Verzerrungen vornimmt oder „halluziniert“, weil sie es selbst nicht weiß und einfach Daten nimmt, die ihr passend erscheinen. Die Maschine wird in einem unsicheren Sachverhalt immer wieder Schwierigkeiten haben, Entscheidungen zu plausibilisieren. Das kann ich in meiner Funktion als Wirtschaftsprüfer nicht mittragen.
Als Aufsichtsrät*in oder Kapitalgeber*in kann ich doch aber auch sagen: Was nützen endlose und teure Diskussionen um einen Betrag, der schlussendlich so oder so nicht genau stimmt? Lasst uns endlich zu einem Ergebnis kommen und weitermachen bei der Bilanzaufstellung.
Sicherlich spielt die Frage der Verhältnismäßigkeit eine Rolle. Aber wenn Sie einem Unternehmen Geld gegeben haben, gibt es Ihnen doch wahrscheinlich auch ein besseres Gefühl, wenn Menschen mit Sachverstand aus verschiedenen Blickwinkeln einen entscheidenden Sachverhalt diskutieren und dann zu einem gemeinsamen Ergebnis kommen – anstatt dass durch ein falsch trainiertes Modell oder falsche Daten Werte erfunden werden, die keinen Bezug zur Realität aufweisen. Es ist doch die intellektuelle Leistung, die hier entscheidend ist.
Menschen vertrauen Menschen. Aber heißt es wirklich, dass das Produkt beziehungsweise Ergebnis dadurch besser ist?
Ich denke, es kommt auf das Produkt an. Und wie gut ich eine KI trainieren kann. Sagen wir, es geht darum, einen Thermobecher zu designen. Dessen Lastenheft kann ich genau beschreiben, weil Millionen vergleichbarer Produkte verkauft worden sind. Das heißt, ich habe eine Menge Daten, mit denen ich die KI füttern kann. Dann ist die Wahrscheinlichkeit hoch, dass sie ein optimales Produkt erstellt. Das kann ein*e menschliche*r Designer*in gar nicht so gut. Sie*Er hat vielleicht auch noch einen eigenen Stil als Markenzeichen, macht zum Beispiel alles gerne rund, bunt und ausladend. Dann würde ich Ihnen zustimmen. Aber wenn es um unbekannte Sachverhalte geht, ist ein Mensch mit seinem Abstraktionsvermögen überlegen. Dann wäre ich als Kapitalgeber froh, wenn es Wirtschaftsprüfer*innen aus Fleisch und Blut gibt, die in diesem unbekannten Terrain eine fundierte Meinung haben. Menschen bevorzugen persönliche Verbindungen, und sie vertrauen anderen Menschen mehr als einer Maschine. Es geht um Vertrauen – gerade im sensiblen Feld der Wirtschaftsprüfung.
Sie erwähnten bereits, dass Sie die KI primär dort einsetzen, wo sie die Wirtschaftsprüfer*innen entlastet und ihnen Freiraum verschafft für die eigentliche Beratungsaufgabe. Wo genau kommen die smarten Maschinen zum Einsatz?
Der Impact von KI im Bereich Bilanzerstellung und Buchhaltung ist besonders groß. Aber es wird in diesen Bereichen auch künftig immer noch Menschen geben, die wissen, wie die Maschine arbeitet, und die sie entsprechend nutzen. KI ist eine wahnsinnig gute Technologie, die uns in Sphären bringen wird, die wir uns jetzt noch nicht ausmalen können. Menschen werden die Maschinen anleiten zu lernen, es wird weitere Entwicklungsfortschritte geben. Aber Maschinen allein werden wahrscheinlich die Arbeit nie allein erledigen können. Ein Mensch mit einer guten KI an seiner Seite wird immer erfolgreicher und genauer arbeiten als eine reine KI oder ein Mensch allein. Mein Credo lautet: Mensch plus Maschine statt Mensch vs. Maschine.
Was klappt heute schon gut mit KI – und was nicht?
Texte zusammenzufassen ist etwas, was heute mit der Maschine schon sehr gut gelingt. Ich kann auch gescannte Dokumente hochladen und die KI prüfen lassen, ob der Beleg den Anforderungen des Umsatzsteuerrechts genügt. Wunderbar! Was die Maschine nicht kann, ist beispielsweise Zuständigkeiten oder Zustände vor Ort prüfen. Wir wissen um diese Bedeutung spätestens seit dem Wirecard-Skandal. Irgendwann muss jemand prüfen, ob ein Beleg auch tatsächlich verschickt worden ist, ein Bestand real vorhanden ist oder ob er nur als Phantom im System steckt. Ein anderes Thema ist, in einem Firmengeflecht Querverbindungen und Verknüpfungen herzustellen und diese zu prüfen. Diese Gesamtbetrachtung fällt Maschinen umso schwerer, je größer das Firmengeflecht ist. Am Ende des Tages findet eine Mandantenbetreuung nicht nur auf fachlicher, sondern auch auf sozialer Ebene statt. Prüfer*innen sind auch Berater*innen und Sparringspartner – und sie hören zu.
Zur Person
Timo Husemann ist seit 2012 bei Forvis Mazars in Deutschland am Standort Frankfurt am Main in der Service Line Audit. 2022 wurde er in den Partnerkreis aufgenommen. Er ist Wirtschaftsprüfer, Steuerberater und Certified Information Systems Auditor.