Maschinelle Lernverfahren als Benchmarking für klassische Ratingverfahren

Prof. Dr. Volker Reichenberger Foto: ESB

Eine Herausforderung im Rahmen aufsichtsrechtlicher Bankenprüfungen, regelmäßiger Validierungen und interner Revisionsprüfungen ist nach Ansicht der beiden Autoren die Prognosefähigkeit eines Ratingverfahrens als objektiv und belastbar zu beurteilen. In ihrem Beitrag untersuchen sie deshalb die unterschiedlichen Vor- und Nachteile maschineller Lernverfahren für die Kreditrisikomessung gegenüber den klassischen Ratingverfahren. Diese seien ein pragmatisches Werkzeug für Validierungseinheiten und interne Revision. Nach genauer Überprüfung der Verfahren kommen sie zu dem Schluss, es sei nicht mehr eine Frage, ob, sondern vielmehr wann die maschinellen Lernverfahren zu einem selbstverständlichen Bestandteil der Kreditrisikomessung werden. (Red.)

Im Rahmen aufsichtsrechtlicher Bankenprüfungen, regelmäßiger Validierungen und interner Revisionsprüfungen besteht die Herausforderung, die Prognosefähigkeit (das heißt im Wesentlichen die Trennschärfe) eines Ratingverfahrens objektiv und belastbar zu beurteilen. Aufgrund des hohen Entwicklungsaufwandes und in Ermangelung anderer Modellansätze wird dabei meist auf einfache Plausibilitätsargumente zurückgegriffen, wie zum Beispiel ökonomisch verargumentierbare Wirkungsrichtungen.

Bei geringen Trennschärfen gibt es aber zumeist keine einfache Möglichkeit, die entscheidende Frage zu beurteilen, ob auf den vorhandenen Daten grundsätzlich eine bessere Trennschärfe erzielbar sei - sei es durch eine geeignete Modellüberarbeitung oder durch Verwendung eines gänzlich anderen Modells. Eine mögliche Lösung für dieses Problem besteht darin, unter minimalem Aufwand ein leistungsfähiges Benchmarking-Modell heranzuziehen, das als Vergleichsmaßstab für die Trennschärfe des bestehenden Modells dient.

Etablierte und neue Prognoseverfahren

Die weit überwiegende Mehrheit der klassischen Ratingverfahren, die im Kreditgeschäft von Banken zur Anwendung kommen, basieren heute auf Regressionsverfahren. Dies hat gute Gründe: Regressionsrechnung ist ein etabliertes, gut verstandenes statistisches Verfahren. Ferner gibt es vielfältige Methoden, um die Qualität und Performance eines Regressionsverfahrens einschätzen und validieren zu können. Auf der anderen Seite jedoch erfordern diese Regressionsverfahren häufig eine aufwendige Aufbereitung der Daten (beispielsweise Entfernung von Ausreißern, Clustering von Merkmalen oder ähnliches), welche oftmals einen beträchtlichen Aufwandstreiber bei Entwicklungsprojekten in Banken darstellt. Darüber hinaus fordert die Theorie der Regressionsrechnung verschiedene statistische Voraussetzungen an die Datengrundlage (Normalverteilung der Residuen, Homoskedastizität), die in der Praxis meist nicht erfüllt sind.

An dieser Stelle lohnt ein Blick auf alternative statistische Verfahren aus dem Bereich des maschinellen Lernens, die in den letzten Jahren starkes Interesse auf sich gezogen haben. Noch sind sie in Banken eher selten als Instrumente der Risikomessung anzutreffen; tatsächlich testen aber viele Risikomanagementeinheiten derzeit diese Methoden.

Vorausschickend soll gesagt sein, dass die Verwendung alternativer Verfahren nicht notwendig mit dem Anspruch einhergeht, deutlich bessere Trennschärfen zu liefern. Sauber umgesetzte Scorekarten auf Basis von Regressionsverfahren werden von alternativen Verfahren häufig nicht wesentlich übertroffen (falls doch, so ist dies ein Hinweis auf eine Modellschwäche, die gegebenenfalls durch eine Überarbeitung des Regressionsverfahrens behoben werden kann). Die Vorteile maschineller Lernverfahren sind vielmehr darin zu sehen, dass diese mit deutlich weniger Entwicklungsaufwand einsetzbar sind, was größtenteils daran liegt, dass die Daten weniger aufwendig aufbereitet werden müssen. Die angesprochenen Verfahren sind seit Jahren oder Jahrzehnten etabliert und prinzipiell leicht zu verstehen. Es sei zu Illustrationszwecken das Beispiel betrachtet, dass für einen Datensatz von Kreditnehmern, von denen jeder zweite im letzten Jahr ein Ausfallereignis aufwies, die Merkmale Alter und Einkommen bekannt sind. Ein Klassifikationsverfahren hat dann die Aufgabe, für neue Kreditnehmer auf Basis dieser beiden Merkmale vorherzusagen, ob sie der Klasse "ausgefallen" oder "nicht ausgefallen" zuzuordnen sind (Abbildung). Wie kann eine solche Aufteilung durchgeführt werden?

Übersicht der Verfahren

Ein einfaches hierfür infrage kommendes Verfahren und ein wichtiger Baustein moderner Lernverfahren sind sogenannte Entscheidungsbäume. Um diese zu "trainieren", werden parallel zu den Merkmalsachsen "Schnitte" durch den Datensatz gelegt (welcher in unserem Beispiel einer Punktemenge in der zweidimensionalen Ebene entspricht). Die entstehenden Teilbereiche werden ihrerseits weiter unterteilt, bis eine zufriedenstellende Zuordnung erreicht ist. Entscheidungsbäume sind hinsichtlich ihrer Wirkungsweise sehr gut interpretier- und nachvollziehbar und kommen deshalb in der Praxis häufig zum Einsatz. Allerdings ist ihre Prognosegüte oft vergleichsweise gering. Ferner kann eine unerwünschte Überanpassung an das Trainingssample (overfitting) auftreten, wenn sehr tiefe Entscheidungsbäume irreguläre Muster abbilden.

Um die Prognosegüte zu verbessern, setzen moderne Lernverfahren daher Entscheidungsbäume geringer Tiefe oder andere "schwache" Lernverfahren (Weak Learners) nur als Basisbausteine ein. So bezieht zum Beispiel der Ada-Boost-Algorithmus, der oft als das beste Outofthebox-Klassifizierungsverfahren bezeichnet wird, seine Stärke aus der Kombination mehrerer solcher Weak Learners. Dabei wird der erste weak learner auf den Originaldaten trainiert, während der jeweils nächste Weak Learner die von seinem Vorgänger falsch klassifizierten Datenpunkte mit höherer Gewichtung berücksichtigt. Analog berücksichtigen alle nachfolgenden Weak Learners die von ihren Vorgängern falsch klassifizierten Punkte mit höherer Gewichtung. Nachdem alle Weak Learners auf diese Weise trainiert wurden, werden ihre jeweiligen Prognosen zu einer gesamthaften Prognose mittels Durchschnittsbildung verdichtet. Ada Boost stellt somit ein Beispiel für Ensemblemethoden dar, die verschiedene schwache Lernverfahren zu einem starken kombinieren.

Eine weitere Ensemblemethode sind die sogenannten Random Forests. Hier werden verschiedene Entscheidungsbaummodelle dadurch erstellt, dass jeder Entscheidungsbaum nur eine Teilmenge der Daten und eine Teilmenge der Prädiktoren (das heißt der verfügbaren Merkmale) verwendet. Die Prognose erfolgt dabei ebenfalls über Durchschnittsbildung der jeweiligen Prognosen der einzelnen Entscheidungsbäume. Alternativ lässt sich das Verfahren auch leicht unter der Verwendung von Regressionsmodellen als Weak Learners durchführen. Ein anderer Ansatz ergibt sich, wenn die "Schnitte" nicht notwendigerweise parallel zu den Merkmalsachsen verlaufen müssen. Support Vector Machines (SVM) sind ein Beispiel für ein Verfahren, das optimale lineare oder nichtlineare Separierungen des Trainingsdatensatzes ermittelt - allerdings mit einem deutlich erhöhten algorithmischen Aufwand.

Die Wirkungsweise der verschiedenen Verfahren sind in der Abbildung grafisch dargestellt. Nicht eingegangen werden soll an dieser Stelle aus Platzgründen auf künstliche neuronale Netze, die einen eigenen, gut etablierten Forschungszweig bilden und ebenfalls vielfältige Anwendungsbereiche in der Finanzindustrie finden.*

Vor- und Nachteile

Die dargestellten Algorithmen sind nur Beispiele für die Vielzahl maschineller Lernverfahren, die allesamt eine hohe Prognosegüte aufweisen und somit theoretisch als alternative Methoden für die Entwicklung von Ratingverfahren in Banken infrage kommen. Auch in der Praxis liegt eine solche Verwendung nahe, da diese Verfahren inzwischen in den meisten bei Banken verbreiteten Statistiksystemen (zum Beispiel SAS, R und zunehmend auch Python) verfügbar und einfach umsetzbar sind. Aufgrund des bereits erwähnten gegebenenfalls deutlich geringeren Aufwands bei der Datenaufbereitung ist zudem von reduzierten Entwicklungsaufwänden gegenüber klassischen regressionsbasierten Scorekartenentwicklungen auszugehen.

Gegenüber den genannten Vorteilen weisen die fortgeschrittenen maschinellen Lernverfahren jedoch eine gemeinsame Einschränkung auf: sie sind in ihrer Wirkungsweise weniger transparent und daher schlechter zu interpretieren als klassische Verfahren. Dies birgt die Gefahr mangelnder Akzeptanz solcher Verfahren sowohl bei den Anwendern in der Bank als auch bei Aufsicht, Wirtschaftsprüfern oder interner Revision.

Anwendungsbereiche moderner Verfahren

Um die Vor- und Nachteile maschineller Lernverfahren gegenüber den klassischen Ratingverfahren zu untersuchen, werden von den Autoren an der ESB Business School der Hochschule Reutlingen maschinelle Lernverfahren für die Kreditrisikomessung untersucht. So wurden zum Beispiel anhand von Kreditnehmerdaten der Peer-to-peer Lending Plattform Bondora verschiedene Methoden im Rahmen einer Thesis miteinander verglichen. Es zeigte sich zwar, dass Ada Boost und Random Forests geringfügig bessere Trennschärfen lieferten als Support Vector Machines oder logistische Regression.

Diese nur leicht verbesserte Prognosequalität wiegt allerdings nicht die signifikanten Einbußen hinsichtlich der Interpretierbarkeit auf und rechtfertigt somit gesamthaft nicht die Ablösung der klassischen Methoden in Banken. Die eigentliche Stärke der modernen maschinellen Lernverfahren liegt hier vielmehr darin, dass die unterschiedlichen Modelle eine pragmatische Möglichkeit bieten, in Form von Benchmarking-Modellen die Prognosegüte bestehender Ratingverfahren aussagekräftiger zu bewerten, als dies auf Basis eines einzigen Modells möglich ist. Eine Verwendung solcher Benchmarking-Modelle auf Basis maschineller Lernverfahren bietet sich insbesondere im Rahmen von jährlichen Validierungen, Revisionsprüfungen oder auch Überarbeitungen bestehender Ratingverfahren an. Bei allen dreien besteht die zentrale Herausforderung, die aktuelle Prognosegüte eines bestehenden Ratingverfahrens zu beurteilen. Während die Messung der Prognosegüte (zum Beispiel in Form des Gini-Koeffizienten) einfach ist, ist deren belastbare Bewertung etwa im Sinne der Frage, ob und in welchem Maße eine weitere Verbesserung auf den gegebenen Daten möglich ist, bisher kaum ohne hohe Zusatzaufwände vorzunehmen. Benchmarking-Modelle auf Basis maschineller Lernverfahren bieten an dieser Stelle eine schlanke Möglichkeit zur Ermittlung einer "Bestin-Class-Trennschärfe" mit dem Ziel, Optimierungspotenziale bestehender Verfahren unter Beibehaltung der klassischen, transparenten Regressionsverfahren aufzuzeigen.

Einsatzmöglichkeit von Benchmarking-Modellen

Insbesondere im Rahmen der unabhängigen Validierung bankinterner Risikoquantifizierungsverfahren, die mit der 5. Novelle der Mindestanforderungen an das Risikomanagement (MaRisk) vom Herbst 2017 nochmals stärker in den Fokus der Aufsicht gerückt ist, wird über die geforderte Betrachtung von Grenzen und Beschränkungen der bestehenden Verfahren (vgl. MaRisk AT 4.1 Tz. 10) indirekt die Auslotung von Verbesserungspotenzialen verlangt.

Ähnliches gilt für die unabhängige Validierung von internen Modellen der Säule I und insbesondere von IRB-Ratingverfahren (vgl. Art. 10 des finalen Entwurfs des EBA/RTS/2016/03), in deren Rahmen unter anderem die Performance, das heißt die Prognosegüte der Verfahren zu überprüfen ist (vgl. Art. 11 Abs. 2 lit. c des finalen Entwurfs des EBA/RTS/2016/03). Gemäß Art. 69 lit. d des "ECB guide to internal models" vom März 2018 (ehemals "TRIM-Guide") muss die Validierungsfunktion in der Lage sein, eine effektive und unabhängige Herausforderung für die Modellentwicklungsabteilung darzustellen. Vor dem Hintergrund der beschränkten Budgets von Validierungsprojekten erscheint es zielführend, auf der bestehenden Datengrundlage mit minimalem Aufwand ein maschinelles Lernverfahren als Benchmarking-Modell zur Messung des Optimierungspotenzials des bestehenden Verfahrens zu trainieren.

Eine weitere Einsatzmöglichkeit von Benchmarking-Modellen ergibt sich im Rahmen von Revisionsprüfungen. Aufgrund der aufsichtlichen Erwartungshaltung gegenüber der internen Revision, im Rahmen der jährlichen allgemeinen Risikobewertung aller internen Verfahren (General Risk Assessment) Aspekte der Ratingverfahren zu identifizieren, für die anschließend sogenannte Deep Dives, das heißt gründliche vertiefende Prüfungen durchzuführen sind (vergleiche Art. 79 ff, "ECB guide to internal models", März 2018), muss sich die Revision stärker als bisher damit befassen, Einschränkungen hinsichtlich der Performance und der Prognosegüte von Ratingverfahren festzustellen. Insbesondere im Rahmen der Deep Dives bietet es sich somit an, Benchmarking-Modelle zu verwenden.

Von der Deutschen Bank ist bekannt, dass neuronale Netze als Benchmarkverfahren für die im Einsatz befindlichen Verfahren genutzt werden. Wenn die Prognosefähigkeit der neuronalen Netze signifikant besser ist als die der bestehenden Verfahren, dann wir dies als Hinweis für eine notwendige Überarbeitung und Anpassung der bestehenden Verfahren angesehen.

Wirkungsweise verschiedener Prognose- und Klassifikationsverfahren

Ähnliche Überlegungen und Bestrebungen, Methoden des maschinellen Lernens nicht nur im Rahmen der Modellentwicklung, sondern gerade auch für Validierungen und Prüfungen bestehender Modelle zum Einsatz zu bringen, zeichnen sich in vielen Gesprächen der Autoren mit der Bankenindustrie ab; erste Projekte sind bereits gestartet. Es ist somit nicht mehr eine Frage, ob, sondern vielmehr wann die maschinellen Lernverfahren zu einem selbstverständlichen Bestandteil der Kreditrisikomessung werden

Die Abbildung illustriert die Wirkungsweise verschiedener Prognose- und Klassifikationsverfahren, die sich für die Bonitätseinschätzung von Kreditnehmern in Banken eignen. Datengrundlage sind drei fiktive Datensätze von Kreditnehmern, für die jeweils zwei Merkmale (zum Beispiel Alter und Einkommen) gegeben sind (horizontale und vertikale Achse). Gemäß der Ausprägung der Merkmale sind die Kreditnehmer als Punkte in der Ebene dargestellt. Ferner sei angenommen, dass für die Hälfte der Kreditnehmer je Datensatz im letzten Jahr ein Ausfallereignis auftrat (dunkle Färbung). Auf diesen Datensätzen wurden nun die verschiedenen Verfahren trainiert; die jeweiligen Ergebnisse spiegeln sich in den verschieden eingefärbten Bereichen der Grafik wider.

Die Bonität eines neuen Kreditnehmers wird geschätzt, indem dessen Merkmale erhoben und ihm ein entsprechender Punkt in der Ebene zugewiesen wird. Liegt dieser Punkt in einem dunkel eingefärbten Bereich der Grafik, so weist ihm das zugehörige Prognoseverfahren eine geringe Bonität zu. Umgekehrt fällt die Bonitätsprognose umso besser aus, je heller der Bereich eingefärbt ist, in dem sich der Punkt befindet.

Entwicklungsaufwand und Transparenz reduziert

Die meisten der derzeit in Banken eingesetzten Ratingverfahren zur Bonitätseinschätzung von Kreditnehmern beruhen auf logistischer und linearer Regression (Reihen 2 und 3 in der Grafik). Daneben stellen auch Entscheidungsbäume (Reihe 4) die Grundlage für einige in Banken verwendete Ratingverfahren dar. Ada Boost (Reihe 5) sowie lineare und nichtlineare Support Vector Machines (Reihen 6 und 7) hingegen sind Vertreter fortgeschrittener maschineller Lernverfahren. Eine auffällige Gruppe bilden die "eindimensional" wirkenden Verfahren, die die Ebene in parallele Streifen unterteilen; komplexere Segmentierungen sind bei diesen Verfahren nicht möglich. Hierzu gehören im Beispiel die Regressionsverfahren sowie die lineare SVM. Diese Restriktion vermindert die Prognosegüte bei nichtlinearen Beziehungen zwischen metrischen Merkmalsausprägungen und Bonität entscheidend.

Die alternativen Verfahren (Entscheidungsbäume, Ada Boost und nichtlineare SVM), können die Ebene in mehr oder weniger komplex abgegrenzte Bereiche segmentieren. Daher ist es ohne grundsätzliche Einbußen an Modellgüte möglich, die Trainingsdaten größtenteils unaufbereitet ins Modell zu speisen, was den Entwicklungsaufwand, aber auch die Transparenz reduziert. Während einfache Lernverfahren noch starken Einschränkungen in der Struktur der Segmentierung unterliegen (zum Beispiel großflächige Rechteckstruktur bei Entscheidungsbäumen), weisen fortgeschrittene Ensemble-Methoden eine beeindruckende Anpassungsfähigkeit auf (Ada Boost und nichtlineare SVM). Dies kann aber auch zu Überanpassungen führen (Overfitting).

Fußnote

* Vgl. K. Füser: Neuronale Netze in der Finanzwirtschaft: Innovative Konzepte und Einsatzmöglichkeiten. Gabler, 1995.

Prof. Dr. Volker Reichenberger Professor für quantitative Methoden, ESB Business School, Hochschule Reutlingen
Dr. Dirk Schieborn Partner Risikomanagement und Modelle, msgGillardon AG, Bretten
Prof. Dr. Volker Reichenberger , Studiendekan MSc Operations Management, ESB Business School, Reutlingen
Prof. Dr. Dirk Schieborn , Managing Director , Steinbeis-Transferzentrum Data Analytics und Predictive Modelling, Stuttgart

Weitere Artikelbilder

Noch keine Bewertungen vorhanden


X