AnaCredit • BIRD • Machine Learning – drei Dinge, die zusammengehören
Es ist kurz vor Meldeschluss. Ein Wert fällt auf. Irgendjemand hat irgendwo etwas in den angelieferten Daten geändert. Oder nicht geändert.
Datenqualitätsprobleme im Meldewesen werden meistens dann sichtbar, wenn es zu spät ist – kurz vor der Abgabe, unter Zeitdruck, mit begrenztem Spielraum für Ursachenforschung.
Was wenn KI diese Probleme Tage früher erkennen könnte – automatisch, in der Pipeline, bevor der Mensch überhaupt hinschaut?
Warum BIRD die ideale Grundlage ist
BIRD ist mehr als ein Datenbuch. Es ist ein strukturiertes Schichtmodell: Input Layer, Transformation Layer, Output Layer. Jede Schicht hat definierte Attribute, bekannte Beziehungen, erwartbare Werteverteilungen.
Genau das braucht ein Machine-Learning-Modell für Anomalieerkennung:
- Bekannte Struktur – BIRD definiert, welche Felder existieren und wie sie zusammenhängen
- Erwartbare Muster – AnaCredit-Daten folgen regulären Logiken: Laufzeiten, Risikoklassen, Exposures haben historische Verteilungen
- Klare Schichtgrenzen – Anomalien lassen sich einer Schicht zuordnen: Liegt das Problem im Input, in der Transformation, oder erst im Output?
Ein Data Scientist ohne Meldewesenhintergrund sieht einen Datensatz mit Auffälligkeiten. Ein Regulatory Data Scientist sieht sofort: dieser Wert kann in diesem Kontext nicht stimmen – und weiß warum. Das ist der Heimvorteil.
Das Konzept: Anomalieerkennung in drei Stufen
Stufe 1 – Statistische Ausreißer im Input Layer
Machine-Learning-Modelle wie Isolation Forest oder Autoencoder lernen die normale Verteilung historischer AnaCredit-Daten. Neue Datenanlieferungen werden dagegen geprüft – die Ausreißer werden markiert, nicht verworfen.
Stufe 2 – Regelbasierte Plausibilitätsprüfung im Transformation Layer
Hier kommt die Fachkompetenz ins Spiel. Bekannte Geschäftsregeln, bspw. keine negativen Nominalbeträge – werden als Validierungslogik kodiert. Das ist regelbasierte KI.
Stufe 3 – Trendabweichungen im Output Layer
Datasets, die sich von Periode zu Periode ungewöhnlich stark verändern, werden geflaggt. Nicht abgelehnt – sondern zur menschlichen Prüfung markiert.
Die KI entscheidet nicht, sie priorisiert und gibt dem Anwender profunde Analyseergebnisse.
Ein Blick in die Praxis: Erste Experimente
Ich habe begonnen, dieses Konzept in einem ersten Experiment umzusetzen – mit synthetischen AnaCredit-Daten, Python und einem Isolation-Forest-Modell.
import pandas as pd
from sklearn.ensemble import IsolationForest
# Synthetische AnaCredit-Daten laden
df = pd.read_csv('anacredit_input_layer.csv')
# Numerische Features für das Modell auswählen
features = ['outstanding_amount', 'maturity_days', 'interest_rate']
X = df[features].dropna()
# Isolation Forest trainieren
model = IsolationForest(contamination=0.05, random_state=42)
df['anomaly_score'] = model.fit_predict(X)
# Ausreißer markieren: -1 = Anomalie, 1 = normal
anomalies = df[df['anomaly_score'] == -1]
print(f"{len(anomalies)} potenzielle Anomalien gefunden")
Das Modell hat mit synthetischen Daten bereits Muster erkannt, die ich fachlich nachvollziehen konnte. Nicht perfekt – aber als Frühwarnsystem vielversprechend.
Was noch fehlt – und warum das ehrlich ist
Ich bin noch nicht fertig. Das Modell läuft auf synthetischen Daten, nicht auf echten Meldedaten. Die Schnittstelle zur BIRD-API ist im Aufbau. Und die Frage, wie man False Positives sinnvoll reduziert – also Ausreißer, die technisch auffällig aber fachlich korrekt sind – ist noch offen.
Aber genau das ist der Punkt dieser Serie: Den Weg zeigen, nicht nur das Ziel.
Fazit: Fachkompetenz ist der eigentliche Algorithmus
KI-Anomalieerkennung im Meldewesen ist kein Data-Science-Projekt. Es ist ein Fachprojekt mit Data-Science-Werkzeugen.
- BIRD liefert die Struktur.
- AnaCredit liefert die (historischen) Muster.
- Der Meldewesenexperte liefert das Urteilsvermögen, das entscheidet, was eine echte Anomalie ist – und was nur ein ungewöhnlicher, aber korrekter Wert.
Das kann kein Algorithmus alleine leisten.
Welche Erfahrungen habt ihr mit automatisierten DQ-Prüfungen im Meldewesen? Und: Setzt ihr bereits ML-basierte Ansätze ein – oder ist das noch Zukunftsmusik in euren Häusern?
Ich freue mich auf den Austausch.
#BIRD #IReF #AnaCredit #Meldewesen #DataGovernance #KI #MachineLearning #RegulatoryDataScientist #Datenqualität #Bankenmeldewesen
