Kategorie: Architektur & Cloud

AWS, Infrastruktur, DevOps, Infrastructure as Code und Monitoring.

Die KI-Architektur für das Meldewesen der Zukunft

In meinem letzten Artikel hatte ich ja bereits das Thema Plattform und Architektur erläutert. Ausgehend von dem Gedanken bin ich nun einen Schritt weiter gegangen und mir folgende Frage gestellt:

Wie sieht die Architektur aus, die das Meldewesen der Zukunft trägt – mit der heute verfügbaren Technik, erweitert um innovative, umsetzbare Ideen?

Dieser Artikel ist ein zunächst nur ein Entwurf und kein fertiges Konzept, aber eine ernsthafte Skizze – basierend auf dem, was heute meines Erachtens technisch möglich und regulatorisch vertretbar ist.

Drei Grundprinzipien der Architektur

Datenhoheit beim Kunden – kein Vendor erhält die Schlüssel zu den eigenen Daten.
Transparenz statt Blackbox – jede Transformation ist dokumentiert, versioniert und testbar.
KI als Werkzeug, nicht als Entscheider – Human-in-the-Loop ist keine Option, sondern Pflicht.

Die fünf Schichten

graph TD
    %% QUELLSYSTEME
    subgraph Q["Schicht 1 - Quellsysteme"]
        Q1[Kernbank] & Q2[Risiko] & Q3[Trading] & Q4[Rechnungswesen]
    end

    %% BIRD DWH
    subgraph D["Schicht 2 - BIRD Data Warehouse - Single Source of Truth\n"]
        D1[Input Layer\ngranular - versioniert] --> D2[Lineage + CDEs\nDatenherkunft je Attribut]
        D2 --> D3[Transformation\ndbt - Git-versioniert]
        D3 --> D4[Output Layer\nfertige Meldepositionen]
    end

    %% DQ LAYER
    subgraph DQ["Schicht 3 - DQ-Layer - keine externe KI"]
        DQ1[DQ-Service\nIsolation Forest] & DQ2[Lineage-Service\nCDE-Katalog] & DQ3[Validierungs-Service\nPlausibilität]
    end

    %% MICROSERVICES
    subgraph M["Schicht 4 - Regulatory Microservices · je Rahmenwerk eigenständig\n"]
        M1[AnaCredit\nEZB/OeNB] & M2[CoRep\nEBA/CRR] & M3[LCR/NSFR\nLiquidität] & M4[FinRep\nEBA/IFRS] & M5[IReF 2029\nEZB]
    end

    %% KI LAYER
    subgraph K["Schicht 5 - AWS Bedrock - DSGVO-konform - nur synthet. Daten\n"]
        K1[Claude Sonnet\nRegulatory Interpreter] & K2[RAG-Pipeline\nBIRD-Docs - IReF] & K3[Code-Generierung\nPython - SQL]
    end

    %% AGENTEN
    subgraph A["Schicht 6 - Agenten-Layer - Orchestrierung über alle Schichten\n"]
        A0[Orchestrierungs-Agent\nplant - delegiert - überwacht]
        A0 --> A1[DQ-Agent] & A2[Research-Agent] & A3[Code-Agent] & A4[Lineage-Agent] & A5[Validierungs-Agent]
        A1 & A5 --> H["👤 Human-in-the-Loop · PFLICHT\nAnomalie-Bestätigung - Meldungs-Freigabe - Eskalation"]
        H --> G["🔒 Guardrails\nKein autonomes Melden · Kein Echtdaten-Zugriff - Audit-Log je Aktion"]
    end

    %% ROLLEN
    subgraph R["Neue Rollen - Agenten-Ära"]
        R1[Agent Architect\ntechnisch] & R2[Agent Engineer\noperativ] & R3["★ Solution Owner\nFach + Governance + KI"]
    end

    %% OUTPUT
    subgraph O["Output & Reporting"]
        O1[Aufsicht\nEZB · BaFin] & O2[DQ-Dashboard] & O3[Audit Trail]
    end

    %% FLUSS
    Q --> D
    D --> DQ
    DQ --> M
    M --> K
    K --> A
    G --> R
    G --> O
    M --> O1

    %% STYLING
    classDef src   fill:#555555,stroke:#333,color:#fff
    classDef dwh   fill:#0F6E56,stroke:#084d3c,color:#fff
    classDef dql   fill:#534AB7,stroke:#3d3589,color:#fff
    classDef msv   fill:#185FA5,stroke:#0f4578,color:#fff
    classDef ki    fill:#854F0B,stroke:#5c3708,color:#fff
    classDef agt   fill:#7B2D8B,stroke:#5a1f66,color:#fff
    classDef hil   fill:#EF9F27,stroke:#c47d0a,color:#222
    classDef guard fill:#C00000,stroke:#8a0000,color:#fff
    classDef role  fill:#185FA5,stroke:#0f4578,color:#fff
    classDef owner fill:#EF9F27,stroke:#c47d0a,color:#222
    classDef out   fill:#993C1D,stroke:#711f0f,color:#fff

    class Q1,Q2,Q3,Q4 src
    class D1,D2,D3,D4 dwh
    class DQ1,DQ2,DQ3 dql
    class M1,M2,M3,M4,M5 msv
    class K1,K2,K3 ki
    class A0,A1,A2,A3,A4,A5 agt
    class H hil
    class G guard
    class R1,R2 role
    class R3 owner
    class O1,O2,O3 out

Schicht 1 – Quellsysteme

Kernbank | Risiko | Trading | Rechnungswesen

Liefern die granularen Rohdaten auf Einzelgeschäftsebene
Keine Transformation – rohe, unverfälschte Quelldaten
Schnittstellen: API, CDC (Change Data Capture), Batch-Load

Schicht 2 – BIRD-konformes Data Warehouse (Fundament )

Single Source of Truth – Data Lineage – Versionierung

Input Layer: Rohdaten werden unveränderlich gespeichert, mit Zeitstempel und Data Owner
Critical Data Elements (CDEs): je Melderahmen definiert und dokumentiert
Data Lineage Engine: jedes Attribut rückverfolgbar bis zum Quellsystem
Transformation Layer: regulatorische Logik als versionierte dbt-SQL-Modelle, Git-basiert und jederzeit beauskunftbar.
Output Layer: strukturierte Einzeldatensätze gemäß BIRD-Attributdefinition – bereit zur Übergabe an den jeweiligen Reporting-Service.
Time Travel: historische Meldungen jederzeit exakt reproduzierbar und auswertbar im DWH.

Schicht 3 – Transformations- & DQ-Layer

Läuft vollständig lokal – keine KI-API, keine externen Aufrufe

DQ-Service: Isolation Forest + Autoencoder für automatische Anomalieerkennung, wenn dieses eigenständig aufgesetzt werden will. Ansonsten kann hier auch bereits am Markt vorhandene Software genutzt werden.
Lineage-Service: automatische Dokumentation von Datenflüssen und CDEs. Auch hier gilt: externe Software kann an der Stelle auch genutzt werden.
Validierungs-Service: regelbasierte Plausibilitätsprüfung bekannter Geschäftsregeln
Alles testbar, versioniert, mit Regressionsschutz

Schicht 4 – Regulatory Microservices

Je Melderahmen eigenständig – austauschbar, testbar, unabhängig

AnaCredit-Service – IReF-Service
Änderung in IReF betrifft nur den Service – kein Plattform-Release nötig
Alle Services lesen aus derselben BIRD-DWH-Datenbasis
Neue Anforderung = neuer Service, keine neue Plattform

Schicht 5 – KI-Layer

AWS Bedrock – DSGVO-konform – kein Training auf Kundendaten – SOC2/ISO27001

Claude Sonnet als Regulatory Interpreter – Fragen in Sekunden beantwortet
RAG-Pipeline auf regulatorischen Dokumenten und Texten.
Code-Generierung: Python, SQL, auf Basis fachlicher Beschreibung
KRITISCH: Nur synthetische/anonymisierte Daten und Schemabeschreibungen an KI – keine personenbezogenen Daten, keine Geschäftsdaten im Prompt.

Der DSGVO-Kniff: AWS Bedrock in der EU-Region trainiert meines Wissens nach nicht auf Kundendaten. Durch strikte Trennung «Schema ja, Echtdaten nein» bleibt die Architektur auch bei strengen internen Compliance-Richtlinien auf der sicheren Seite. Der Prompt enthält die fachliche Struktur – nicht den Inhalt.

Das Prinzip in einem Satz: Die KI sieht die Landkarte, nicht das Territorium.

Die drei Beispiele zeigen den Unterschied konkret:

Bei der DQ-Prüfung gilt: nicht „hier sind meine Daten, was stimmt nicht?“, sondern „hier ist meine Validierungsregel – schreib mir den passenden Python-Code“. Der Code wird anschließend lokal auf den Echtdaten ausgeführt, sodass keine sensiblen Daten an die KI übertragen werden.

Für die Fehleranalyse gilt: nicht „bei Kunde Müller GmbH schlägt Regel 1234 fehl“, sondern „Feldtyp Integer, Regel maturity_days > 0 schlägt fehl – was sind typische Ursachen?“. Übergeben wird also nur die Struktur des Fehlers, nicht der konkrete inhaltliche Bezug.

Code-Generierung: Nicht die CSV mit 500+ Zeilen Produktionsdaten – sondern das Schema: Feldnamen, Datentypen, Constraints. Das reicht vollständig um validen dbt-Code zu generieren.

Der Agenten-Layer – die nächste Evolutionsstufe

Agenten stellen kein Ersatz für Microservices dar. Sie sind eine Ausführungsebene darüber. Der DQ-Agent ruft den DQ-Service auf. Der Code-Agent schreibt dbt-Modelle, die dann im Transformation Layer laufen. Die Schichten bleiben – die Agenten orchestrieren die Arbeit zwischen ihnen.

Orchestrierungs-Agent

Plant Aufgaben, delegiert an Spezialagenten, überwacht Ergebnisse, entscheidet über Eskalation an einen Menschen.

Spezialisierte Agenten

Agent	Aufgabe	Tool-Aufrufe
DQ-Agent	Prüft Input Layer, flaggt Anomalien, erstellt Report	DQ-Service, DWH-Abfrage, Human Escalation
Research-Agent	Durchsucht Docs, interpretiert IReF, beantwortet Fachfragen	RAG-Pipeline, Claude, BIRD-API
Code-Agent	Generiert Python/dbt-Modelle, testet Ergebnis	Code Execution, Claude, Git
Lineage-Agent	Dokumentiert Datenherkunft automatisch, pflegt CDE-Katalog	DWH-Abfrage, Metadatenkatalog, ggf. extern verbunden
Validierungs-Agent	Prüft Meldung vor Abgabe auf Plausibilität	Validierungs-Service, Human Escalation

Guardrails sind architektonisch zu verankern, nicht nur im Prompt: Kein autonomes Abschicken von Meldungen – Kein Echtdaten-Zugriff via KI – Audit-Log je Agent-Aktion -Human-in-the-Loop bei Anomalie-Bestätigung, Meldungs-Freigabe und Regelambiguitäten

Konkret: Wie der Code-Agent ein dbt-Modell erzeugt

Der entscheidende Punkt: Der Code-Agent schreibt SQL-Text – er führt nichts direkt auf der Datenbank aus. Acht Schritte vom Auftrag bis zum produktiven Modell:

Auslöser – Orchestrierungs-Agent erkennt fehlende Transformationsregel, oder ein Mensch beauftragt direkt
Kontext sammeln – Agent liest BIRD-Schema aus dem CDE-Katalog und bestehende dbt-Modelle als Stilvorlage – keine Echtdaten
Prompt an Claude – Feldname, Datentyp und Zielattribut werden übergeben, nicht die Vertragsdaten selbst
Claude generiert – eine vollständige .sql-Datei als reinen Text – noch keine Ausführung gegen die Datenbank
Datei schreiben – der Agent legt die generierte Datei im dbt-Projekt-Repository ab
Lokaler Testlauf – dbt run und dbt test laufen lokal – reine Tool-Ausführung, kein LLM mehr beteiligt. Schlägt der Test fehl, geht es zurück zu Schritt 3 mit der Fehlermeldung
Human-in-the-Loop – Pull-Request-Review prüft die fachliche Mapping-Logik. Kein automatischer Merge – der Mensch entscheidet
Merge in Produktion – erst jetzt wird das Modell Teil des regulären dbt run und läuft ab sofort bei jedem Pipeline-Durchlauf mit – versioniert, dokumentiert, Audit-Trail vollständig

Nur die Schritte 3 und 4 sind „KI“. Alles andere – Lesen, Schreiben, Testen, Mergen – ist klassische Software- und Git-Logik. Der Agent orchestriert, das LLM generiert einen einzigen Textblock, der Mensch entscheidet am Ende.

Neue Rollen in der Agenten-Ära

Rolle	Agent Architect	Agent Engineer	Solution Owner
Zielprofil	Designt Agenten-Topologie	Baut & wartet Agenten	Verantwortet neu auch Agenten-Output
Aufgaben	Definiert Tool-Grenzen, Plant Guardrails, Sicherheitsarchitektur	Schreibt Prompts & Tools, Testet Agenten-Verhalten	Definiert Eskalationsregeln, Stellt regulat. Korrektheit sicher, Koordiniert mit Security & Compliance
Schwerpunkt	eher technisch	eher operativ	Fach & Governance & KI

Der Solution Owner in der Agenten-Ära ist nicht derjenige, der Agenten baut – sondern derjenige, der verantwortet, was sie tun. Er definiert Eskalationsregeln, stellt sicher, dass der Output regulär korrekt ist, und ist der Ansprechpartner, wenn ein Agent falsch entschieden hat. Das ist eine Fach- und Governance-Rolle mit technischem Verständnis.

Tech-Stack – heute verfügbar

Bereich	Technologie
Infrastruktur	AWS, Terraform, Docker/Podman, AWS IAM/RBAC, VPC/Private Endpoints
Daten	BIRD-DWH (PostgreSQL / Snowflake / Redshift)
KI	Claude via AWS Bedrock
Transformation	dbt SQL-Modelle, Git-versioniert
RAG	LangChain, Vektor-DB (pgvector / Chroma)
DQ	Python, pandas, scikit-learn, Isolation Forest
Agenten-Framework	LangGraph, CrewAI
Orchestrierung	Apache Airflow / Prefect
Monitoring	AWS CloudWatch, Audit-Logs
CI/CD	GitHub Actions für automatische Tests

Model Agnosticism als Architekturprinzip

AWS Bedrock mit Claude ist ein guter Einstieg – aber kein Pflichtprogramm. Die Architektur sollte von Anfang an modellunabhängig sein. Das Stichwort: Model Agnosticism. Wer den KI-Aufruf hinter einem einheitlichen Gateway abstrahiert, kann das Modell wechseln ohne die Architektur anzufassen – dasselbe Prinzip wie bei den Microservices.

Statt: response = claude.invoke(prompt)

Besser: response = llm_gateway.invoke(prompt, model=„claude-sonnet“) – oder model=„qwen-72b-local“ – oder model=„mistral-large-eu“

Mögliche Tools dafür: LiteLLM als universelles Gateway, Ollama für lokale Modelle, LangChain als Abstraktionsschicht.

Drei Deployment-Optionen für den KI-Layer – je nach Datenschutzanforderung und Reifegrad:

Option	Modell	Vorteil	Hinweis
Cloud in der EU	Claude via AWS Bedrock (eu-central-1)	Beste Qualität und sofort verfügbar	Daten verlassen Infrastruktur (DSGVO-konform konfigurierbar)
EU-Modelle	Mistral Large · Aleph Alpha Luminous	EU-Jurisdiktion · Aleph Alpha BSI-geprüft	Stark für regulierte Branchen – on-premise möglich
Lokal / On-Premise	Qwen 2.5 72B – Llama 3.3 70B – Mistral lokal via Ollama	Keine externen Calls – volle Datensouveränität -DSGVO-Problem entfällt	Hardware-Investment -für DQ/Code/RAG bereits ausreichend stark

Die Qualitätsfrage lokaler Modelle ist heute anders als vor 18 Monaten. Qwen 2.5 72B und Llama 3.3 70B sind für Code-Generierung, SQL und RAG auf Dokumenten bereits sehr gut. Für komplexe Reasoning-Aufgaben liegt Claude noch vorne – aber der Abstand schrumpft schnell. Auch europäische Alternativen entwickeln sich stetig weiter.

Fazit: Architektur ist eine bewusste Entscheidung

Diese Architektur ist kein Zukunftsroman. Jede einzelne Komponente ist bereits heute verfügbar. Was fehlt, ist nicht die Technologie – sondern die Bereitschaft, Datenhoheit, Transparenz und Governance von Anfang an mitzudenken.

BIRD gibt die Struktur vor.
Microservices lösen die Plattformabhängigkeit.
Agenten übernehmen die Orchestrierung.
Der Mensch behält die Verantwortung – in den Daten und in den Prozessen.

Was haltet ihr von dieser Architekturskizze? Wo seht ihr die größten Hürden bei der Umsetzung – technisch, organisatorisch oder regulatorisch? Ich freue mich auf einen regen Austausch.

23. Mai 2026

Plattform? Architektur! Warum im Meldewesen die falsche Frage gestellt wird

Meinungsbeitrag

Ich lese gerade viel über Meldewesen-Plattformen, denn das Thema ist allgegenwärtig: Jeder hat eine, jeder braucht eine, jeder kauft eine. Aber wenn ich genauer hinschaue, merke ich: Die Frage, die gestellt wird, ist Welche Plattform? – nicht Welche Architektur?

Das ist ein Problem.

„Plattform“ ist ein Vermarktungsbegriff

Wolters Kluwer, Regnology – sie alle nennen ihr Produkt „Plattform“. Das ist legitim, aber der Begriff transportiert keine Architekturentscheidung. Er transportiert lediglich ein Leistungsversprechen, während das, was unter der Haube passiert, meistens unsichtbar bleibt:

Wo liegt die Daten-Ownership – beim Kunden oder in der Plattform?
Wie eng sind fachliche Logik und technische Implementierung gekoppelt?
Was passiert, wenn BIRD/IReF die Anforderungen ändert – ist die Logik austauschbar oder einbetoniert?
Wer versteht noch, was die Plattform eigentlich tut – der Anbieter, der Kunde, niemand?

Wenn ein Datenfehler auftritt, weiß oft niemand mehr, wo er entsteht. Nicht weil die Menschen inkompetent sind, sondern weil die Plattform eine Blackbox geworden ist.

Plattform vs. Architektur: Der Unterschied

Plattform-Denken	Architektur-Denken
Wir brauchen eine Lösung	Wir brauchen ein Modell
Fokus: Features & Lizenzen	Fokus: Schichten, Übergänge, Ownership
Datenfluss ist Sache des Anbieters	Datenfluss ist dokumentiert & verstanden
Fehlersuche endet beim Support-Ticket	Fehlersuche beginnt im eigenen Haus
Abhängigkeit wächst mit jeder Version	Unabhängigkeit durch Verständnis
Wechsel = Projekt	Wechsel = kalkulierbar

BIRD ist kein Datenbuch – BIRD ist Architektur

IReF/BIRD ist im Kern eine explizite Architekturentscheidung der EZB: Input Layer, Transformation Layer, Output Layer. Da definierte Attribute, klare Schichtgrenzen und nachvollziehbare Transformationslogik festgelegt sind, bietet BIRD genau das, was fehlt, wenn nur über Plattformen gesprochen wird: Transparenz über Datenflüsse, Verantwortung für Datenübergänge und Klarheit darüber, wo Logik sitzt und wer sie verantwortet.

Wer BIRD wirklich versteht, versteht Architektur. Und wer Architektur versteht, kann Plattformen beurteilen, steuern – und im Zweifelsfall wechseln.

Die provokante These

Banken, die nur Plattformen kaufen, ohne Architektur zu verstehen, geben Kontrolle ab – über ihre Daten, über ihre Prozesse und über ihre Fähigkeit, Fehler zu verstehen und zu beheben.

Das ist kein Vorwurf an die Anbieter, sondern ein Aufruf an die Fachbereiche. Architektur-Kompetenz gehört nicht nur in die IT, sondern auch in die Fachbereiche, die mit den Daten arbeiten, die Meldungen verantworten und die Qualität sichern. Im Meldewesen sind das wir.

Und noch eine schärfere Frage: Was, wenn die Daten gar nicht granular genug sind?

Eine Meldewesen-Plattform ist im Kern eine Maschine, die Daten in Meldepositionen transformiert. Wenn die Quelldaten nicht granularer werden, macht die Plattform dasselbe wie vorher – nur teurer und mit mehr Abhängigkeit.

Plattformen lösen keine Datenprobleme. Sie verarbeiten Daten.

IReF fordert explizit granularere Daten auf Einzelgeschäftsebene, da dies keine Softwareanforderung ist, sondern eine Datenanforderung. Die Entscheidung „wir kaufen eine neue Plattform für IReF“, ohne gleichzeitig die Datengranularität zu adressieren, ist deshalb im besten Fall unvollständig und im schlechtesten Fall eine teure Ablenkung.

Die Fragen, die vorher gestellt werden müssten:

Welche Daten fehlen uns heute auf Einzelgeschäftsebene?
Welche Quellsysteme liefern noch aggregiert statt granular?
Wer ist verantwortlich für die Datenanreicherung – Meldewesen, IT, Rechnungswesen?
Was muss sich in der Datenhaltung ändern, bevor eine neue Plattform Sinn ergibt?

Eine Plattform, die nicht-granulare Daten schneller verarbeitet, löst kein Problem. Sie beschleunigt es.

Was ich mir wünsche

Mehr Gespräche über Datenflüsse – nicht nur über Features
Mehr Fragen an Anbieter: Wie ist eure Transformationslogik dokumentiert?
Mehr BIRD-Kompetenz in den Fachbereichen – nicht nur bei der IT
Weniger Welche Plattform? – mehr Welche Architektur?

Eine gute Plattform und eine gute Architektur schließen sich zwar nicht aus, aber man braucht Architektur-Kompetenz, um eine Plattform beurteilen zu können – nicht andersherum.

Ausblick: Das Ende der Blackbox-Plattform?

Das Data Point Model (DPM) – das Metadatenmodell hinter CoRep, FinRep und den bisherigen EBA-Rahmenwerken – denkt vom Output her: Was muss gemeldet werden? BIRD hingegen denkt vom Input her: Welche Daten existieren, und wie werden sie transformiert?

Das ist ein fundamentaler Paradigmenwechsel, der eine logische Konsequenz für die Architektur hat. Da BIRD als gemeinsames Datenmodell dient, zeichnet sich langfristig eine Struktur ab, die einem Data Warehouse näher ist als einer klassischen Meldeplattform – Staging Layer, Core Layer, Reporting Layer – nur eben regulär. Transparent, schichtenbasiert, mit Datenhoheit beim Kunden.

Die Meldeplattform würde damit zur Ausgabeschicht, weil die Logik nicht mehr in ihr steckt, sondern darunter.

Transparente Schichten, austauschbare Ausgabeschicht, Datenhoheit beim Kunden – nicht trotz Regulierung, sondern durch sie.

Wer diesen Gedanken zu Ende denkt, landet bei Microservices, die sich an einer gemeinsamen Datenbasis bedienen, sodass jeder Melderahmen als eigenständiger Service fungiert – austauschbar, testbar, unabhängig. CoRep als Service, AnaCredit als Service, LCR als Service. Alle lesen aus derselben granularen, BIRD-konformen Datenbasis.

Änderung in IReF? Nur der IReF-Service wird angefasst, während alle anderen Rahmen unberührt bleiben. Neue Anforderung? Neuer Service – kein Plattform-Release.

Das ist kein Zukunftsroman, sondern der logische nächste Schritt aus dem, was BIRD architektonisch vorgibt. Dazu mehr in einem eigenen Artikel.

Wie seht ihr das? Habt ihr das Gefühl, dass Architektur-Fragen im Meldewesen zu kurz kommen – oder übertreibe ich? Ich freue mich auf die Diskussion, auch – und gerade – auf Widerspruch.

#Meldewesen #BIRD #IReF #Architektur #Datenqualität #DataGovernance #Bankenmeldewesen #RegulatoryDataScientist #Meinung

8. Mai 2026

𝗩𝗼𝗺 𝗠𝗲𝗹𝗱𝗲𝘄𝗲𝘀𝗲𝗻𝗲𝘅𝗽𝗲𝗿𝘁𝗲𝗻 𝘇𝘂𝗺 𝗥𝗲𝗴𝘂𝗹𝗮𝘁𝗼𝗿𝘆 𝗗𝗮𝘁𝗮 𝗦𝗰𝗶𝗲𝗻𝘁𝗶𝘀𝘁 – was bedeutet das konkret?
In meinem letzten Artikel habe ich beschrieben, wie BIRD und IReF das Meldewesen grundlegend verändern werden – und dass Meldewesenexperten sich dabei zu „Regulatory Data Scientists“ entwickeln. Heute mache ich diesen Begriff konkret: Was bedeutet das in der Praxis? Und warum ist Datenqualität der Dreh- und Angelpunkt dieser Transformation?

Was ist ein Regulatory Data Scientist – und warum ist das kein Buzzword?

Ein klassischer Meldewesenexperte denkt in Meldepositionen, Rechtsquellen und Validierungsregeln. Ein Data Scientist denkt in Datenstrukturen, Datenpipelines und Modellen. Ein Regulatory Data Scientist vereint beides – und genau das wird im IReF-Umfeld zur Schlüsseldisziplin.

Vorher – Meldewesenexperte: Er kennt die Meldewesenpositionen auswendig und spricht die CRR fließend für seinen Bereich. Excel ist sein bester Freund in der manuellen Analyse der meldungsrelevanten Daten. Er reagiert er auf Fehler.

Künftig – Regulatory Data Scientist: Der versteht (Daten)Modelle strukturell, insbesondere BIRD strukturell. Arbeitet mit Python, SQL und anderen (Cloud-basierten) Tools. Dieser kennt sich auch in der Arbeit mit AI aus, sie ist integraler Bestandteil seiner Arbeit. Auch ist er in der Lage, Datenqualität in der Datenpipeline zu prüfen – noch bevor sie in das Meldewesentool der Wahl geht. Dadurch ist er in der Lage, Fehler zu antizipieren.

Datenqualität: Der nicht mehr ganz so blinde Fleck im Meldewesen

Die grösste Lektion aus zehn Jahren Migrationsprojekten lautet: Die Fehler liegen nicht nur in der Meldewesensoftware selbst. Sie entstehen viel früher – in den zuliefernden Systemen, an Schnittstellen, in manuell gepflegten Stammdaten und Prozessen.

Der Regulatory Data Scientist löst sich von der reaktiven Fehlerkorrektur. Stattdessen etabliert und treibt er Datenqualität als kontinuierlichen Prozess mit an – direkt im und am Datenpfad, lange bevor die Meldung generiert wird.

Der DQ-Ansatz im IReF-Einführungsprojekt

Grundlage dieses Ansatzes: Die EZB hat signalisiert, dass IReF im BIRD-Modell abgebildet werden soll. Diese Weichenstellung ist entscheidend – denn sie bedeutet, dass die BIRD API bereits heute als Ausgangspunkt für eine strukturierte (DQ-)Vorbereitung genutzt werden kann.

Phase 1: Inventarisierung

Hierzu dient die BIRD API als Grundlage. Mittels dieser API kann die gewünschte Meldung (Framework) auf Ebene des Input Layers extrahiert, der eigene Datenhaushalt dagegen gemappt und ein Gap-Analyse Dokument als lebendiges Dokument erstellt werden.

Phase 2: Profiling mittels Python

Es gibt genügend OpenSource Bibliotheken (u.a. pandas profiling, Great Expectations), die ein automatisches DQ-Reporting ermöglichen. Damit lassen sich DQ-Scorecards je Meldebereich erstellen.

Phase 3: Monitoring

Es werden mittels den Datenpunkten Dashboards errichtet und deren Status mittels einer Ampellogik verfolgt und dokumentiert.

Phase 4: Remediation

Mittels Tickets werden die Fehler adressiert und möglichst zeitnah an der Quelle behoben.

Praxisbeispiel: DQ-App für BIRD/IReF

Genau dieser Ansatz hat mich bewogen, einen POC einer Datenqualitäts-App für BIRD/IReF zu entwickeln. Das Ziel war keine Produktionslösung – dafür gibt es ausgereifte Softwareprodukte. Ziel war eine Vorstudie und Standortbestimmung: Wo stehen wir heute? Welche Datenpunkte fehlen? Wo sind die kritischen Lücken, bevor wir in die IReF-Implementierung einsteigen?

Die Architektur des POC folgt bewusst dem BIRD-Schichtmodell:
- Input Layer: Vollständigkeitsprüfung aller geforderten Attribute
- Transformation Layer: Konsistenzprüfungen zwischen abhängigen Datenpunkten
- Output Layer: Quervalidierung gegen erwartete Meldepositionen
Das Ergebnis ist keine fertige Software – sondern ein strukturiertes Bild des eigenen Datenhaushalts. Und genau das ist der erste Schritt, den jede Bank vor 2029 gegangen sein sollte.

Welche Fähigkeiten braucht der Regulatory Data Scientist?

Niemand muss von heute auf morgen zum Vollzeit-Data-Scientist werden. Aber ein gezielter Kompetenzaufbau in 4 Bereichen macht den Unterschied:

Datenkompetenz ist das absolute Fundament – Wer DQ-Probleme nicht lesen und analysieren kann, kann sie auch nicht lösen. SQL und Profiling sind dabei die minimalsten Werkzeuge, die jeder braucht, der Datenpipelines verstehen will.

Python-Grundlagen sind der natürliche nächste Schritt – es ist das De-facto-Standardwerkzeug für Data Analytics. pandas und Great Expectations sind konkret auf DQ-Aufgaben zugeschnitten und leisten hervorragende Arbeit.

Meldewesenexpertise ist die fachliche Differenzierung und Multiplikator – das ist der Punkt, der einen Regulatory Data Scientist von einem normalen Data Scientist unterscheidet. Er kennt die Meldeprozesse, Datenflüsse, regulatorische Logik. BIRD ist die Zugabe als aktuelle Formalisierung.

KI-Grundlagen sind ebenso wichtig. Der Regulatory Data Scientist muss keine KI bauen – er muss KI nutzen können. Wer bspw. Perplexity für (regulatorische) Recherche einsetzt und Claude für die Code-Umsetzung, multipliziert seine eigene Expertise, ohne Data-Science-Studium.

Der Regulatory Data Scientist ist keine Zukunftsvision. Er ist eine Notwendigkeit – und mit gezieltem Kompetenzaufbau auch für jeden erfahrenen Meldewesenexperten erreichbar.

Fazit: Datenqualität ist keine IT-Aufgabe – sie ist eine Fachaufgabe

Die vielleicht wichtigste Erkenntnis aus meiner Arbeit: Datenqualitätsprobleme sind fast immer fachliche Probleme mit technischem Symptom. Wer im IReF-Zeitalter erfolgreich sein will, muss beides können – die regulatorische Substanz und die datentechnische Umsetzung verstehen.

Ausblick: Wer die Daten im Griff hat, kann KI ernten

Und hier schliesst sich der Kreis: Wer saubere,qualitätativ hochwertige granulare Daten (im BIRD-Format vorhält), legt gleichzeitig die Grundlage für den nächsten Entwicklungsschritt. Denn KI-Modelle sind nur so gut wie die Daten, auf denen sie trainiert werden.

Wer heute investiert – in DQ-Prozesse, in Datenpipelines, in das Verständnis des BIRD-Modells – der öffnet morgen die Tür für KI-gestützte Anomalieerkennung, automatisierte Plausibilitätsprüfungen und LLMs als Regulatory Interpreter (meine Bold Prediction 🙂 ). Datenqualität ist nicht das Ziel – sie ist die Voraussetzung.

Wie das in der Praxis aussieht – und welche KI-Werkzeuge im regulatorischen Arbeits(Umfeld) wirklich funktionieren können – das ist Thema von Teil 3.
15. März 2026
IReF (Integrated Reporting Framework) – Die Evolution des Bankenmeldewesens

Die European Central Bank revolutioniert mit IReF ab 2029 das Meldewesen.

Und das frei verfügbare BIRD (Banks‘ Integrated Reporting Dictionary) Modell bietet bereits heute eine solide Grundlage für die Vorbereitung auf IReF. Der Input Layer (IL) beispielsweise ermöglicht erste Tests von ETL-Prozessen und gibt Einblicke in kommende Anforderungen.

Besonders spannend: Moderne Data Analytics Tools, insbesondere Python mit seinen Open-Source-Bibliotheken, ermöglichen schon jetzt eine erste detaillierte Gap-Analyse zwischen BIRD-Anforderungen und dem eigenen Datenhaushalt. Diese frühe Analyse der Datenqualität ist ein entscheidender Erfolgsfaktor.

Der Wandel bedeutet aber auch: Meldewesenexperten entwickeln sich zu „Regulatory Data Scientists“. Dies erfordert eine klare Strategie zum Kompetenzaufbau. Cloud-Technologien wie AWS/Azure, kombiniert mit Docker und Jupyter Notebooks, schaffen ideale Analyse-Umgebungen für diesen Transformationsprozess.

31. Dezember 2025