Kategorie: Architektur & Cloud

AWS, Infrastruktur, DevOps, Infrastructure as Code und Monitoring.

  • Die KI-Architektur für das Meldewesen der Zukunft

    Die KI-Architektur für das Meldewesen der Zukunft

    In meinem letzten Artikel hatte ich ja bereits das Thema Plattform und Architektur erläutert. Ausgehend von dem Gedanken bin ich nun einen Schritt weiter gegangen und mir folgende Frage gestellt:

    Wie sieht die Architektur aus, die das Meldewesen der Zukunft trägt – mit der heute verfügbaren Technik, erweitert um innovative, umsetzbare Ideen?

    Dieser Artikel ist ein zunächst nur ein Entwurf und kein fertiges Konzept, aber eine ernsthafte Skizze – basierend auf dem, was heute meines Erachtens technisch möglich und regulatorisch vertretbar ist.


    Drei Grundprinzipien der Architektur

    • Datenhoheit beim Kunden – kein Vendor erhält die Schlüssel zu den eigenen Daten.
    • Transparenz statt Blackbox – jede Transformation ist dokumentiert, versioniert und testbar.
    • KI als Werkzeug, nicht als Entscheider – Human-in-the-Loop ist keine Option, sondern Pflicht.

    Die fünf Schichten

    graph TD
        %% QUELLSYSTEME
        subgraph Q["Schicht 1 - Quellsysteme"]
            Q1[Kernbank] & Q2[Risiko] & Q3[Trading] & Q4[Rechnungswesen]
        end
    
        %% BIRD DWH
        subgraph D["Schicht 2 - BIRD Data Warehouse - Single Source of Truth\n"]
            D1[Input Layer\ngranular - versioniert] --> D2[Lineage + CDEs\nDatenherkunft je Attribut]
            D2 --> D3[Transformation\ndbt - Git-versioniert]
            D3 --> D4[Output Layer\nfertige Meldepositionen]
        end
    
        %% DQ LAYER
        subgraph DQ["Schicht 3 - DQ-Layer - keine externe KI"]
            DQ1[DQ-Service\nIsolation Forest] & DQ2[Lineage-Service\nCDE-Katalog] & DQ3[Validierungs-Service\nPlausibilität]
        end
    
        %% MICROSERVICES
        subgraph M["Schicht 4 - Regulatory Microservices · je Rahmenwerk eigenständig\n"]
            M1[AnaCredit\nEZB/OeNB] & M2[CoRep\nEBA/CRR] & M3[LCR/NSFR\nLiquidität] & M4[FinRep\nEBA/IFRS] & M5[IReF 2029\nEZB]
        end
    
        %% KI LAYER
        subgraph K["Schicht 5 - AWS Bedrock - DSGVO-konform - nur synthet. Daten\n"]
            K1[Claude Sonnet\nRegulatory Interpreter] & K2[RAG-Pipeline\nBIRD-Docs - IReF] & K3[Code-Generierung\nPython - SQL]
        end
    
        %% AGENTEN
        subgraph A["Schicht 6 - Agenten-Layer - Orchestrierung über alle Schichten\n"]
            A0[Orchestrierungs-Agent\nplant - delegiert - überwacht]
            A0 --> A1[DQ-Agent] & A2[Research-Agent] & A3[Code-Agent] & A4[Lineage-Agent] & A5[Validierungs-Agent]
            A1 & A5 --> H["👤 Human-in-the-Loop · PFLICHT\nAnomalie-Bestätigung - Meldungs-Freigabe - Eskalation"]
            H --> G["🔒 Guardrails\nKein autonomes Melden · Kein Echtdaten-Zugriff - Audit-Log je Aktion"]
        end
    
        %% ROLLEN
        subgraph R["Neue Rollen - Agenten-Ära"]
            R1[Agent Architect\ntechnisch] & R2[Agent Engineer\noperativ] & R3["★ Solution Owner\nFach + Governance + KI"]
        end
    
        %% OUTPUT
        subgraph O["Output & Reporting"]
            O1[Aufsicht\nEZB · BaFin] & O2[DQ-Dashboard] & O3[Audit Trail]
        end
    
        %% FLUSS
        Q --> D
        D --> DQ
        DQ --> M
        M --> K
        K --> A
        G --> R
        G --> O
        M --> O1
    
        %% STYLING
        classDef src   fill:#555555,stroke:#333,color:#fff
        classDef dwh   fill:#0F6E56,stroke:#084d3c,color:#fff
        classDef dql   fill:#534AB7,stroke:#3d3589,color:#fff
        classDef msv   fill:#185FA5,stroke:#0f4578,color:#fff
        classDef ki    fill:#854F0B,stroke:#5c3708,color:#fff
        classDef agt   fill:#7B2D8B,stroke:#5a1f66,color:#fff
        classDef hil   fill:#EF9F27,stroke:#c47d0a,color:#222
        classDef guard fill:#C00000,stroke:#8a0000,color:#fff
        classDef role  fill:#185FA5,stroke:#0f4578,color:#fff
        classDef owner fill:#EF9F27,stroke:#c47d0a,color:#222
        classDef out   fill:#993C1D,stroke:#711f0f,color:#fff
    
        class Q1,Q2,Q3,Q4 src
        class D1,D2,D3,D4 dwh
        class DQ1,DQ2,DQ3 dql
        class M1,M2,M3,M4,M5 msv
        class K1,K2,K3 ki
        class A0,A1,A2,A3,A4,A5 agt
        class H hil
        class G guard
        class R1,R2 role
        class R3 owner
        class O1,O2,O3 out
    

    Schicht 1 – Quellsysteme

    Kernbank | Risiko | Trading | Rechnungswesen

    • Liefern die granularen Rohdaten auf Einzelgeschäftsebene
    • Keine Transformation – rohe, unverfälschte Quelldaten
    • Schnittstellen: API, CDC (Change Data Capture), Batch-Load

    Schicht 2 – BIRD-konformes Data Warehouse (Fundament )

    Single Source of Truth – Data Lineage – Versionierung

    • Input Layer: Rohdaten werden unveränderlich gespeichert, mit Zeitstempel und Data Owner
    • Critical Data Elements (CDEs): je Melderahmen definiert und dokumentiert
    • Data Lineage Engine: jedes Attribut rückverfolgbar bis zum Quellsystem
    • Transformation Layer: regulatorische Logik als versionierte dbt-SQL-Modelle, Git-basiert und jederzeit beauskunftbar.
    • Output Layer: strukturierte Einzeldatensätze gemäß BIRD-Attributdefinition – bereit zur Übergabe an den jeweiligen Reporting-Service.
    • Time Travel: historische Meldungen jederzeit exakt reproduzierbar und auswertbar im DWH.

    Schicht 3 – Transformations- & DQ-Layer

    Läuft vollständig lokal – keine KI-API, keine externen Aufrufe

    • DQ-Service: Isolation Forest + Autoencoder für automatische Anomalieerkennung, wenn dieses eigenständig aufgesetzt werden will. Ansonsten kann hier auch bereits am Markt vorhandene Software genutzt werden.
    • Lineage-Service: automatische Dokumentation von Datenflüssen und CDEs. Auch hier gilt: externe Software kann an der Stelle auch genutzt werden.
    • Validierungs-Service: regelbasierte Plausibilitätsprüfung bekannter Geschäftsregeln
    • Alles testbar, versioniert, mit Regressionsschutz

    Schicht 4 – Regulatory Microservices

    Je Melderahmen eigenständig – austauschbar, testbar, unabhängig

    • AnaCredit-Service – IReF-Service
    • Änderung in IReF betrifft nur den Service – kein Plattform-Release nötig
    • Alle Services lesen aus derselben BIRD-DWH-Datenbasis
    • Neue Anforderung = neuer Service, keine neue Plattform

    Schicht 5 – KI-Layer

    AWS Bedrock – DSGVO-konform – kein Training auf Kundendaten – SOC2/ISO27001

    • Claude Sonnet als Regulatory Interpreter – Fragen in Sekunden beantwortet
    • RAG-Pipeline auf regulatorischen Dokumenten und Texten.
    • Code-Generierung: Python, SQL, auf Basis fachlicher Beschreibung
    • KRITISCH: Nur synthetische/anonymisierte Daten und Schemabeschreibungen an KI – keine personenbezogenen Daten, keine Geschäftsdaten im Prompt.

    Der DSGVO-Kniff: AWS Bedrock in der EU-Region trainiert meines Wissens nach nicht auf Kundendaten. Durch strikte Trennung «Schema ja, Echtdaten nein» bleibt die Architektur auch bei strengen internen Compliance-Richtlinien auf der sicheren Seite. Der Prompt enthält die fachliche Struktur – nicht den Inhalt.

    Das Prinzip in einem Satz: Die KI sieht die Landkarte, nicht das Territorium.

    Die drei Beispiele zeigen den Unterschied konkret:

    Bei der DQ-Prüfung gilt: nicht „hier sind meine Daten, was stimmt nicht?“, sondern „hier ist meine Validierungsregel – schreib mir den passenden Python-Code“. Der Code wird anschließend lokal auf den Echtdaten ausgeführt, sodass keine sensiblen Daten an die KI übertragen werden.

    Für die Fehleranalyse gilt: nicht „bei Kunde Müller GmbH schlägt Regel 1234 fehl“, sondern „Feldtyp Integer, Regel maturity_days > 0 schlägt fehl – was sind typische Ursachen?“. Übergeben wird also nur die Struktur des Fehlers, nicht der konkrete inhaltliche Bezug.

    Code-Generierung: Nicht die CSV mit 500+ Zeilen Produktionsdaten – sondern das Schema: Feldnamen, Datentypen, Constraints. Das reicht vollständig um validen dbt-Code zu generieren.


    Der Agenten-Layer – die nächste Evolutionsstufe

    Agenten stellen kein Ersatz für Microservices dar. Sie sind eine Ausführungsebene darüber. Der DQ-Agent ruft den DQ-Service auf. Der Code-Agent schreibt dbt-Modelle, die dann im Transformation Layer laufen. Die Schichten bleiben – die Agenten orchestrieren die Arbeit zwischen ihnen.

    Orchestrierungs-Agent

    Plant Aufgaben, delegiert an Spezialagenten, überwacht Ergebnisse, entscheidet über Eskalation an einen Menschen.

    Spezialisierte Agenten

    AgentAufgabeTool-Aufrufe
    DQ-AgentPrüft Input Layer, flaggt Anomalien, erstellt ReportDQ-Service, DWH-Abfrage, Human Escalation
    Research-AgentDurchsucht Docs, interpretiert IReF, beantwortet FachfragenRAG-Pipeline, Claude, BIRD-API
    Code-AgentGeneriert Python/dbt-Modelle, testet ErgebnisCode Execution, Claude, Git
    Lineage-AgentDokumentiert Datenherkunft automatisch, pflegt CDE-KatalogDWH-Abfrage, Metadatenkatalog, ggf. extern verbunden
    Validierungs-AgentPrüft Meldung vor Abgabe auf PlausibilitätValidierungs-Service, Human Escalation

    Guardrails sind architektonisch zu verankern, nicht nur im Prompt: Kein autonomes Abschicken von Meldungen – Kein Echtdaten-Zugriff via KI – Audit-Log je Agent-Aktion -Human-in-the-Loop bei Anomalie-Bestätigung, Meldungs-Freigabe und Regelambiguitäten

    Konkret: Wie der Code-Agent ein dbt-Modell erzeugt

    Der entscheidende Punkt: Der Code-Agent schreibt SQL-Text – er führt nichts direkt auf der Datenbank aus. Acht Schritte vom Auftrag bis zum produktiven Modell:

    • Auslöser – Orchestrierungs-Agent erkennt fehlende Transformationsregel, oder ein Mensch beauftragt direkt
    • Kontext sammeln – Agent liest BIRD-Schema aus dem CDE-Katalog und bestehende dbt-Modelle als Stilvorlage – keine Echtdaten
    • Prompt an Claude – Feldname, Datentyp und Zielattribut werden übergeben, nicht die Vertragsdaten selbst
    • Claude generiert – eine vollständige .sql-Datei als reinen Text – noch keine Ausführung gegen die Datenbank
    • Datei schreiben – der Agent legt die generierte Datei im dbt-Projekt-Repository ab
    • Lokaler Testlauf – dbt run und dbt test laufen lokal – reine Tool-Ausführung, kein LLM mehr beteiligt. Schlägt der Test fehl, geht es zurück zu Schritt 3 mit der Fehlermeldung
    • Human-in-the-Loop – Pull-Request-Review prüft die fachliche Mapping-Logik. Kein automatischer Merge – der Mensch entscheidet
    • Merge in Produktion – erst jetzt wird das Modell Teil des regulären dbt run und läuft ab sofort bei jedem Pipeline-Durchlauf mit – versioniert, dokumentiert, Audit-Trail vollständig
    Nur die Schritte 3 und 4 sind „KI“. Alles andere – Lesen, Schreiben, Testen, Mergen – ist klassische Software- und Git-Logik. Der Agent orchestriert, das LLM generiert einen einzigen Textblock, der Mensch entscheidet am Ende.

    Neue Rollen in der Agenten-Ära

    RolleAgent ArchitectAgent EngineerSolution Owner
    ZielprofilDesignt Agenten-TopologieBaut & wartet AgentenVerantwortet neu auch Agenten-Output
    AufgabenDefiniert Tool-Grenzen, Plant Guardrails, SicherheitsarchitekturSchreibt Prompts & Tools, Testet Agenten-VerhaltenDefiniert Eskalationsregeln, Stellt regulat. Korrektheit sicher, Koordiniert mit Security & Compliance
    Schwerpunkteher technischeher operativFach & Governance & KI

    Der Solution Owner in der Agenten-Ära ist nicht derjenige, der Agenten baut – sondern derjenige, der verantwortet, was sie tun. Er definiert Eskalationsregeln, stellt sicher, dass der Output regulär korrekt ist, und ist der Ansprechpartner, wenn ein Agent falsch entschieden hat. Das ist eine Fach- und Governance-Rolle mit technischem Verständnis.


    Tech-Stack – heute verfügbar

    BereichTechnologie
    InfrastrukturAWS, Terraform, Docker/Podman, AWS IAM/RBAC, VPC/Private Endpoints
    DatenBIRD-DWH (PostgreSQL / Snowflake / Redshift)
    KIClaude via AWS Bedrock
    Transformationdbt SQL-Modelle, Git-versioniert
    RAGLangChain, Vektor-DB (pgvector / Chroma)
    DQPython, pandas, scikit-learn, Isolation Forest
    Agenten-FrameworkLangGraph, CrewAI
    OrchestrierungApache Airflow / Prefect
    MonitoringAWS CloudWatch, Audit-Logs
    CI/CDGitHub Actions für automatische Tests

    Model Agnosticism als Architekturprinzip

    AWS Bedrock mit Claude ist ein guter Einstieg – aber kein Pflichtprogramm. Die Architektur sollte von Anfang an modellunabhängig sein. Das Stichwort: Model Agnosticism. Wer den KI-Aufruf hinter einem einheitlichen Gateway abstrahiert, kann das Modell wechseln ohne die Architektur anzufassen – dasselbe Prinzip wie bei den Microservices.

    Statt: response = claude.invoke(prompt)

    Besser: response = llm_gateway.invoke(prompt, model=„claude-sonnet“)  –  oder model=„qwen-72b-local“  –  oder model=„mistral-large-eu“

    Mögliche Tools dafür: LiteLLM als universelles Gateway, Ollama für lokale Modelle, LangChain als Abstraktionsschicht.

    Drei Deployment-Optionen für den KI-Layer – je nach Datenschutzanforderung und Reifegrad:

    OptionModellVorteilHinweis
    Cloud in der EUClaude via AWS Bedrock (eu-central-1)Beste Qualität und sofort verfügbarDaten verlassen Infrastruktur (DSGVO-konform konfigurierbar)
    EU-ModelleMistral Large · Aleph Alpha LuminousEU-Jurisdiktion · Aleph Alpha BSI-geprüftStark für regulierte Branchen – on-premise möglich
    Lokal / On-PremiseQwen 2.5 72B – Llama 3.3 70B – Mistral lokal via OllamaKeine externen Calls – volle Datensouveränität -DSGVO-Problem entfälltHardware-Investment -für DQ/Code/RAG bereits ausreichend stark
    Die Qualitätsfrage lokaler Modelle ist heute anders als vor 18 Monaten. Qwen 2.5 72B und Llama 3.3 70B sind für Code-Generierung, SQL und RAG auf Dokumenten bereits sehr gut. Für komplexe Reasoning-Aufgaben liegt Claude noch vorne – aber der Abstand schrumpft schnell. Auch europäische Alternativen entwickeln sich stetig weiter.

    Fazit: Architektur ist eine bewusste Entscheidung

    Diese Architektur ist kein Zukunftsroman. Jede einzelne Komponente ist bereits heute verfügbar. Was fehlt, ist nicht die Technologie – sondern die Bereitschaft, Datenhoheit, Transparenz und Governance von Anfang an mitzudenken.

    • BIRD gibt die Struktur vor.
    • Microservices lösen die Plattformabhängigkeit.
    • Agenten übernehmen die Orchestrierung.
    • Der Mensch behält die Verantwortung – in den Daten und in den Prozessen.

    Was haltet ihr von dieser Architekturskizze? Wo seht ihr die größten Hürden bei der Umsetzung – technisch, organisatorisch oder regulatorisch? Ich freue mich auf einen regen Austausch.

  • Plattform? Architektur! Warum im Meldewesen die falsche Frage gestellt wird

    Plattform? Architektur! Warum im Meldewesen die falsche Frage gestellt wird

    Meinungsbeitrag

    Ich lese gerade viel über Meldewesen-Plattformen, denn das Thema ist allgegenwärtig: Jeder hat eine, jeder braucht eine, jeder kauft eine. Aber wenn ich genauer hinschaue, merke ich: Die Frage, die gestellt wird, ist Welche Plattform? – nicht Welche Architektur?

    Das ist ein Problem.

    „Plattform“ ist ein Vermarktungsbegriff

    Wolters Kluwer, Regnology – sie alle nennen ihr Produkt „Plattform“. Das ist legitim, aber der Begriff transportiert keine Architekturentscheidung. Er transportiert lediglich ein Leistungsversprechen, während das, was unter der Haube passiert, meistens unsichtbar bleibt:

    • Wo liegt die Daten-Ownership – beim Kunden oder in der Plattform?
    • Wie eng sind fachliche Logik und technische Implementierung gekoppelt?
    • Was passiert, wenn BIRD/IReF die Anforderungen ändert – ist die Logik austauschbar oder einbetoniert?
    • Wer versteht noch, was die Plattform eigentlich tut – der Anbieter, der Kunde, niemand?

    Wenn ein Datenfehler auftritt, weiß oft niemand mehr, wo er entsteht. Nicht weil die Menschen inkompetent sind, sondern weil die Plattform eine Blackbox geworden ist.

    Plattform vs. Architektur: Der Unterschied

    Plattform-DenkenArchitektur-Denken
    Wir brauchen eine LösungWir brauchen ein Modell
    Fokus: Features & LizenzenFokus: Schichten, Übergänge, Ownership
    Datenfluss ist Sache des AnbietersDatenfluss ist dokumentiert & verstanden
    Fehlersuche endet beim Support-TicketFehlersuche beginnt im eigenen Haus
    Abhängigkeit wächst mit jeder VersionUnabhängigkeit durch Verständnis
    Wechsel = ProjektWechsel = kalkulierbar

    BIRD ist kein Datenbuch – BIRD ist Architektur

    IReF/BIRD ist im Kern eine explizite Architekturentscheidung der EZB: Input Layer, Transformation Layer, Output Layer. Da definierte Attribute, klare Schichtgrenzen und nachvollziehbare Transformationslogik festgelegt sind, bietet BIRD genau das, was fehlt, wenn nur über Plattformen gesprochen wird: Transparenz über Datenflüsse, Verantwortung für Datenübergänge und Klarheit darüber, wo Logik sitzt und wer sie verantwortet.

    Wer BIRD wirklich versteht, versteht Architektur. Und wer Architektur versteht, kann Plattformen beurteilen, steuern – und im Zweifelsfall wechseln.

    Die provokante These

    Banken, die nur Plattformen kaufen, ohne Architektur zu verstehen, geben Kontrolle ab – über ihre Daten, über ihre Prozesse und über ihre Fähigkeit, Fehler zu verstehen und zu beheben.

    Das ist kein Vorwurf an die Anbieter, sondern ein Aufruf an die Fachbereiche. Architektur-Kompetenz gehört nicht nur in die IT, sondern auch in die Fachbereiche, die mit den Daten arbeiten, die Meldungen verantworten und die Qualität sichern. Im Meldewesen sind das wir.

    Und noch eine schärfere Frage: Was, wenn die Daten gar nicht granular genug sind?

    Eine Meldewesen-Plattform ist im Kern eine Maschine, die Daten in Meldepositionen transformiert. Wenn die Quelldaten nicht granularer werden, macht die Plattform dasselbe wie vorher – nur teurer und mit mehr Abhängigkeit.

    Plattformen lösen keine Datenprobleme. Sie verarbeiten Daten.

    IReF fordert explizit granularere Daten auf Einzelgeschäftsebene, da dies keine Softwareanforderung ist, sondern eine Datenanforderung. Die Entscheidung „wir kaufen eine neue Plattform für IReF“, ohne gleichzeitig die Datengranularität zu adressieren, ist deshalb im besten Fall unvollständig und im schlechtesten Fall eine teure Ablenkung.

    Die Fragen, die vorher gestellt werden müssten:

    • Welche Daten fehlen uns heute auf Einzelgeschäftsebene?
    • Welche Quellsysteme liefern noch aggregiert statt granular?
    • Wer ist verantwortlich für die Datenanreicherung – Meldewesen, IT, Rechnungswesen?
    • Was muss sich in der Datenhaltung ändern, bevor eine neue Plattform Sinn ergibt?

    Eine Plattform, die nicht-granulare Daten schneller verarbeitet, löst kein Problem. Sie beschleunigt es.

    Was ich mir wünsche

    • Mehr Gespräche über Datenflüsse – nicht nur über Features
    • Mehr Fragen an Anbieter: Wie ist eure Transformationslogik dokumentiert?
    • Mehr BIRD-Kompetenz in den Fachbereichen – nicht nur bei der IT
    • Weniger Welche Plattform? – mehr Welche Architektur?

    Eine gute Plattform und eine gute Architektur schließen sich zwar nicht aus, aber man braucht Architektur-Kompetenz, um eine Plattform beurteilen zu können – nicht andersherum.

    Ausblick: Das Ende der Blackbox-Plattform?

    Das Data Point Model (DPM) – das Metadatenmodell hinter CoRep, FinRep und den bisherigen EBA-Rahmenwerken – denkt vom Output her: Was muss gemeldet werden? BIRD hingegen denkt vom Input her: Welche Daten existieren, und wie werden sie transformiert?

    Das ist ein fundamentaler Paradigmenwechsel, der eine logische Konsequenz für die Architektur hat. Da BIRD als gemeinsames Datenmodell dient, zeichnet sich langfristig eine Struktur ab, die einem Data Warehouse näher ist als einer klassischen Meldeplattform – Staging Layer, Core Layer, Reporting Layer – nur eben regulär. Transparent, schichtenbasiert, mit Datenhoheit beim Kunden.

    Die Meldeplattform würde damit zur Ausgabeschicht, weil die Logik nicht mehr in ihr steckt, sondern darunter.

    Transparente Schichten, austauschbare Ausgabeschicht, Datenhoheit beim Kunden – nicht trotz Regulierung, sondern durch sie.

    Wer diesen Gedanken zu Ende denkt, landet bei Microservices, die sich an einer gemeinsamen Datenbasis bedienen, sodass jeder Melderahmen als eigenständiger Service fungiert – austauschbar, testbar, unabhängig. CoRep als Service, AnaCredit als Service, LCR als Service. Alle lesen aus derselben granularen, BIRD-konformen Datenbasis.

    Änderung in IReF? Nur der IReF-Service wird angefasst, während alle anderen Rahmen unberührt bleiben. Neue Anforderung? Neuer Service – kein Plattform-Release.

    Das ist kein Zukunftsroman, sondern der logische nächste Schritt aus dem, was BIRD architektonisch vorgibt. Dazu mehr in einem eigenen Artikel.


    Wie seht ihr das? Habt ihr das Gefühl, dass Architektur-Fragen im Meldewesen zu kurz kommen – oder übertreibe ich? Ich freue mich auf die Diskussion, auch – und gerade – auf Widerspruch.

    #Meldewesen #BIRD #IReF #Architektur #Datenqualität #DataGovernance #Bankenmeldewesen #RegulatoryDataScientist #Meinung

  • 𝗩𝗼𝗺 𝗠𝗲𝗹𝗱𝗲𝘄𝗲𝘀𝗲𝗻𝗲𝘅𝗽𝗲𝗿𝘁𝗲𝗻 𝘇𝘂𝗺 𝗥𝗲𝗴𝘂𝗹𝗮𝘁𝗼𝗿𝘆 𝗗𝗮𝘁𝗮 𝗦𝗰𝗶𝗲𝗻𝘁𝗶𝘀𝘁 – was bedeutet das konkret?

    𝗩𝗼𝗺 𝗠𝗲𝗹𝗱𝗲𝘄𝗲𝘀𝗲𝗻𝗲𝘅𝗽𝗲𝗿𝘁𝗲𝗻 𝘇𝘂𝗺 𝗥𝗲𝗴𝘂𝗹𝗮𝘁𝗼𝗿𝘆 𝗗𝗮𝘁𝗮 𝗦𝗰𝗶𝗲𝗻𝘁𝗶𝘀𝘁 – was bedeutet das konkret?

    In meinem letzten Artikel habe ich beschrieben, wie BIRD und IReF das Meldewesen grundlegend verändern werden – und dass Meldewesenexperten sich dabei zu „Regulatory Data Scientists“ entwickeln. Heute mache ich diesen Begriff konkret: Was bedeutet das in der Praxis? Und warum ist Datenqualität der Dreh- und Angelpunkt dieser Transformation?

    Was ist ein Regulatory Data Scientist – und warum ist das kein Buzzword?

    Ein klassischer Meldewesenexperte denkt in Meldepositionen, Rechtsquellen und Validierungsregeln. Ein Data Scientist denkt in Datenstrukturen, Datenpipelines und Modellen. Ein Regulatory Data Scientist vereint beides – und genau das wird im IReF-Umfeld zur Schlüsseldisziplin.

    Vorher – Meldewesenexperte: Er kennt die Meldewesenpositionen auswendig und spricht die CRR fließend für seinen Bereich. Excel ist sein bester Freund in der manuellen Analyse der meldungsrelevanten Daten. Er reagiert er auf Fehler.

    Künftig – Regulatory Data Scientist: Der versteht (Daten)Modelle strukturell, insbesondere BIRD strukturell. Arbeitet mit Python, SQL und anderen (Cloud-basierten) Tools. Dieser kennt sich auch in der Arbeit mit AI aus, sie ist integraler Bestandteil seiner Arbeit. Auch ist er in der Lage, Datenqualität in der Datenpipeline zu prüfen – noch bevor sie in das Meldewesentool der Wahl geht. Dadurch ist er in der Lage, Fehler zu antizipieren.

    Datenqualität: Der nicht mehr ganz so blinde Fleck im Meldewesen

    Die grösste Lektion aus zehn Jahren Migrationsprojekten lautet: Die Fehler liegen nicht nur in der Meldewesensoftware selbst. Sie entstehen viel früher – in den zuliefernden Systemen, an Schnittstellen, in manuell gepflegten Stammdaten und Prozessen.

    Der Regulatory Data Scientist löst sich von der reaktiven Fehlerkorrektur. Stattdessen etabliert und treibt er Datenqualität als kontinuierlichen Prozess mit an – direkt im und am Datenpfad, lange bevor die Meldung generiert wird.

    Der DQ-Ansatz im IReF-Einführungsprojekt

    Grundlage dieses Ansatzes: Die EZB hat signalisiert, dass IReF im BIRD-Modell abgebildet werden soll. Diese Weichenstellung ist entscheidend – denn sie bedeutet, dass die BIRD API bereits heute als Ausgangspunkt für eine strukturierte (DQ-)Vorbereitung genutzt werden kann.

    Phase 1: Inventarisierung

    Hierzu dient die BIRD API als Grundlage. Mittels dieser API kann die gewünschte Meldung (Framework) auf Ebene des Input Layers extrahiert, der eigene Datenhaushalt dagegen gemappt und ein Gap-Analyse Dokument als lebendiges Dokument erstellt werden.

    Phase 2: Profiling mittels Python

    Es gibt genügend OpenSource Bibliotheken (u.a. pandas profiling, Great Expectations), die ein automatisches DQ-Reporting ermöglichen. Damit lassen sich DQ-Scorecards je Meldebereich erstellen.

    Phase 3: Monitoring

    Es werden mittels den Datenpunkten Dashboards errichtet und deren Status mittels einer Ampellogik verfolgt und dokumentiert.

    Phase 4: Remediation

    Mittels Tickets werden die Fehler adressiert und möglichst zeitnah an der Quelle behoben.

    Praxisbeispiel: DQ-App für BIRD/IReF

    Genau dieser Ansatz hat mich bewogen, einen POC einer Datenqualitäts-App für BIRD/IReF zu entwickeln. Das Ziel war keine Produktionslösung – dafür gibt es ausgereifte Softwareprodukte. Ziel war eine Vorstudie und Standortbestimmung: Wo stehen wir heute? Welche Datenpunkte fehlen? Wo sind die kritischen Lücken, bevor wir in die IReF-Implementierung einsteigen?

    Die Architektur des POC folgt bewusst dem BIRD-Schichtmodell:

    • Input Layer: Vollständigkeitsprüfung aller geforderten Attribute
    • Transformation Layer: Konsistenzprüfungen zwischen abhängigen Datenpunkten
    • Output Layer: Quervalidierung gegen erwartete Meldepositionen

    Das Ergebnis ist keine fertige Software – sondern ein strukturiertes Bild des eigenen Datenhaushalts. Und genau das ist der erste Schritt, den jede Bank vor 2029 gegangen sein sollte.

    Welche Fähigkeiten braucht der Regulatory Data Scientist?

    Niemand muss von heute auf morgen zum Vollzeit-Data-Scientist werden. Aber ein gezielter Kompetenzaufbau in 4 Bereichen macht den Unterschied:

    Datenkompetenz ist das absolute Fundament – Wer DQ-Probleme nicht lesen und analysieren kann, kann sie auch nicht lösen. SQL und Profiling sind dabei die minimalsten Werkzeuge, die jeder braucht, der Datenpipelines verstehen will.

    Python-Grundlagen sind der natürliche nächste Schritt – es ist das De-facto-Standardwerkzeug für Data Analytics. pandas und Great Expectations sind konkret auf DQ-Aufgaben zugeschnitten und leisten hervorragende Arbeit.

    Meldewesenexpertise ist die fachliche Differenzierung und Multiplikator – das ist der Punkt, der einen Regulatory Data Scientist von einem normalen Data Scientist unterscheidet. Er kennt die Meldeprozesse, Datenflüsse, regulatorische Logik. BIRD ist die Zugabe als aktuelle Formalisierung.

    KI-Grundlagen sind ebenso wichtig. Der Regulatory Data Scientist muss keine KI bauen – er muss KI nutzen können. Wer bspw. Perplexity für (regulatorische) Recherche einsetzt und Claude für die Code-Umsetzung, multipliziert seine eigene Expertise, ohne Data-Science-Studium.

    Der Regulatory Data Scientist ist keine Zukunftsvision. Er ist eine Notwendigkeit – und mit gezieltem Kompetenzaufbau auch für jeden erfahrenen Meldewesenexperten erreichbar.

    Fazit: Datenqualität ist keine IT-Aufgabe – sie ist eine Fachaufgabe

    Die vielleicht wichtigste Erkenntnis aus meiner Arbeit: Datenqualitätsprobleme sind fast immer fachliche Probleme mit technischem Symptom. Wer im IReF-Zeitalter erfolgreich sein will, muss beides können – die regulatorische Substanz und die datentechnische Umsetzung verstehen.

    Ausblick: Wer die Daten im Griff hat, kann KI ernten

    Und hier schliesst sich der Kreis: Wer saubere,qualitätativ hochwertige granulare Daten (im BIRD-Format vorhält), legt gleichzeitig die Grundlage für den nächsten Entwicklungsschritt. Denn KI-Modelle sind nur so gut wie die Daten, auf denen sie trainiert werden.

    Wer heute investiert – in DQ-Prozesse, in Datenpipelines, in das Verständnis des BIRD-Modells – der öffnet morgen die Tür für KI-gestützte Anomalieerkennung, automatisierte Plausibilitätsprüfungen und LLMs als Regulatory Interpreter (meine Bold Prediction 🙂 ). Datenqualität ist nicht das Ziel – sie ist die Voraussetzung.

    Wie das in der Praxis aussieht – und welche KI-Werkzeuge im regulatorischen Arbeits(Umfeld) wirklich funktionieren können – das ist Thema von Teil 3.

  • IReF (Integrated Reporting Framework) – Die Evolution des Bankenmeldewesens

    Die European Central Bank revolutioniert mit IReF ab 2029 das Meldewesen.

    Und das frei verfügbare BIRD (Banks‘ Integrated Reporting Dictionary) Modell bietet bereits heute eine solide Grundlage für die Vorbereitung auf IReF. Der Input Layer (IL) beispielsweise ermöglicht erste Tests von ETL-Prozessen und gibt Einblicke in kommende Anforderungen.

    Besonders spannend: Moderne Data Analytics Tools, insbesondere Python mit seinen Open-Source-Bibliotheken, ermöglichen schon jetzt eine erste detaillierte Gap-Analyse zwischen BIRD-Anforderungen und dem eigenen Datenhaushalt. Diese frühe Analyse der Datenqualität ist ein entscheidender Erfolgsfaktor.

    Der Wandel bedeutet aber auch: Meldewesenexperten entwickeln sich zu „Regulatory Data Scientists“. Dies erfordert eine klare Strategie zum Kompetenzaufbau. Cloud-Technologien wie AWS/Azure, kombiniert mit Docker und Jupyter Notebooks, schaffen ideale Analyse-Umgebungen für diesen Transformationsprozess.