Autor: admin

  • Die KI-Architektur für das Meldewesen der Zukunft

    Die KI-Architektur für das Meldewesen der Zukunft

    In meinem letzten Artikel hatte ich ja bereits das Thema Plattform und Architektur erläutert. Ausgehend von dem Gedanken bin ich nun einen Schritt weiter gegangen und mir folgende Frage gestellt:

    Wie sieht die Architektur aus, die das Meldewesen der Zukunft trägt – mit der heute verfügbaren Technik, erweitert um innovative, umsetzbare Ideen?

    Dieser Artikel ist ein zunächst nur ein Entwurf und kein fertiges Konzept, aber eine ernsthafte Skizze – basierend auf dem, was heute meines Erachtens technisch möglich und regulatorisch vertretbar ist.


    Drei Grundprinzipien der Architektur

    • Datenhoheit beim Kunden – kein Vendor erhält die Schlüssel zu den eigenen Daten.
    • Transparenz statt Blackbox – jede Transformation ist dokumentiert, versioniert und testbar.
    • KI als Werkzeug, nicht als Entscheider – Human-in-the-Loop ist keine Option, sondern Pflicht.

    Die fünf Schichten

    graph TD
        %% QUELLSYSTEME
        subgraph Q["Schicht 1 - Quellsysteme"]
            Q1[Kernbank] & Q2[Risiko] & Q3[Trading] & Q4[Rechnungswesen]
        end
    
        %% BIRD DWH
        subgraph D["Schicht 2 - BIRD Data Warehouse - Single Source of Truth\n"]
            D1[Input Layer\ngranular - versioniert] --> D2[Lineage + CDEs\nDatenherkunft je Attribut]
            D2 --> D3[Transformation\ndbt - Git-versioniert]
            D3 --> D4[Output Layer\nfertige Meldepositionen]
        end
    
        %% DQ LAYER
        subgraph DQ["Schicht 3 - DQ-Layer - keine externe KI"]
            DQ1[DQ-Service\nIsolation Forest] & DQ2[Lineage-Service\nCDE-Katalog] & DQ3[Validierungs-Service\nPlausibilität]
        end
    
        %% MICROSERVICES
        subgraph M["Schicht 4 - Regulatory Microservices · je Rahmenwerk eigenständig\n"]
            M1[AnaCredit\nEZB/OeNB] & M2[CoRep\nEBA/CRR] & M3[LCR/NSFR\nLiquidität] & M4[FinRep\nEBA/IFRS] & M5[IReF 2029\nEZB]
        end
    
        %% KI LAYER
        subgraph K["Schicht 5 - AWS Bedrock - DSGVO-konform - nur synthet. Daten\n"]
            K1[Claude Sonnet\nRegulatory Interpreter] & K2[RAG-Pipeline\nBIRD-Docs - IReF] & K3[Code-Generierung\nPython - SQL]
        end
    
        %% AGENTEN
        subgraph A["Schicht 6 - Agenten-Layer - Orchestrierung über alle Schichten\n"]
            A0[Orchestrierungs-Agent\nplant - delegiert - überwacht]
            A0 --> A1[DQ-Agent] & A2[Research-Agent] & A3[Code-Agent] & A4[Lineage-Agent] & A5[Validierungs-Agent]
            A1 & A5 --> H["👤 Human-in-the-Loop · PFLICHT\nAnomalie-Bestätigung - Meldungs-Freigabe - Eskalation"]
            H --> G["🔒 Guardrails\nKein autonomes Melden · Kein Echtdaten-Zugriff - Audit-Log je Aktion"]
        end
    
        %% ROLLEN
        subgraph R["Neue Rollen - Agenten-Ära"]
            R1[Agent Architect\ntechnisch] & R2[Agent Engineer\noperativ] & R3["★ Solution Owner\nFach + Governance + KI"]
        end
    
        %% OUTPUT
        subgraph O["Output & Reporting"]
            O1[Aufsicht\nEZB · BaFin] & O2[DQ-Dashboard] & O3[Audit Trail]
        end
    
        %% FLUSS
        Q --> D
        D --> DQ
        DQ --> M
        M --> K
        K --> A
        G --> R
        G --> O
        M --> O1
    
        %% STYLING
        classDef src   fill:#555555,stroke:#333,color:#fff
        classDef dwh   fill:#0F6E56,stroke:#084d3c,color:#fff
        classDef dql   fill:#534AB7,stroke:#3d3589,color:#fff
        classDef msv   fill:#185FA5,stroke:#0f4578,color:#fff
        classDef ki    fill:#854F0B,stroke:#5c3708,color:#fff
        classDef agt   fill:#7B2D8B,stroke:#5a1f66,color:#fff
        classDef hil   fill:#EF9F27,stroke:#c47d0a,color:#222
        classDef guard fill:#C00000,stroke:#8a0000,color:#fff
        classDef role  fill:#185FA5,stroke:#0f4578,color:#fff
        classDef owner fill:#EF9F27,stroke:#c47d0a,color:#222
        classDef out   fill:#993C1D,stroke:#711f0f,color:#fff
    
        class Q1,Q2,Q3,Q4 src
        class D1,D2,D3,D4 dwh
        class DQ1,DQ2,DQ3 dql
        class M1,M2,M3,M4,M5 msv
        class K1,K2,K3 ki
        class A0,A1,A2,A3,A4,A5 agt
        class H hil
        class G guard
        class R1,R2 role
        class R3 owner
        class O1,O2,O3 out
    

    Schicht 1 – Quellsysteme

    Kernbank | Risiko | Trading | Rechnungswesen

    • Liefern die granularen Rohdaten auf Einzelgeschäftsebene
    • Keine Transformation – rohe, unverfälschte Quelldaten
    • Schnittstellen: API, CDC (Change Data Capture), Batch-Load

    Schicht 2 – BIRD-konformes Data Warehouse (Fundament )

    Single Source of Truth – Data Lineage – Versionierung

    • Input Layer: Rohdaten werden unveränderlich gespeichert, mit Zeitstempel und Data Owner
    • Critical Data Elements (CDEs): je Melderahmen definiert und dokumentiert
    • Data Lineage Engine: jedes Attribut rückverfolgbar bis zum Quellsystem
    • Transformation Layer: regulatorische Logik als versionierte dbt-SQL-Modelle, Git-basiert und jederzeit beauskunftbar.
    • Output Layer: strukturierte Einzeldatensätze gemäß BIRD-Attributdefinition – bereit zur Übergabe an den jeweiligen Reporting-Service.
    • Time Travel: historische Meldungen jederzeit exakt reproduzierbar und auswertbar im DWH.

    Schicht 3 – Transformations- & DQ-Layer

    Läuft vollständig lokal – keine KI-API, keine externen Aufrufe

    • DQ-Service: Isolation Forest + Autoencoder für automatische Anomalieerkennung, wenn dieses eigenständig aufgesetzt werden will. Ansonsten kann hier auch bereits am Markt vorhandene Software genutzt werden.
    • Lineage-Service: automatische Dokumentation von Datenflüssen und CDEs. Auch hier gilt: externe Software kann an der Stelle auch genutzt werden.
    • Validierungs-Service: regelbasierte Plausibilitätsprüfung bekannter Geschäftsregeln
    • Alles testbar, versioniert, mit Regressionsschutz

    Schicht 4 – Regulatory Microservices

    Je Melderahmen eigenständig – austauschbar, testbar, unabhängig

    • AnaCredit-Service – IReF-Service
    • Änderung in IReF betrifft nur den Service – kein Plattform-Release nötig
    • Alle Services lesen aus derselben BIRD-DWH-Datenbasis
    • Neue Anforderung = neuer Service, keine neue Plattform

    Schicht 5 – KI-Layer

    AWS Bedrock – DSGVO-konform – kein Training auf Kundendaten – SOC2/ISO27001

    • Claude Sonnet als Regulatory Interpreter – Fragen in Sekunden beantwortet
    • RAG-Pipeline auf regulatorischen Dokumenten und Texten.
    • Code-Generierung: Python, SQL, auf Basis fachlicher Beschreibung
    • KRITISCH: Nur synthetische/anonymisierte Daten und Schemabeschreibungen an KI – keine personenbezogenen Daten, keine Geschäftsdaten im Prompt.

    Der DSGVO-Kniff: AWS Bedrock in der EU-Region trainiert meines Wissens nach nicht auf Kundendaten. Durch strikte Trennung «Schema ja, Echtdaten nein» bleibt die Architektur auch bei strengen internen Compliance-Richtlinien auf der sicheren Seite. Der Prompt enthält die fachliche Struktur – nicht den Inhalt.

    Das Prinzip in einem Satz: Die KI sieht die Landkarte, nicht das Territorium.

    Die drei Beispiele zeigen den Unterschied konkret:

    Bei der DQ-Prüfung gilt: nicht „hier sind meine Daten, was stimmt nicht?“, sondern „hier ist meine Validierungsregel – schreib mir den passenden Python-Code“. Der Code wird anschließend lokal auf den Echtdaten ausgeführt, sodass keine sensiblen Daten an die KI übertragen werden.

    Für die Fehleranalyse gilt: nicht „bei Kunde Müller GmbH schlägt Regel 1234 fehl“, sondern „Feldtyp Integer, Regel maturity_days > 0 schlägt fehl – was sind typische Ursachen?“. Übergeben wird also nur die Struktur des Fehlers, nicht der konkrete inhaltliche Bezug.

    Code-Generierung: Nicht die CSV mit 500+ Zeilen Produktionsdaten – sondern das Schema: Feldnamen, Datentypen, Constraints. Das reicht vollständig um validen dbt-Code zu generieren.


    Der Agenten-Layer – die nächste Evolutionsstufe

    Agenten stellen kein Ersatz für Microservices dar. Sie sind eine Ausführungsebene darüber. Der DQ-Agent ruft den DQ-Service auf. Der Code-Agent schreibt dbt-Modelle, die dann im Transformation Layer laufen. Die Schichten bleiben – die Agenten orchestrieren die Arbeit zwischen ihnen.

    Orchestrierungs-Agent

    Plant Aufgaben, delegiert an Spezialagenten, überwacht Ergebnisse, entscheidet über Eskalation an einen Menschen.

    Spezialisierte Agenten

    AgentAufgabeTool-Aufrufe
    DQ-AgentPrüft Input Layer, flaggt Anomalien, erstellt ReportDQ-Service, DWH-Abfrage, Human Escalation
    Research-AgentDurchsucht Docs, interpretiert IReF, beantwortet FachfragenRAG-Pipeline, Claude, BIRD-API
    Code-AgentGeneriert Python/dbt-Modelle, testet ErgebnisCode Execution, Claude, Git
    Lineage-AgentDokumentiert Datenherkunft automatisch, pflegt CDE-KatalogDWH-Abfrage, Metadatenkatalog, ggf. extern verbunden
    Validierungs-AgentPrüft Meldung vor Abgabe auf PlausibilitätValidierungs-Service, Human Escalation

    Guardrails sind architektonisch zu verankern, nicht nur im Prompt: Kein autonomes Abschicken von Meldungen – Kein Echtdaten-Zugriff via KI – Audit-Log je Agent-Aktion -Human-in-the-Loop bei Anomalie-Bestätigung, Meldungs-Freigabe und Regelambiguitäten

    Konkret: Wie der Code-Agent ein dbt-Modell erzeugt

    Der entscheidende Punkt: Der Code-Agent schreibt SQL-Text – er führt nichts direkt auf der Datenbank aus. Acht Schritte vom Auftrag bis zum produktiven Modell:

    • Auslöser – Orchestrierungs-Agent erkennt fehlende Transformationsregel, oder ein Mensch beauftragt direkt
    • Kontext sammeln – Agent liest BIRD-Schema aus dem CDE-Katalog und bestehende dbt-Modelle als Stilvorlage – keine Echtdaten
    • Prompt an Claude – Feldname, Datentyp und Zielattribut werden übergeben, nicht die Vertragsdaten selbst
    • Claude generiert – eine vollständige .sql-Datei als reinen Text – noch keine Ausführung gegen die Datenbank
    • Datei schreiben – der Agent legt die generierte Datei im dbt-Projekt-Repository ab
    • Lokaler Testlauf – dbt run und dbt test laufen lokal – reine Tool-Ausführung, kein LLM mehr beteiligt. Schlägt der Test fehl, geht es zurück zu Schritt 3 mit der Fehlermeldung
    • Human-in-the-Loop – Pull-Request-Review prüft die fachliche Mapping-Logik. Kein automatischer Merge – der Mensch entscheidet
    • Merge in Produktion – erst jetzt wird das Modell Teil des regulären dbt run und läuft ab sofort bei jedem Pipeline-Durchlauf mit – versioniert, dokumentiert, Audit-Trail vollständig
    Nur die Schritte 3 und 4 sind „KI“. Alles andere – Lesen, Schreiben, Testen, Mergen – ist klassische Software- und Git-Logik. Der Agent orchestriert, das LLM generiert einen einzigen Textblock, der Mensch entscheidet am Ende.

    Neue Rollen in der Agenten-Ära

    RolleAgent ArchitectAgent EngineerSolution Owner
    ZielprofilDesignt Agenten-TopologieBaut & wartet AgentenVerantwortet neu auch Agenten-Output
    AufgabenDefiniert Tool-Grenzen, Plant Guardrails, SicherheitsarchitekturSchreibt Prompts & Tools, Testet Agenten-VerhaltenDefiniert Eskalationsregeln, Stellt regulat. Korrektheit sicher, Koordiniert mit Security & Compliance
    Schwerpunkteher technischeher operativFach & Governance & KI

    Der Solution Owner in der Agenten-Ära ist nicht derjenige, der Agenten baut – sondern derjenige, der verantwortet, was sie tun. Er definiert Eskalationsregeln, stellt sicher, dass der Output regulär korrekt ist, und ist der Ansprechpartner, wenn ein Agent falsch entschieden hat. Das ist eine Fach- und Governance-Rolle mit technischem Verständnis.


    Tech-Stack – heute verfügbar

    BereichTechnologie
    InfrastrukturAWS, Terraform, Docker/Podman, AWS IAM/RBAC, VPC/Private Endpoints
    DatenBIRD-DWH (PostgreSQL / Snowflake / Redshift)
    KIClaude via AWS Bedrock
    Transformationdbt SQL-Modelle, Git-versioniert
    RAGLangChain, Vektor-DB (pgvector / Chroma)
    DQPython, pandas, scikit-learn, Isolation Forest
    Agenten-FrameworkLangGraph, CrewAI
    OrchestrierungApache Airflow / Prefect
    MonitoringAWS CloudWatch, Audit-Logs
    CI/CDGitHub Actions für automatische Tests

    Model Agnosticism als Architekturprinzip

    AWS Bedrock mit Claude ist ein guter Einstieg – aber kein Pflichtprogramm. Die Architektur sollte von Anfang an modellunabhängig sein. Das Stichwort: Model Agnosticism. Wer den KI-Aufruf hinter einem einheitlichen Gateway abstrahiert, kann das Modell wechseln ohne die Architektur anzufassen – dasselbe Prinzip wie bei den Microservices.

    Statt: response = claude.invoke(prompt)

    Besser: response = llm_gateway.invoke(prompt, model=„claude-sonnet“)  –  oder model=„qwen-72b-local“  –  oder model=„mistral-large-eu“

    Mögliche Tools dafür: LiteLLM als universelles Gateway, Ollama für lokale Modelle, LangChain als Abstraktionsschicht.

    Drei Deployment-Optionen für den KI-Layer – je nach Datenschutzanforderung und Reifegrad:

    OptionModellVorteilHinweis
    Cloud in der EUClaude via AWS Bedrock (eu-central-1)Beste Qualität und sofort verfügbarDaten verlassen Infrastruktur (DSGVO-konform konfigurierbar)
    EU-ModelleMistral Large · Aleph Alpha LuminousEU-Jurisdiktion · Aleph Alpha BSI-geprüftStark für regulierte Branchen – on-premise möglich
    Lokal / On-PremiseQwen 2.5 72B – Llama 3.3 70B – Mistral lokal via OllamaKeine externen Calls – volle Datensouveränität -DSGVO-Problem entfälltHardware-Investment -für DQ/Code/RAG bereits ausreichend stark
    Die Qualitätsfrage lokaler Modelle ist heute anders als vor 18 Monaten. Qwen 2.5 72B und Llama 3.3 70B sind für Code-Generierung, SQL und RAG auf Dokumenten bereits sehr gut. Für komplexe Reasoning-Aufgaben liegt Claude noch vorne – aber der Abstand schrumpft schnell. Auch europäische Alternativen entwickeln sich stetig weiter.

    Fazit: Architektur ist eine bewusste Entscheidung

    Diese Architektur ist kein Zukunftsroman. Jede einzelne Komponente ist bereits heute verfügbar. Was fehlt, ist nicht die Technologie – sondern die Bereitschaft, Datenhoheit, Transparenz und Governance von Anfang an mitzudenken.

    • BIRD gibt die Struktur vor.
    • Microservices lösen die Plattformabhängigkeit.
    • Agenten übernehmen die Orchestrierung.
    • Der Mensch behält die Verantwortung – in den Daten und in den Prozessen.

    Was haltet ihr von dieser Architekturskizze? Wo seht ihr die größten Hürden bei der Umsetzung – technisch, organisatorisch oder regulatorisch? Ich freue mich auf einen regen Austausch.

  • Warum BIRD die perfekte Datenbasis für KI-gestützte Anomalieerkennung ist

    AnaCredit • BIRD • Machine Learning – drei Dinge, die zusammengehören

    Es ist kurz vor Meldeschluss. Ein Wert fällt auf. Irgendjemand hat irgendwo etwas in den angelieferten Daten geändert. Oder nicht geändert.

    Datenqualitätsprobleme im Meldewesen werden meistens dann sichtbar, wenn es zu spät ist – kurz vor der Abgabe, unter Zeitdruck, mit begrenztem Spielraum für Ursachenforschung.

    Was wenn KI diese Probleme Tage früher erkennen könnte – automatisch, in der Pipeline, bevor der Mensch überhaupt hinschaut?

    Warum BIRD die ideale Grundlage ist

    BIRD ist mehr als ein Datenbuch. Es ist ein strukturiertes Schichtmodell: Input Layer, Transformation Layer, Output Layer. Jede Schicht hat definierte Attribute, bekannte Beziehungen, erwartbare Werteverteilungen.

    Genau das braucht ein Machine-Learning-Modell für Anomalieerkennung:

    • Bekannte Struktur – BIRD definiert, welche Felder existieren und wie sie zusammenhängen
    • Erwartbare Muster – AnaCredit-Daten folgen regulären Logiken: Laufzeiten, Risikoklassen, Exposures haben historische Verteilungen
    • Klare Schichtgrenzen – Anomalien lassen sich einer Schicht zuordnen: Liegt das Problem im Input, in der Transformation, oder erst im Output?

    Ein Data Scientist ohne Meldewesenhintergrund sieht einen Datensatz mit Auffälligkeiten. Ein Regulatory Data Scientist sieht sofort: dieser Wert kann in diesem Kontext nicht stimmen – und weiß warum. Das ist der Heimvorteil.

    Das Konzept: Anomalieerkennung in drei Stufen

    Stufe 1 – Statistische Ausreißer im Input Layer

    Machine-Learning-Modelle wie Isolation Forest oder Autoencoder lernen die normale Verteilung historischer AnaCredit-Daten. Neue Datenanlieferungen werden dagegen geprüft – die Ausreißer werden markiert, nicht verworfen.

    Stufe 2 – Regelbasierte Plausibilitätsprüfung im Transformation Layer

    Hier kommt die Fachkompetenz ins Spiel. Bekannte Geschäftsregeln, bspw. keine negativen Nominalbeträge – werden als Validierungslogik kodiert. Das ist regelbasierte KI.

    Stufe 3 – Trendabweichungen im Output Layer

    Datasets, die sich von Periode zu Periode ungewöhnlich stark verändern, werden geflaggt. Nicht abgelehnt – sondern zur menschlichen Prüfung markiert.

    Die KI entscheidet nicht, sie priorisiert und gibt dem Anwender profunde Analyseergebnisse.

    Ein Blick in die Praxis: Erste Experimente

    Ich habe begonnen, dieses Konzept in einem ersten Experiment umzusetzen – mit synthetischen AnaCredit-Daten, Python und einem Isolation-Forest-Modell.

    import pandas as pd
    from sklearn.ensemble import IsolationForest
    
    # Synthetische AnaCredit-Daten laden
    df = pd.read_csv('anacredit_input_layer.csv')
    
    # Numerische Features für das Modell auswählen
    features = ['outstanding_amount', 'maturity_days', 'interest_rate']
    X = df[features].dropna()
    
    # Isolation Forest trainieren
    model = IsolationForest(contamination=0.05, random_state=42)
    df['anomaly_score'] = model.fit_predict(X)
    
    # Ausreißer markieren: -1 = Anomalie, 1 = normal
    anomalies = df[df['anomaly_score'] == -1]
    print(f"{len(anomalies)} potenzielle Anomalien gefunden")

    Das Modell hat mit synthetischen Daten bereits Muster erkannt, die ich fachlich nachvollziehen konnte. Nicht perfekt – aber als Frühwarnsystem vielversprechend.

    Was noch fehlt – und warum das ehrlich ist

    Ich bin noch nicht fertig. Das Modell läuft auf synthetischen Daten, nicht auf echten Meldedaten. Die Schnittstelle zur BIRD-API ist im Aufbau. Und die Frage, wie man False Positives sinnvoll reduziert – also Ausreißer, die technisch auffällig aber fachlich korrekt sind – ist noch offen.

    Aber genau das ist der Punkt dieser Serie: Den Weg zeigen, nicht nur das Ziel.

    Fazit: Fachkompetenz ist der eigentliche Algorithmus

    KI-Anomalieerkennung im Meldewesen ist kein Data-Science-Projekt. Es ist ein Fachprojekt mit Data-Science-Werkzeugen.

    • BIRD liefert die Struktur.
    • AnaCredit liefert die (historischen) Muster.
    • Der Meldewesenexperte liefert das Urteilsvermögen, das entscheidet, was eine echte Anomalie ist – und was nur ein ungewöhnlicher, aber korrekter Wert.

    Das kann kein Algorithmus alleine leisten.


    Welche Erfahrungen habt ihr mit automatisierten DQ-Prüfungen im Meldewesen? Und: Setzt ihr bereits ML-basierte Ansätze ein – oder ist das noch Zukunftsmusik in euren Häusern?

    Ich freue mich auf den Austausch.

    #BIRD #IReF #AnaCredit #Meldewesen #DataGovernance #KI #MachineLearning #RegulatoryDataScientist #Datenqualität #Bankenmeldewesen

  • Plattform? Architektur! Warum im Meldewesen die falsche Frage gestellt wird

    Plattform? Architektur! Warum im Meldewesen die falsche Frage gestellt wird

    Meinungsbeitrag

    Ich lese gerade viel über Meldewesen-Plattformen, denn das Thema ist allgegenwärtig: Jeder hat eine, jeder braucht eine, jeder kauft eine. Aber wenn ich genauer hinschaue, merke ich: Die Frage, die gestellt wird, ist Welche Plattform? – nicht Welche Architektur?

    Das ist ein Problem.

    „Plattform“ ist ein Vermarktungsbegriff

    Wolters Kluwer, Regnology – sie alle nennen ihr Produkt „Plattform“. Das ist legitim, aber der Begriff transportiert keine Architekturentscheidung. Er transportiert lediglich ein Leistungsversprechen, während das, was unter der Haube passiert, meistens unsichtbar bleibt:

    • Wo liegt die Daten-Ownership – beim Kunden oder in der Plattform?
    • Wie eng sind fachliche Logik und technische Implementierung gekoppelt?
    • Was passiert, wenn BIRD/IReF die Anforderungen ändert – ist die Logik austauschbar oder einbetoniert?
    • Wer versteht noch, was die Plattform eigentlich tut – der Anbieter, der Kunde, niemand?

    Wenn ein Datenfehler auftritt, weiß oft niemand mehr, wo er entsteht. Nicht weil die Menschen inkompetent sind, sondern weil die Plattform eine Blackbox geworden ist.

    Plattform vs. Architektur: Der Unterschied

    Plattform-DenkenArchitektur-Denken
    Wir brauchen eine LösungWir brauchen ein Modell
    Fokus: Features & LizenzenFokus: Schichten, Übergänge, Ownership
    Datenfluss ist Sache des AnbietersDatenfluss ist dokumentiert & verstanden
    Fehlersuche endet beim Support-TicketFehlersuche beginnt im eigenen Haus
    Abhängigkeit wächst mit jeder VersionUnabhängigkeit durch Verständnis
    Wechsel = ProjektWechsel = kalkulierbar

    BIRD ist kein Datenbuch – BIRD ist Architektur

    IReF/BIRD ist im Kern eine explizite Architekturentscheidung der EZB: Input Layer, Transformation Layer, Output Layer. Da definierte Attribute, klare Schichtgrenzen und nachvollziehbare Transformationslogik festgelegt sind, bietet BIRD genau das, was fehlt, wenn nur über Plattformen gesprochen wird: Transparenz über Datenflüsse, Verantwortung für Datenübergänge und Klarheit darüber, wo Logik sitzt und wer sie verantwortet.

    Wer BIRD wirklich versteht, versteht Architektur. Und wer Architektur versteht, kann Plattformen beurteilen, steuern – und im Zweifelsfall wechseln.

    Die provokante These

    Banken, die nur Plattformen kaufen, ohne Architektur zu verstehen, geben Kontrolle ab – über ihre Daten, über ihre Prozesse und über ihre Fähigkeit, Fehler zu verstehen und zu beheben.

    Das ist kein Vorwurf an die Anbieter, sondern ein Aufruf an die Fachbereiche. Architektur-Kompetenz gehört nicht nur in die IT, sondern auch in die Fachbereiche, die mit den Daten arbeiten, die Meldungen verantworten und die Qualität sichern. Im Meldewesen sind das wir.

    Und noch eine schärfere Frage: Was, wenn die Daten gar nicht granular genug sind?

    Eine Meldewesen-Plattform ist im Kern eine Maschine, die Daten in Meldepositionen transformiert. Wenn die Quelldaten nicht granularer werden, macht die Plattform dasselbe wie vorher – nur teurer und mit mehr Abhängigkeit.

    Plattformen lösen keine Datenprobleme. Sie verarbeiten Daten.

    IReF fordert explizit granularere Daten auf Einzelgeschäftsebene, da dies keine Softwareanforderung ist, sondern eine Datenanforderung. Die Entscheidung „wir kaufen eine neue Plattform für IReF“, ohne gleichzeitig die Datengranularität zu adressieren, ist deshalb im besten Fall unvollständig und im schlechtesten Fall eine teure Ablenkung.

    Die Fragen, die vorher gestellt werden müssten:

    • Welche Daten fehlen uns heute auf Einzelgeschäftsebene?
    • Welche Quellsysteme liefern noch aggregiert statt granular?
    • Wer ist verantwortlich für die Datenanreicherung – Meldewesen, IT, Rechnungswesen?
    • Was muss sich in der Datenhaltung ändern, bevor eine neue Plattform Sinn ergibt?

    Eine Plattform, die nicht-granulare Daten schneller verarbeitet, löst kein Problem. Sie beschleunigt es.

    Was ich mir wünsche

    • Mehr Gespräche über Datenflüsse – nicht nur über Features
    • Mehr Fragen an Anbieter: Wie ist eure Transformationslogik dokumentiert?
    • Mehr BIRD-Kompetenz in den Fachbereichen – nicht nur bei der IT
    • Weniger Welche Plattform? – mehr Welche Architektur?

    Eine gute Plattform und eine gute Architektur schließen sich zwar nicht aus, aber man braucht Architektur-Kompetenz, um eine Plattform beurteilen zu können – nicht andersherum.

    Ausblick: Das Ende der Blackbox-Plattform?

    Das Data Point Model (DPM) – das Metadatenmodell hinter CoRep, FinRep und den bisherigen EBA-Rahmenwerken – denkt vom Output her: Was muss gemeldet werden? BIRD hingegen denkt vom Input her: Welche Daten existieren, und wie werden sie transformiert?

    Das ist ein fundamentaler Paradigmenwechsel, der eine logische Konsequenz für die Architektur hat. Da BIRD als gemeinsames Datenmodell dient, zeichnet sich langfristig eine Struktur ab, die einem Data Warehouse näher ist als einer klassischen Meldeplattform – Staging Layer, Core Layer, Reporting Layer – nur eben regulär. Transparent, schichtenbasiert, mit Datenhoheit beim Kunden.

    Die Meldeplattform würde damit zur Ausgabeschicht, weil die Logik nicht mehr in ihr steckt, sondern darunter.

    Transparente Schichten, austauschbare Ausgabeschicht, Datenhoheit beim Kunden – nicht trotz Regulierung, sondern durch sie.

    Wer diesen Gedanken zu Ende denkt, landet bei Microservices, die sich an einer gemeinsamen Datenbasis bedienen, sodass jeder Melderahmen als eigenständiger Service fungiert – austauschbar, testbar, unabhängig. CoRep als Service, AnaCredit als Service, LCR als Service. Alle lesen aus derselben granularen, BIRD-konformen Datenbasis.

    Änderung in IReF? Nur der IReF-Service wird angefasst, während alle anderen Rahmen unberührt bleiben. Neue Anforderung? Neuer Service – kein Plattform-Release.

    Das ist kein Zukunftsroman, sondern der logische nächste Schritt aus dem, was BIRD architektonisch vorgibt. Dazu mehr in einem eigenen Artikel.


    Wie seht ihr das? Habt ihr das Gefühl, dass Architektur-Fragen im Meldewesen zu kurz kommen – oder übertreibe ich? Ich freue mich auf die Diskussion, auch – und gerade – auf Widerspruch.

    #Meldewesen #BIRD #IReF #Architektur #Datenqualität #DataGovernance #Bankenmeldewesen #RegulatoryDataScientist #Meinung

  • Wo fange ich an? Wie ich den KI-Einstieg gefunden habe – und was mir geholfen hätte

    Wo fange ich an? Wie ich den KI-Einstieg gefunden habe – und was mir geholfen hätte

    Teil 3 der Serie „Von Meldewesen zu KI“ – Von Markus H., Manager msg for banking ag

    Ich stand vor dem Wald. ChatGPT, Claude, Gemini, Perplexity, LangChain, Hugging Face, PyTorch, TensorFlow, RAG, Fine-Tuning, Prompt Engineering, Agenten, Copiloten – und das war nur, was ich an einem Nachmittag gegoogelt hatte. Jeder schien zu wissen, wo er anfangen soll. Ich nicht.

    Das Paralysis-Problem

    Das Ironische: Je mehr ich recherchierte, desto weniger wusste ich, womit ich anfangen sollte. Jeder Artikel empfahl etwas anderes. Jeder LinkedIn-Post klang als wäre es selbstverständlich. Und ich saß da mit meinem Meldewesen-Hintergrund und dachte:

    Für wen ist das eigentlich geschrieben? Nicht für mich.

    Die meisten Einstiegsguides setzen entweder null technisches Verständnis voraus – oder ein abgeschlossenes Informatikstudium. Die Mitte, in der ich mich befand, wurde kaum adressiert.

    Was mir wirklich geholfen hat: Die Frage anders stellen

    Statt Was soll ich lernen? habe ich angefangen zu fragen:

    Was will ich damit lösen?

    Bei mir war die Antwort konkret: Ich hatte eine Idee – Datenqualitätsprüfung im BIRD-Umfeld, früher, automatisierter, weniger reaktiv. Ich wusste noch nicht, ob das mit KI funktioniert. Ich wusste noch nicht, wie.

    Und ich habe auch nicht eine präzise Frage gestellt und auf die perfekte Antwort gewartet. Ich habe eine Konversation gestartet. Mit Claude. Ohne klares Ziel, ohne fertigen Plan – einfach Ich habe dieses Problem, lass uns darüber reden.

    Das hat alles verändert. Plötzlich war der Wald kein Wald mehr – sondern ein Pfad.

    Mein tatsächlicher Einstieg – ohne Umwege

    Schritt 1: Eine Spielwiese bauen – so einfach wie möglich

    Ich habe nicht mit der perfekten lokalen Umgebung angefangen. Ich habe mit Google Colab angefangen – Browser auf, Python läuft, fertig. Kein Setup, keine Installation, kein warum funktioniert das nicht.

    Phase 1: Google Colab (Einstieg)Phase 2: Lokal / Cloud (Vertiefen)
    Browser auf, sofort startklarAnaconda & VS Code lokal installieren
    Kein lokales Setup nötigVolle Kontrolle über Umgebung
    Kostenlos, GPU auf KnopfdruckUnternehmens-AWS als nächster Schritt
    Ideal zum ersten AusprobierenWenn klar ist: Ich bleibe dran

    Schritt 2: Einen Kurs – aber den richtigen

    Ich habe nicht zehn Kurse angefangen. Ich habe einen durchgezogen. Das ist der Unterschied.

    RessourceWarum empfehlenswertFür wen
    fast.ai (kostenlos)Top-down-Ansatz: erst das Ergebnis, dann das Warum. Passt zu Praktikern.Wer Ergebnisse vor Theorie will
    Kaggle Learn (kostenlos)SQL & Python in je 4–6h, direkt im Browser. Kein Setup.Absoluter Einstieg, sofort anwendbar
    Hands-On ML – Aurélien GéronDas Standardwerk. Praxisnah, vollständig, gut erklärt.Wer es gründlich angehen will
    The 100-Page ML Book – BurkovKompakt, präzise. Kein überflüssiges Wort.Zum Nachschlagen & Überblick behalten
    DeepLearning.AI auf CourseraPrompt Engineering für Entwickler – auch ohne Code-Erfahrung umsetzbar.Für den LLM-Schwerpunkt

    Schritt 3: KI als tägliches Werkzeug – nicht als Projekt

    Den größten Sprung hat nicht ein Kurs gebracht. Sondern die Entscheidung, Perplexity und Claude täglich zu nutzen – für Recherche, für Texte, für Code den ich noch nicht selbst schreiben konnte.

    Das klingt banal. Aber der Unterschied zwischen ich probiere KI manchmal aus und KI ist mein erster Griff am Morgen ist enorm.

    ToolWofür ich es täglich nutzeEinstieg
    Perplexity.aiRegulatorische Recherche – IReF, BIRD, CRR – mit QuellenangabeKostenlos, sofort nutzbar
    ClaudeTexte strukturieren, Code generieren, Ideen durchdenkenClaude.ai, kostenlos
    Python / pandasDatenanalyse, DQ-Prüfungen, Gap-Analysen im BIRD-UmfeldGoogle Colab als Einstieg
    Jupyter NotebooksAnalyse-Umgebung für explorative ArbeitLokal oder in der Cloud

    Was ich gelernt habe

    KI ist kein Hype. Sie ist ein Werkzeug – wie Excel, wie SQL, wie ein Taschenrechner. Der Unterschied: Dieses Werkzeug multipliziert deine vorhandene Expertise, anstatt sie zu ersetzen.

    Wer das Meldewesen kennt, wer BIRD versteht, wer weiß wo Daten entstehen und wo sie fehlen – der hat einen Vorsprung vor jedem Data Scientist ohne regul. Hintergrund.

    Du musst keine KI bauen. Du musst KI nutzen können. Du brauchst kein Studium – du brauchst eine Spielwiese, Neugier, eine ordentliche Portion Frustrationstoleranz und den ersten Schritt.

    Was ich dabei unterschätzt habe: Frustrationstoleranz

    Der erste Code läuft nicht. Das Modell macht nicht, was man erwartet. Die Fehlermeldung ergibt keinen Sinn. Man googelt, findet eine Lösung, die beim nächsten Problem nicht mehr funktioniert. Das ist normal – und es gehört dazu.

    Wer im Meldewesen jahrelang komplexe Migrationsprojekte begleitet hat, bringt genau diese Resilienz bereits mit. Das ist ein weiterer Heimvorteil, den man nicht unterschätzen sollte.

    Ich habe schon um 22 Uhr auf eine kryptische Python-Fehlermeldung gestarrt und kurz daran gezweifelt, ob das alles Sinn ergibt. Spoiler: Es ergibt Sinn. Man muss nur weitermachen.

    Ich habe nicht alles davon komplett durchgearbeitet. Ich habe angefangen, bin auf Probleme gestoßen, habe gesucht, gelöst – und dabei gelernt. Das ist der effektivere Weg als jeder Kurs.

    Der Wald lichtet sich. Aber nur wenn du reingehst.


    Wie war euer Einstieg? Habt ihr auch vor dem Wald gestanden – oder hattet ihr von Anfang an einen klaren Pfad? Und: Welches Tool hat bei euch den größten Unterschied gemacht?

    #KIEinstieg #Lernen #RegulatoryDataScientist #Meldewesen #Python #BIRD #IReF #Bankenmeldewesen #MachineLearning

  • 𝗩𝗼𝗺 𝗠𝗲𝗹𝗱𝗲𝘄𝗲𝘀𝗲𝗻𝗲𝘅𝗽𝗲𝗿𝘁𝗲𝗻 𝘇𝘂𝗺 𝗥𝗲𝗴𝘂𝗹𝗮𝘁𝗼𝗿𝘆 𝗗𝗮𝘁𝗮 𝗦𝗰𝗶𝗲𝗻𝘁𝗶𝘀𝘁 – was bedeutet das konkret?

    𝗩𝗼𝗺 𝗠𝗲𝗹𝗱𝗲𝘄𝗲𝘀𝗲𝗻𝗲𝘅𝗽𝗲𝗿𝘁𝗲𝗻 𝘇𝘂𝗺 𝗥𝗲𝗴𝘂𝗹𝗮𝘁𝗼𝗿𝘆 𝗗𝗮𝘁𝗮 𝗦𝗰𝗶𝗲𝗻𝘁𝗶𝘀𝘁 – was bedeutet das konkret?

    In meinem letzten Artikel habe ich beschrieben, wie BIRD und IReF das Meldewesen grundlegend verändern werden – und dass Meldewesenexperten sich dabei zu „Regulatory Data Scientists“ entwickeln. Heute mache ich diesen Begriff konkret: Was bedeutet das in der Praxis? Und warum ist Datenqualität der Dreh- und Angelpunkt dieser Transformation?

    Was ist ein Regulatory Data Scientist – und warum ist das kein Buzzword?

    Ein klassischer Meldewesenexperte denkt in Meldepositionen, Rechtsquellen und Validierungsregeln. Ein Data Scientist denkt in Datenstrukturen, Datenpipelines und Modellen. Ein Regulatory Data Scientist vereint beides – und genau das wird im IReF-Umfeld zur Schlüsseldisziplin.

    Vorher – Meldewesenexperte: Er kennt die Meldewesenpositionen auswendig und spricht die CRR fließend für seinen Bereich. Excel ist sein bester Freund in der manuellen Analyse der meldungsrelevanten Daten. Er reagiert er auf Fehler.

    Künftig – Regulatory Data Scientist: Der versteht (Daten)Modelle strukturell, insbesondere BIRD strukturell. Arbeitet mit Python, SQL und anderen (Cloud-basierten) Tools. Dieser kennt sich auch in der Arbeit mit AI aus, sie ist integraler Bestandteil seiner Arbeit. Auch ist er in der Lage, Datenqualität in der Datenpipeline zu prüfen – noch bevor sie in das Meldewesentool der Wahl geht. Dadurch ist er in der Lage, Fehler zu antizipieren.

    Datenqualität: Der nicht mehr ganz so blinde Fleck im Meldewesen

    Die grösste Lektion aus zehn Jahren Migrationsprojekten lautet: Die Fehler liegen nicht nur in der Meldewesensoftware selbst. Sie entstehen viel früher – in den zuliefernden Systemen, an Schnittstellen, in manuell gepflegten Stammdaten und Prozessen.

    Der Regulatory Data Scientist löst sich von der reaktiven Fehlerkorrektur. Stattdessen etabliert und treibt er Datenqualität als kontinuierlichen Prozess mit an – direkt im und am Datenpfad, lange bevor die Meldung generiert wird.

    Der DQ-Ansatz im IReF-Einführungsprojekt

    Grundlage dieses Ansatzes: Die EZB hat signalisiert, dass IReF im BIRD-Modell abgebildet werden soll. Diese Weichenstellung ist entscheidend – denn sie bedeutet, dass die BIRD API bereits heute als Ausgangspunkt für eine strukturierte (DQ-)Vorbereitung genutzt werden kann.

    Phase 1: Inventarisierung

    Hierzu dient die BIRD API als Grundlage. Mittels dieser API kann die gewünschte Meldung (Framework) auf Ebene des Input Layers extrahiert, der eigene Datenhaushalt dagegen gemappt und ein Gap-Analyse Dokument als lebendiges Dokument erstellt werden.

    Phase 2: Profiling mittels Python

    Es gibt genügend OpenSource Bibliotheken (u.a. pandas profiling, Great Expectations), die ein automatisches DQ-Reporting ermöglichen. Damit lassen sich DQ-Scorecards je Meldebereich erstellen.

    Phase 3: Monitoring

    Es werden mittels den Datenpunkten Dashboards errichtet und deren Status mittels einer Ampellogik verfolgt und dokumentiert.

    Phase 4: Remediation

    Mittels Tickets werden die Fehler adressiert und möglichst zeitnah an der Quelle behoben.

    Praxisbeispiel: DQ-App für BIRD/IReF

    Genau dieser Ansatz hat mich bewogen, einen POC einer Datenqualitäts-App für BIRD/IReF zu entwickeln. Das Ziel war keine Produktionslösung – dafür gibt es ausgereifte Softwareprodukte. Ziel war eine Vorstudie und Standortbestimmung: Wo stehen wir heute? Welche Datenpunkte fehlen? Wo sind die kritischen Lücken, bevor wir in die IReF-Implementierung einsteigen?

    Die Architektur des POC folgt bewusst dem BIRD-Schichtmodell:

    • Input Layer: Vollständigkeitsprüfung aller geforderten Attribute
    • Transformation Layer: Konsistenzprüfungen zwischen abhängigen Datenpunkten
    • Output Layer: Quervalidierung gegen erwartete Meldepositionen

    Das Ergebnis ist keine fertige Software – sondern ein strukturiertes Bild des eigenen Datenhaushalts. Und genau das ist der erste Schritt, den jede Bank vor 2029 gegangen sein sollte.

    Welche Fähigkeiten braucht der Regulatory Data Scientist?

    Niemand muss von heute auf morgen zum Vollzeit-Data-Scientist werden. Aber ein gezielter Kompetenzaufbau in 4 Bereichen macht den Unterschied:

    Datenkompetenz ist das absolute Fundament – Wer DQ-Probleme nicht lesen und analysieren kann, kann sie auch nicht lösen. SQL und Profiling sind dabei die minimalsten Werkzeuge, die jeder braucht, der Datenpipelines verstehen will.

    Python-Grundlagen sind der natürliche nächste Schritt – es ist das De-facto-Standardwerkzeug für Data Analytics. pandas und Great Expectations sind konkret auf DQ-Aufgaben zugeschnitten und leisten hervorragende Arbeit.

    Meldewesenexpertise ist die fachliche Differenzierung und Multiplikator – das ist der Punkt, der einen Regulatory Data Scientist von einem normalen Data Scientist unterscheidet. Er kennt die Meldeprozesse, Datenflüsse, regulatorische Logik. BIRD ist die Zugabe als aktuelle Formalisierung.

    KI-Grundlagen sind ebenso wichtig. Der Regulatory Data Scientist muss keine KI bauen – er muss KI nutzen können. Wer bspw. Perplexity für (regulatorische) Recherche einsetzt und Claude für die Code-Umsetzung, multipliziert seine eigene Expertise, ohne Data-Science-Studium.

    Der Regulatory Data Scientist ist keine Zukunftsvision. Er ist eine Notwendigkeit – und mit gezieltem Kompetenzaufbau auch für jeden erfahrenen Meldewesenexperten erreichbar.

    Fazit: Datenqualität ist keine IT-Aufgabe – sie ist eine Fachaufgabe

    Die vielleicht wichtigste Erkenntnis aus meiner Arbeit: Datenqualitätsprobleme sind fast immer fachliche Probleme mit technischem Symptom. Wer im IReF-Zeitalter erfolgreich sein will, muss beides können – die regulatorische Substanz und die datentechnische Umsetzung verstehen.

    Ausblick: Wer die Daten im Griff hat, kann KI ernten

    Und hier schliesst sich der Kreis: Wer saubere,qualitätativ hochwertige granulare Daten (im BIRD-Format vorhält), legt gleichzeitig die Grundlage für den nächsten Entwicklungsschritt. Denn KI-Modelle sind nur so gut wie die Daten, auf denen sie trainiert werden.

    Wer heute investiert – in DQ-Prozesse, in Datenpipelines, in das Verständnis des BIRD-Modells – der öffnet morgen die Tür für KI-gestützte Anomalieerkennung, automatisierte Plausibilitätsprüfungen und LLMs als Regulatory Interpreter (meine Bold Prediction 🙂 ). Datenqualität ist nicht das Ziel – sie ist die Voraussetzung.

    Wie das in der Praxis aussieht – und welche KI-Werkzeuge im regulatorischen Arbeits(Umfeld) wirklich funktionieren können – das ist Thema von Teil 3.

  • Willkommen !

    Willkommen !

    Willkommen bei ScriptedInsights – wo Daten nicht nur Zahlen sind, sondern Geschichten erzählen!

    Schön, dass du hier gelandet bist – irgendwo zwischen Ticketsystemen und Wikis , Regulatorik-Dschungel und der Frage„Kann man das nicht automatisieren?“.

    Hier findest du meine Gedanken, private Experimente und Meinungen aus der Schnittmenge von Data Engineering, RegTech und dem „Was passiert, wenn wir da mal KI draufwerfen?“-Ansatz.

    Wenn du auf klare Praxisbeispiele, ehrliche Lessons Learned und gelegentlich trockenen Humor stehst: Fühl dich zuhause, schnapp dir einen Kaffee und klick dich durch.

    Was dich hier erwartet

    Tech-Deep-Dives zu Datenarchitektur, Cloud & Automatisierung – ohne Marketing-Blabla.

    Geschichten aus dem Maschinenraum: Private Projekte, die funktioniert haben, und die, aus denen man vor allem gelernt hat.

    Ab und zu ein Blick über den Tellerrand: Produktivität, Tools und kleine Hacks für den Alltag mit zu vielen Meetings und zu wenig Fokus.

  • IReF (Integrated Reporting Framework) – Die Evolution des Bankenmeldewesens

    Die European Central Bank revolutioniert mit IReF ab 2029 das Meldewesen.

    Und das frei verfügbare BIRD (Banks‘ Integrated Reporting Dictionary) Modell bietet bereits heute eine solide Grundlage für die Vorbereitung auf IReF. Der Input Layer (IL) beispielsweise ermöglicht erste Tests von ETL-Prozessen und gibt Einblicke in kommende Anforderungen.

    Besonders spannend: Moderne Data Analytics Tools, insbesondere Python mit seinen Open-Source-Bibliotheken, ermöglichen schon jetzt eine erste detaillierte Gap-Analyse zwischen BIRD-Anforderungen und dem eigenen Datenhaushalt. Diese frühe Analyse der Datenqualität ist ein entscheidender Erfolgsfaktor.

    Der Wandel bedeutet aber auch: Meldewesenexperten entwickeln sich zu „Regulatory Data Scientists“. Dies erfordert eine klare Strategie zum Kompetenzaufbau. Cloud-Technologien wie AWS/Azure, kombiniert mit Docker und Jupyter Notebooks, schaffen ideale Analyse-Umgebungen für diesen Transformationsprozess.