2. FAIR Data Spaces-Workshop
(stattgefunden am 15. März 2022)
Hier finden Sie die Nachberichte zu unserem zweiten FAIR Data Spaces-Projektworkshop am 15. März 2022. Unser Workshop war Teil der BMBF-Veranstaltung „Leitbild einer fairen Datenökonomie in Deutschland und Europa“, organisiert vom Fraunhofer-Verbund IUK-Technologie und unter der Schirmherrschaft von Bundesforschungsministerin Bettina Stark-Watzinger.
Folgende Sessions waren Bestandteil des Events:
- Win-win für Wissenschaft und Wirtschaft durch FAIR Data Spaces
- Architektonische Grundlagen für den Datenaustausch über Datenräume hinweg
- Demonstratoren für den Datenaustausch zwischen Wirtschaft und Wissenschaft
Win-win für Wissenschaft und Wirtschaft durch FAIR Data Spaces
Der Deep-Dive “Win-win für Wissenschaft und Wirtschaft durch FAIR Data Spaces” konzentrierte sich auf erste Schritte zum Aufbau einer gemeinsamen Community, indem sie Hindernisse aufzeigte und die notwendigen Mittel zu deren Überwindung ermittelte. Die Sitzung wurde interaktiv gestaltet, um eine maximale Beteiligung des Publikums zu ermöglichen.
Impuls-Vortrag – rechtliche Perspektive
Das Projekt FAIR Data Spaces verbindet zwei unterschiedliche Welten: NFDI und Gaia-X. Der Austausch wissenschaftlicher Forschungsdaten in NFDI ist durch kooperative Effekte und durch die FAIR-Prinzipien (findable, accessible, interoperable, reusable, d.h. auffindbar, zugänglich, interoperabel und wiederverwendbar) gekennzeichnet. Gaia-X hingegen soll den Austausch von Daten aus der Industrie fördern und ist daher primär durch Vertraulichkeit und protektionistische Prinzipien geprägt. Nur in Ausnahmefällen kann ein Datenaustausch über kartellrechtliche Zwangslizenzen (FRAND) erzwungen werden. Eine besondere Rolle bei der Zusammenführung dieser beiden Vorhaben spielt auch das geplante EU-Datenschutzgesetz. Dieses sieht nämlich vor, dass jeder Nutzende Zugriff auf die von ihm oder ihr – etwa durch Smart Devices – generierten Daten haben und diese mit Dritten teilen können soll. Nach Art. 8 des Entwurfs des EU-Datenschutzgesetzes sollten die Klauseln in den vertraglichen Datenzugangsrechten außerdem fair, angemessen und nicht diskriminierend sein. Damit wird eine Brücke zwischen Gaia-X und den FAIR-Grundsätzen für Rohdaten ohne Personenbezug geschlagen. Allerdings gibt es noch einige rechtliche Fragen, die geklärt werden müssen: So ist im Automobilbereich ein Personenbezug (z.B. bei der VIN) nicht ohne weiteres auszuschließen. Auch generiert nicht der Fahrer eines intelligenten Fahrzeugs die Daten, sondern die vom Hersteller eingebaute Elektronik. Diese rechtlichen Fragen werden vom ITM Münster in Zusammenarbeit mit FIZ Karlsruhe im Rahmen des Projekts FAIR Data Spaces diskutiert.
Die beiden wichtigsten Rechtsbereiche für die Zukunft sind geistiges Eigentum und Datenschutz. In Bezug auf beide Bereiche betonten die Diskussionsteilnehmenden die Notwendigkeit, Klarheit über die Anwendbarkeit des geltenden Rechts in Bezug auf den gemeinsamen Datenraum sowie auf die verschiedenen Verarbeitungsvorgänge, die innerhalb des Datenraums stattfinden können, zu schaffen. Die Diskussionsteilnehmer stellten jedoch auch fest, dass der Rechtsrahmen in beiden Rechtsbereichen fließend und im Wandel begriffen ist – die EU-Datenschutzverordnung wurde als ein Element dieses Wandels diskutiert. Die Einzelheiten der voraussichtlichen Änderungen können jedoch von Faktoren abhängen, die sich im Voraus nur schwer vorhersagen lassen, und dementsprechend merkten die Diskussionsteilnehmenden an, dass eine endgültige Auslegung des Rechts in Bezug auf die Vorgänge in einem gemeinsamen Datenraum und die Verarbeitungen, die innerhalb dieses Raums stattfinden könnten, zumindest in Bezug auf bestimmte Fragen schwierig sein wird. In diesem Zusammenhang betonten die Diskussionsteilnehmer die Notwendigkeit einer kontinuierlichen Überwachung der rechtlichen Entwicklungen im Hinblick auf ihre Auswirkungen auf das geltende Recht. Darüber hinaus betonten die Teilnehmenden die Notwendigkeit, weiter daran zu arbeiten, wie die Möglichkeiten, die das geltende Recht bietet, am besten genutzt werden können, um die Ziele der Gemeinschaft in Bezug auf den gemeinsamen Datenraum rechtlich zu erreichen. In diesem Zusammenhang wiesen die Teilnehmenden auf die Notwendigkeit hin, Klarstellungen des geltenden Rechts und die Möglichkeiten, die das Gesetz bietet, in die Praxis zu übertragen – zum Beispiel durch ELSA-Schulungen.
Community Bildung
Auf die Frage nach Beispielen für eine erfolgreiche Zusammenarbeit zwischen Wissenschaft und Wirtschaft beim Datenaustausch stellten die Teilnehmenden fest, dass es notwendig ist, beide Bereiche miteinander zu verbinden und einen engen Dialog zu fördern, um eine erfolgreiche Zusammenarbeit zu unterstützen. Dies unterstreicht die Bedeutung des FAIR Data Spaces Projekts für die Verbindung beider Bereiche. Auf die Frage, was die Teilnehmenden in Datenräumen nutzen und/oder beitragen möchten, wurde ein gewisses Maß an Transparenz hervorgehoben, um das Vertrauen zwischen allen beteiligten Parteien zu fördern. Auf die Frage nach möglichen Akteuren in der Gemeinschaft wiesen die Teilnehmenden darauf hin, wie wichtig es ist, die Gemeinschaft über Wissenschaft und Wirtschaft hinaus auf andere Bereiche, wie den öffentlichen Sektor, auszuweiten. Darüber hinaus wurde hervorgehoben, dass eine internationale Positionierung des Projekts und eine Abstimmung mit verwandten Initiativen für die Zukunftsperspektive von entscheidender Bedeutung sind.
Architektonische Grundlagen für den Datenaustausch über Datenräume hinweg
Dieser Deep-Dive zu architektonischen Grundlagen für den Datenaustausch zwischen Datenräume begann mit einer Podiumsdiskussion dreier Experten für Datenräume mit unterschiedlichem Hintergrund. Erster Redner in der Runde war Lars Nagel, CEO der International Data Spaces Association, mit seinem Eröffnungsstatement “Eine gemeinsame Governance für Datenräume – Von der Anwendung bis zum Rechtsrahmen”. Ihm folgte Sebastian Kleff, Co-Founder & CEO bei Sovity, der über “Die technischen Implementierungen und ihre Entwicklungen – Ein gemeinsames Ziel der Datensouveränität” referierte. Zu guter Letzt sprach Klaus Ottradovetz, VP Global Service Delivery bei Atos, über “Ein ganzheitlicher Vertrauensrahmen für die Datenwirtschaft – Föderierte Konzepte ermöglichen Vertrauen”.
Die Podiumsdiskussion zeigte einige sehr wichtige Eckpfeiler für den Datenaustausch über Datenräume hinweg auf:
- Faire Datenwirtschaft auf dem europäischen Markt
- Vertrauen durch Technologie
- Dezentralisierung und Föderation
- Automatisierte Nutzung von Daten
- Volle Souveränität beim Datenaustausch
- Autonome und souveräne Datenverarbeitung
Im zweiten Teil der Session diskutierten die Teilnehmenden einige Punkte, die in der Podiumsdiskussion zur Sprache gekommen waren, wie z.B. die große Vielfalt der Initiativen und Akteure und die Nutzbarkeit der Lösungen. Auch ein tieferer Einblick in die aktuelle technische Situation wurde gegeben und diskutiert. Eine große Frage des Publikums zu diesem Thema war, wie man die Lösungen auf einfache Art und Weise nutzbar machen kann, die zum jetzigen Zeitpunkt noch nicht abschließend beantwortet werden konnte.
Am Ende war sich die große Mehrheit einig, dass ein solches Projekt Jahrzehnte braucht, um zum Erfolg zu kommen und dass der Wandel in der Technologie nur mit einem Wandel in der Kultur und der Zusammenarbeit einhergeht.
Eine Aufzeichnung der Deep Dive Session finden Sie hier.
Demonstratoren für den Datenaustausch zwischen Wirtschaft und Wissenschaft
In diesem Deep Dive drehte sich alles um Demonstratoren. Demonstratoren in FAIR Data Spaces sind interaktive Proof-of-Concept-Vorzeigeobjekte, die zur Präsentation und Bewertung neuer, im Projekt entwickelter Konzepte verwendet werden können.
Der erste Teil bot einen Überblick über Komponenten dreier Demonstratoren, die im Rahmen des FAIR Data Spaces Projekts entwickelt werden. Anschließend wurde der Deep Dive in drei Teile aufgeteilt, in denen die Demonstratoren jeweils einzeln vorgestellt wurden. Im Folgenden wird ein kurzer Überblick über diese drei Sessions des Demonstrator-Deep-Dive gegeben.
FAIR-DS Demonstrator NFDI4Biodiversity
In dieser Session wurde ein erster Demonstrator auf der Grundlage von NFDI4Biodiversity-Anwendungsfällen vorgestellt. Für den NFDI4Biodiversity-Demonstrator wurde das Ziel erörtert, das Potenzial der Kombination von Daten aus Wissenschaft und Wirtschaft durch Gaia-X-kompatible Clouds wie die de.NBI Cloud aufzuzeigen. Insbesondere wurden in der Präsentation verschiedene Arten von raum-zeitlichen Biodiversitäts- und Geodaten vorgestellt. Anschließend wurde deren Kombination durch visuelle Analysen erforscht.
Im zweiten Teil der Session wurde ein detaillierterer Blick auf Geo Engine geworfen. Geo Engine ist eine Cloud-basierte Forschungsumgebung für raum-zeitliche Datenverarbeitung, die für die interaktive Analyse von Geodaten genutzt werden kann. Zunächst wurde die Rolle von Geo Engine in der Gesamtarchitektur von NFDI4Biodiversity erläutert. Anschließend wurden Kernkonzepte der Geo Engine, wie z.B. explorative Workflows, vorgestellt. Schließlich wurde eine Live-Demo von Geo Engine mit einer Vielzahl von Biodiversitätsdaten und Anwendungsfällen gezeigt.
Für die Benutzerinteraktion stand den Teilnehmenden eine Live-Instanz von Geo Engine in der de.NBI-Cloud zur Verfügung. Auf einige Datensätze in der Instanz konnte über eine Verbindung zum Hauptspeicher von NFDI4Biodiversity zugegriffen werden. Für diese Veranstaltung stellte Geo Engine auch den Normalized Difference Vegetation Index (NDVI) als monatliche Cloud-freie Aggregate für Deutschland zur Verfügung.
Im Anschluss an die Präsentation und die Live-Demo ergaben sich aus der Diskussion unter den Teilnehmenden drei wichtige Erkenntnisse. Erstens kann ein Datentreuhänder für die NFDI das Vertrauen zwischen den verschiedenen Parteien verbessern, was letztlich dazu führen kann, dass mehr Daten gemeinsam genutzt werden. Zweitens erhöht der frühzeitige Zugang zu Werkzeugen und Speicherplatz über sich ständig weiterentwickelnde Demonstratoren die Sichtbarkeit und verbessert die Gesamtergebnisse des Projekts durch agile Entwicklungsprozesse. Schließlich ist die Schaffung langfristiger Finanzierungslösungen für aus der Wissenschaft stammende Dienste eine wichtige laufende Herausforderung. Der hier vorgestellte Demonstrator zeigt die de.NBI-Cloud als Beispiel für eine Community-getriebene Infrastruktur und die Geo Engine GmbH als Beispiel für ein aus Forschungsprojekten hervorgegangenes Start-up. Die Finanzierung und Förderung dieser Art von Projekten ist für die Schaffung nachhaltiger Infrastrukturlösungen unerlässlich.
Research Data Quality Assurance And Workflows
Diese Session stellte den FAIR Data Spaces Demonstrator “FAIR Data Quality Assurance and Workflows” vor, der innerhalb von FAIR Data Spaces zusammen mit NFDI4Ing entwickelt wurde. Gemeinsam mit den Teilnehmenden wurde gezeigt, wie der Demonstrator die Workflow-Engine der Quellcode-Hosting-Plattform GitLab nutzt, um Forschungsdaten-Artefakte zu analysieren, zu transformieren und zu verifizieren. In der Session wurde davon ausgegangen, dass Forschungsdaten in Form von CSV-Dateien von einem einzelnen Forscher oder einer Gruppe von Forschern gesammelt werden, die Funktionen aus dem “Social Coding”-Paradigma nutzen wollen, um ihre Forschungsdaten zu pflegen.
Die folgenden Schritte wurden demonstriert:
- Extraktion eines “Frictionless Schema” aus einer Sammlung von bestehenden CSV-Daten
- Validierung neuer Daten auf der Grundlage bestehender Schemadefinitionen
- Ermittlung von Datenqualitätsmetriken wie
- Anzahl der fehlenden Werte
- Verteilung der Werte
- Wert-Korrelationen
- Erstellung von Qualitätsberichten “Score Cards” für Forschungsdaten
- Veröffentlichung von Forschungsdaten in Repositories wie Zenodo
Während der Session konnten die Teilnehmenden interaktiv mit mehreren Datensätzen arbeiten, die unterschiedliche Qualitätsmerkmale aufwiesen, wie fehlende Werte, nicht übereinstimmende Datentypen oder fehlerhafte Daten. Auf der Grundlage des generierten Qualitätsberichts konnten die Teilnehmer interaktiv eine Kopie dieser Datensätze abändern und sehen, wie sich Änderungen in der Qualität des Datensatzes in den Berichten widerspiegeln.
Im Laufe der gesamten Sitzung wurden die vorgestellten Qualitätssicherungs-Workflows in einer öffentlich-privaten (hybriden) Cloud-Umgebung ausgeführt, die gemeinsam von Infrastrukturen der RWTH Aachen und der Open Telekom Cloud bereitgestellt wurde. Diese Umgebung ermöglichte eine nahtlose Skalierung für die gleichzeitige Ausführung mehrerer Workflows und verbarg gleichzeitig die technische Komplexität der Cloud-basierten Planungs- und Skalierungsprozesse für die Benutzer durch die Workflow-Engine.
Cross-Platform FAIR Data Analysis On Health Data
In der Session wurde ein erster Demonstrator für eine plattformübergreifende FAIR-Datenanalyse (Personal Health Train (PHT), NFDI4Health) vorgestellt. Ziel des Demonstrators war es, den verteilten Datenanalyseprozess und die Analyse gesundheitsbezogener Daten darzustellen, wobei eine Datenanalyse von Hautläsionen als Proof-of-Concept-Showpiece verwendet wurde. Bei diesem Demonstrator wurde die Bedeutung der Verwendung von FAIR-Konzepten für die Datenanalyse von klinischen Daten, die in verschiedenen medizinischen Einrichtungen verteilt sind, unter Berücksichtigung des Datenschutzes und der Richtlinien der Einrichtungen hinsichtlich des Datenzugangs vorgestellt.
Im zweiten Teil wurden weitere Details der PHT-Konzepte genauer beschrieben. PHT ist eine plattformübergreifende Datenanalyse, die alle erforderlichen Datenanalyseverfahren für jede Art von Daten bereitstellt. Für die Hauptelemente des PHT-Ökosystems kann eine Analogie zu einem Eisenbahnnetz mit Zügen und Bahnhöfen herangezogen werden. Der Zug kapselt die Analyseaufgaben mit Hilfe von Container-Technologien. Züge enthalten alle Voraussetzungen, um die Daten abzufragen, den Algorithmus auszuführen und die Ergebnisse zu speichern. Bahnhöfe fungieren als Datenlieferanten, die Datenbestände verwalten. Zur Analyse der dezentralisierten Daten fährt ein bestimmter Zug nacheinander jeden Bahnhof (z.B. Server eines Klinikums) an. Der Zug führt die Analyseaufgabe durch und berechnet die Ergebnisse (z. B. Statistiken) auf der Grundlage der lokal verfügbaren Daten. Der Anwendungsfall und eine schrittweise Vorbereitung für den Zugriff auf die Anwendungsfalldaten in den verschiedenen Bahnhöfen wurden ebenfalls während dieser Session vorgestellt.
Während des Abschnitts “Bring your own code” wurde ein GitLab-Repository als Train Registry zur Verfügung gestellt. Die Züge wurden erstellt (GitLab CI), in die PHT-Umgebung übertragen und auf drei verschiedenen Teststationen ausgeführt. Die Ausführung des Code auf den PHT-Stationen geschah zusammen mit den Session-Experten.
Weitere Informationen über das PHT-Projekt finden Sie hier.