FAIR Data Spaces Demonstratoren

Demonstratoren

FAIR Data Spaces entwickelt seit Ende 2021 Demonstratoren zu einem Datenraum zu Biodiversität, zur Qualitätssicherung von Forschungsdaten und zur plattformübergreifenden Datenanalyse. Darin spielen Infrastruktur- und Daten-Dienste nach den Gaia-X- und FAIR-Prinzipien zusammen. Mehr Informationen zu der technischen Implementierung gibt es hier.

Unter anderem wurden drei Unterauftragnehmer aus der Industrie ausgewählt, um diese Demonstratoren weiterzuentwickeln und neue zu bauen.

Accurids verwaltet verteilte Daten mit zentraler Datenverwaltung, GeoEngine ist eine Cloud-fähige Data-Science-Plattform für die Verarbeitung räumlich-zeitlicher Daten, und expandAI reichert Standardanwendungen mit KI an. Mehr Informationen zu diesen neuen Projekten gibt es in unserem Juli-Newsletter.

Untenstehend sind die Langzeit-Demonstratoren aufgeführt. Eine Kurzübersicht findet sich hier.

Demonstrator zu Biodiversität

In Zusammenarbeit mit der Geo Engine GmbH wurde ein Gaia-X kompatibler Demonstrator auf Basis der Geo Engine entwickelt. Die Geo Engine ist eine Cloud-basierte Forschungsumgebung, welche Datenquellen anbindet und Forschenden die Möglichkeit zu einer interaktiven und visuellen Verarbeitung raumzeitlicher Daten bietet. Im FAIR-DS-Demonstrator wird ein skalierbarer Zugriff auf die von NFDI4Biodiversity in einer Cloud zur Verfügung gestellten Daten unterstützt. Dies erfolgt auf Basis der Gaia-X Cloud Spezifikationen, die neben technischen auch rechtliche Rahmenbedingungen für den Datenaustausch schaffen. Im ersten Anwendungsfall in FAIR Data Spaces werden Daten aus der Wirtschaft (Satellitendaten) mit Daten aus der Wissenschaft (GFBio) kombiniert. Weitere Informationen zur Softwarekomponente Geo Engine gibt es hier.

Demonstrator zur Qualitätssicherung von Forschungsdaten

Der Zweck dieses Demonstrators ist es, den Einsatz von dezentralen Task-Runnern zur automatisierten Qualitätskontrolle und Datensicherung in einer allgemein verfügbaren oder einfach bereitgestellten Umgebung zu zeigen. Dabei nutzt der Demonstrator die Workflow-Engine, die von der Quellcode-Hosting-Plattform GitLab bereitgestellt wird, um Artefakte von Forschungsdaten zu analysieren, zu transformieren und zu verifizieren. Basierend auf vorgegebenen Schemadaten, analysiert der Demonstrator neu hinzugefügte Daten auf Kompatibilität und versieht diese bei Verletzung mit einer Warnung. Ein inkompatibler Datensatz kann so schnell bereinigt werden und anschließend reibungslos in die bestehenden Datensätze integriert werden. Mehr Informationen.

Demonstrator zur plattformübergreifenden Datenanalyse

Ziel dieses Demonstrators ist es, die aktuellen Ergebnisse von NFDI (insbesondere NFDI4Health) und MII in Bezug auf medizinische Datenstrukturen, Formate sowie ethische und rechtliche Anforderungen wiederzuverwenden und dabei kompatibel mit den Gaia-X Spezifikationen zu sein. Dazu wird eine plattformübergreifende Datenanalyse-Infrastruktur namens Personal Health Train (PHT) verwendet. Die wichtigsten Elemente des PHT-Ökosystems sind die sogenannten Trains und Stations, eine Analogie zu Zügen und Haltestationen. Der Zug kapselt die Analyseaufgaben mit Hilfe von Container-Technologien. Züge enthalten alle Voraussetzungen, um die Daten abzufragen, den Algorithmus auszuführen und die Ergebnisse zu speichern. Stationen fungieren als Datenlieferanten, die Datenbestände verwalten. Zur Analyse der dezentralisierten Daten wird ein bestimmter Zug nacheinander an jede Station übertragen. Der Zug führt die Analyseaufgabe durch und berechnet die Ergebnisse (z. B. Statistiken) auf der Grundlage der lokal verfügbaren Daten. Weitere Informationen gibt es hier.

ELSA Training für Data Scientists

Ziel dieses Aufgabe ist die Entwicklung einer Reihe von Kernelementen für die ELSA-Schulung, also das Training bezüglich ethischer, rechtlicher und gesellschaftlicher Aspekte für Datenwissenschaftler. Durch die Schulung zu ELSA-Themen können so potenzielle relevante Herausforderungen, die während der Phasen eines Data-Science-Projekts auftreten können, erkannt und entschärft werden.

In einem ersten Schritt wurde die aktuelle ELSA-Ausbildungslandschaft, wie sie sich in den bestehenden Richtlinien, Kursen, Programmen und Lehrplänen manifestiert, analysiert und beschrieben. Zudem wurde das Profil bestehender und zukünftiger Data Scientists beschrieben. Die Ergebnisse wurden im ersten FAIR-DS ELSA Workshop präsentiert und sind Teil der Veröffentlichungen in der FAIR Data Spaces Community in Zenodo.

In einer Reihe von vertiefenden Workshops in 2022 mit einer Vielzahl an Domänenexperten, sowohl von innerhalb als auch außerhalb von FAIR DS, wurde Material für eine erste Version eines ELSA-Curriculums für Data Scientists gesammelt. Aktuell wird basierend auf diesem Material die erste Curriculumsversion vervollständigt. In einem nächsten Schritt wird das Curriculum dann den Gaia-X-Industriepartnern sowie der breiteren Community zur Kommentierung vorgelegt. Basierend darauf wird ein ELSA-Curriculum als Ergebnis dieses Arbeitspakets vorgeschlagen.

Weitere Arbeitspakete

Roadmapping und Community

Rechtliche und ethische Rahmenbedingungen

Technische Grundlagen

Förderkennzeichen FAIRDS