Veranstaltung »Leitbild einer fairen Datenökonomie in Deutschland und Europa« (15. März 2022)
Unter der Schirmherrschaft von Bundesforschungsministerin Bettina Stark-Watzinger und im Namen des Fraunhofer-Verbunds IUK-Technologie laden wir Sie herzlich zu einem innovationsorientierten Dialog zu fairer Datenökonomie ein.
Im Rahmen des Events präsentiert unser Projekt FAIRDataSpaces seine ersten Demonstratoren, diskutiert mit den Gästen über Win-win für Wissenschaft und Wirtschaft sowie Architekturen für Datenaustausch über Data Spaces hinweg.
Neben Keynotes von Bettina Stark-Watzinger (Bundesministerin für Bildung und Forschung), Prof. Reimund Neugebauer (Präsident der Fraunhofer-Gesellschaft), Prof. York Sure-Vetter (Direktor der Nationalen Forschungsdateninfrastruktur) und Iris Plöger (Mitglied der Hauptgeschäftsführung des BDI), Prof. Irene Bertschek (ZEW) sowie Impulsvorträgen vieler weiterer Expert:innen freuen wir uns auf einen lebhaften Austausch!
Was Sie erwartet:
- Beiträge auf dem Weg zu einer fairen Datenökonomie
- der Entwurf eines zukünftigen Handlungsrahmens für Wissenschaft, Politik und Wirtschaft
- Impulse zu Forschungsperspektiven auf die Datenökonomie
- Deep-Dive-Sessions (genauere Infos und Abstracts unten auf dieser Seite)
- Live-Demonstratoren
Hier finden Sie weitere Informationen: https://www.iuk.fraunhofer.de/de/events/fair-data.html
Programm des Events
9:30 |
Prof. Reimund Neugebauer |
9:45 |
Bettina Stark-Watzinger |
9:55 |
Prof. Boris Otto |
10:05 |
Impulse: Forschungsperspektiven der Datenökonomie
|
10:35 | KAFFEEPAUSE |
10:45 |
Panel-Diskussion zum datenökonomischen Leitbild
|
11:45 |
Tandem-Impulse: Einführung in die Deep-Dive-Sessions
|
12:30 | MITTAGSPAUSE |
13:15 |
Deep-Dive-Sessions
|
14:30 | KAFFEEPAUSE |
14:40 |
Prof. Boris Otto Zusammenfassung der Ergebnisse und Ausblick |
15:00 | ENDE DER HAUPTVERANSTALTUNG |
15:00 |
Fortsetzung der FAIR Data Spaces Sessions
|
* Die ersten drei Deep-Dive-Sessions sind Bestandteil des zweiten Anwenderworkshops des BMBF-Projekts »FAIR Data Spaces« und werden ab 15 Uhr in vertiefenden Sitzungen bis ca. 17 Uhr fortgesetzt. |
Programm und Abstracts Deep Dive Sessions
Im Rahmen dieser Veranstaltung findet der zweite FAIR Data Spaces Projektworkshop statt. Dazu organisiert FAIR Data Spaces drei Deep-Dive-Sessions zu den Themen
- Win-win für Wissenschaft und Wirtschaft durch FAIR Data Spaces
- Architektonische Grundlagen für den Datenaustausch über Datenräume hinweg
- Demonstratoren für den Datenaustausch zwischen Wirtschaft und Wissenschaft
Im Anschluss an das offizielle Programm der Veranstaltung werden diese drei Deep-Dives von 15 Uhr bis ca. 17 Uhr in eine zweite Runde gehen, um die Themen und Diskussionen der ersten Sessions (13:15 – 14:30 Uhr) weiter zu vertiefen. Im Folgenden finden Sie eine kurze Beschreibung zu den drei Deep-Dive-Sessions des FAIR Data Spaces Projekts.
Deep-Dive „Win-win für Wissenschaft und Wirtschaft durch Datenaustausch“
Der Austausch von Daten zwischen Wissenschaft und Wirtschaft bietet die Chance, Mehrwert für beide Seiten zu generieren. Für eine erfolgreiche Zusammenarbeit beider Branchen ist zunächst die Schaffung einer gemeinsamen Vision nötig, die es ermöglicht, eine Infrastruktur zur Datenbereitstellung und zur vertrauensvollen Datennutzung zu schaffen.
Das Projekt „FAIR Data Spaces“ schafft eine Roadmap mit Visionen und Zielen für die Zusammenarbeit von Wissenschaft und Wirtschaft und baut eine gemeinsame Community auf. Dies dient neben der Betrachtung rechtlicher und ethischer Aspekte als Basis für technische Bausteine und die praktische Umsetzung, wie in den parallelen Deep-Dives zu sehen.
Im Deep-Dive „Win-win für Wissenschaft und Wirtschaft durch Datenaustausch“ zeigen wir zunächst, wie die FAIR-Data-Prinzipien über die Forschung hinaus auch die Wirtschaft betreffen – ergänzt durch einen Impuls aus der Perspektive des für die Wirtschaft bedeutsamen rechtlichen Rahmens. Auf diesen Grundlagen gehen wir in einem gemeinsamen, interaktiven Brainstorming der Frage nach, wie mit Hilfe einer gemeinsamen Community Vorteile für beide Seiten erzielt werden können.
Architektonische Grundlagen für den Datenaustausch über Datenräume hinweg
Diese Session beginnt mit einer Podiumsdiskussion dreier Experten für Datenräume mit unterschiedlichem beruflichem Hintergrund. Die Diskussionsteilnehmer sind Lars Nagel, CEO der International Data Spaces Association, Sebastian Kleff, Mitbegründer und CEO von Sovity, und Klaus Ottradovetz, VP Global Service Delivery bei Atos. Nach dieser Expertenrunde wird die Diskussion für alle Sitzungsteilnehmer geöffnet.
Deep-Dive „Demonstratoren für den Datenaustausch zwischen Wirtschaft und Wissenschaft“
In diesem Deep-Dive dreht sich alles um Demonstratoren. Mit Hilfe der Demonstratoren lässt sich die Machbarkeit für innerhalb des Projekts entwickelte Konzepte nachweisen. Den Teilnehmenden bietet sich die Möglichkeit, unter gleich drei Vorführungen von Demonstratoren zu wählen – einer Vorführung zum NFDI4Biodiversity-Demonstrator, zum „FAIR Data Quality Assurance and Workflows”-Demonstrator und zum Demonstrator zur „Cross-Plattform FAIR Datenanalyse“.
Demonstrator AP 4.1
Deep-Dive-Titel: FAIR-DS Demonstrator NFDI4Biodiversity
Die Demonstratoren in FAIR-DS stammen aus verschiedenen NFDI-Bereichen und werden als Proof-of-Concepts für Multi-Cloud-Funktionen wie Gaia-X-Konformität durch Selbstbeschreibung von Diensten verwendet. Diese Session ermöglicht es Ihnen, den NFDI4Biodiversity-Demonstrator kennenzulernen und mit ihm zu interagieren. Ein Schlüsseldienst in diesem Projekt ist die Geo Engine, eine Cloud-basierte Forschungsumgebung für die Verarbeitung raum-zeitlicher Daten. Geo Engine unterstützt die interaktive Datenanalyse für Geodaten, zu denen Vektor- und Rasterdaten gehören. Datenwissenschaftler arbeiten mit Geodaten durch explorative Analysen und gewinnen neue Erkenntnisse durch das Ausprobieren neuer Kombinationen von Daten und Operatoren. Da Geodaten von Natur aus visuell sind, verfügt die Geo Engine über eine webbasierte Benutzeroberfläche, die visuelle Analysen und Provenienz durch eine implizite Definition von explorativen Workflows unterstützt. Die Ergebnisse dieser Workflows werden interaktiv zur Verfügung gestellt, was die explorative Natur der modernen Datenwissenschaft erleichtert. Neben der Benutzeroberfläche bietet Geo Engine auch eine Python-API, die im Analyseprozess verwendet werden kann. Als ersten Schritt in unserem FAIR Data Spaces Projekt haben wir an einem Anwendungsfall gearbeitet, der Daten aus der Wirtschaft (Satellitendaten) mit Daten aus der Wissenschaft (GFBio) kombiniert. Dieser Anwendungsfall wird die Grundlage für unsere Session sein.
Wir werden die Geo Engine vorstellen, unsere ersten Ergebnisse im Rahmen des Fair Data Spaces Projekts beschreiben und die entwickelten Anwendungsfälle in einer Live-Coding-Session demonstrieren. In der Coding Session werden Sie zunächst lernen, wie Sie mit der Benutzeroberfläche der Geo Engine interagieren können. Dann stellen wir unsere Python-API vor und zeigen, wie man sie einsetzt, um der Geo Engine neue Workflows hinzuzufügen. Schließlich werden Sie lernen, wie Komponenten, die über die Python-API eingeführt werden, in der Benutzeroberfläche zugänglich sind und umgekehrt.
Anschließend können Sie die Geo Engine selbst nutzen, indem Sie Ihre eigenen Daten mitbringen und die während der Präsentation und der Live-Coding-Session erworbenen Fähigkeiten anwenden. Zu diesem Zweck werden wir unsere Upload-Funktionalität erklären und Sie dazu einladen, von zu Hause aus mitzumachen. Um am “Bring your own data”-Teil der Session teilzunehmen, senden Sie bitte Ihre Dateien im Voraus, wie in der entsprechenden Mail, die Sie nach der Anmeldung zu dieser Session erhalten haben, angegeben. Die Dateien sollten gut formatierte GeoPackage, GeoJSON oder CSV Dateien sein. Wenn Sie uns die Dateien vorab zusenden, können wir ihre Kompatibilität im Voraus überprüfen – dies ist insbesondere bei CSV-Dateien hilfreich. Auf diese Weise können Sie Ihre Zeit optimal für die Arbeit mit Geo Engine nutzen, anstatt sich mit Formatierungsproblemen zu beschäftigen.
Neben vielen vorgeladenen Datensätzen stellt Geo Engine den Normalized Difference Vegetation Index (NDVI) als monatliche Cloud-freie Aggregate für Deutschland zur Verfügung.
Session 1: Präsentation + Live Coding (13:15 – 14:30)
13:15 – 13:35: Vorstellung aller drei Demonstratoren
13:35 – 13:48: Einführung grundlegender Konzepte der Geo Engine
13:48 – 14:05: Live Benutzung der Web-Benutzeroberfläche
14:05 – 14:20: Live Coding Session Python API
14:20 – 14:30: Kurze F&A Session
Session 2: Bring your own data (15:00 – 17:30)
15:00 – 15:10: Vorstellung anhand eines Beispiels
15:10 – 15:15: Vorschläge zu Datenanwendung
15:15 – 17:30: Betreuung Live-Benutzung
Demonstrator AP 4.2
Deep-Dive-Titel: Research Data Quality Assurance And Workflows
Die Session wird den FAIR Data Spaces Demonstrator “FAIR Data Quality Assurance and Workflows” diskutieren, der innerhalb von FAIR Data Spaces zusammen mit NFDI4Ing entwickelt wurde. Der Demonstrator nutzt die Workflow-Engine, die von der Quellcode-Hosting-Plattform GitLab bereitgestellt wird, um Artefakte von Forschungsdaten zu analysieren, zu transformieren und zu verifizieren. Innerhalb des Demonstrators wird davon ausgegangen, dass Forschungsdaten in Form von CSV-Dateien von einem einzelnen Forscher oder einer Gruppe von Forschern gesammelt werden, die Funktionen aus dem “Social Coding”-Paradigma nutzen wollen, um ihre Forschungsdaten zu pflegen.
Der vorgestellte Beispiel-Workflow umfasst:
- Extraktion eines “Frictionless Schema” aus einer Sammlung von bestehenden CSV-Daten.
- Validierung neuer Daten auf der Grundlage bestehender Schemadefinitionen
- Bestimmung von Datenqualitätsmetriken wie
- Anzahl der fehlenden Werte
- Verteilung der Werte
- Wert-Korrelationen
- Erstellung von Qualitätsbericht-“Score Cards” für Forschungsdaten
- Veröffentlichung von Forschungsdaten in Repositories wie Zenodo
Die Session ist in zwei Teile aufgeteilt: Im ersten Teil lernen Sie die Struktur des Demonstrators und den Arbeitsablauf anhand eines Beispieldatensatzes kennen. Gemeinsam mit unseren Expert:innen können Sie eine Kopie des Datensatzes interaktiv verändern und sehen, wie sich Änderungen in der Qualität des Datensatzes im Qualitätsbericht widerspiegeln. Im zweiten Teil können Sie Ihre eigenen Daten in Form von CSV-Dateien mitbringen. Gemeinsam mit unseren Dozenten fügen wir Ihren Datensatz in den Arbeitsablauf ein und ermöglichen die Validierung und Überprüfung von Qualitätskennzahlen. Wenn Sie Ihre eigenen Daten mitbringen, stellen Sie bitte sicher, dass Sie den Bildschirm für die Darstellung der Ergebnisse oder für Fragen mit anderen Teilnehmern und den Expert:innen teilen können. Bitte vermeiden Sie es, vertrauliche Daten mitzubringen, da dies die Hilfestellung durch die Expert:innen stark einschränkt. Wenn Sie uns vorab Dateien schicken, können wir deren Kompatibilität im Voraus überprüfen. Auf diese Weise können Sie Ihre Zeit damit verbringen, mit dem Demonstrator zu experimentieren, anstatt sich mit Formatierungsproblemen zu beschäftigen.
Teil 1: Einführung und partizipatives Live-Coding
- Kurze Vorstellung des Demonstrators
- Szenario
- Technische Architektur
- Einführung in die grundlegenden Konzepte von GitLab
- Repository/Datei-Ansicht
- Editieren einer Datei im Browser
- Workflow-Definition in .yml-Dateien
- Workflow-Visualisierung im Ampelsystem
- Grundlegendes Konzept des Demonstrators
- Struktur des Repositorys
- Wo befinden sich die Daten?
- Wo ist der Workflow definiert?
- Workflow-Pipeline-Schritte erklärt
- Schema-Extraktion
- Validierung des Schemas
- Festlegung von Qualitätsmetriken
- Hochladen der Scorekarte
- Live-Coding mit Teilnehmenden: Beispiele werden auf dem gemeinsamen Bildschirm des Sessionleiters gezeigt, die Teilnehmenden werden motiviert, mitzuarbeiten und die vorgestellten Dinge auszuprobieren
- Ändern einer der CSV-Dateien, um das Schema zu verletzen
- Hinzufügen einer neuen CSV-Datei und Extrahieren des Schemas
- Hinzufügen einer neuen CSV-Datei mit hoch korrelierten Daten
Teil 2: Bringen Sie Ihre eigenen Daten mit
- Kurze Zusammenfassung der vorherigen Sitzung
- Fragen?
- Einfügen von “eigenen Daten”: Bitten Sie einen Teilnehmenden, den Bildschirm freizugeben und führen Sie ihn/sie durch das Einfügen seiner Daten:
- Beginnen Sie wieder mit Forks (Offene Frage: Forks wiederverwenden oder neu erstellen??)
- Entfernen Sie alle vorhandenen CSV-Dateien
- Dumpen Sie Ihre eigenen Daten
- Andere Teilnehmenden können folgen oder es selbst versuchen (während dieser Zeit kann die individuelle Unterstützung jedoch begrenzt sein)
- Wiederholen Sie den Vorgang mit einem anderen Teilnehmenden
- Bitten Sie alle Teilnehmenden, es asynchron mit ihren eigenen Daten zu versuchen.
- Bitten Sie die Teilnehmenden, ihren Bildschirm mit allen zu teilen, wenn sie Fragen haben.
- Beantworten Sie Fragen in einem Zeitrahmen von 5 Minuten, damit die anderen Teilnehmenden Fragen stellen können.
Demonstrator AP 4.3
Deep-Dive-Titel: Cross-Platform FAIR Data Analysis On Health Data
In dieser Session wird ein plattformübergreifender FAIR-Datenanalyse-Demonstrator vorgestellt. Die Hauptaufgabe unseres Demonstrators ist die Darstellung des Prozesses und der Analyse von gesundheitsbezogenen Daten. Für unsere Präsentation betrachten wir zwei Anwendungsfälle:
- Anwendungsfall 1: Klassifizierung von Hautläsionen.
Eine Krankheit mit einer relevanten Anzahl von Patienten weltweit ist Krebs. Hautkrebs ist inzwischen die häufigste Krebsart. Die Forschung hat Bildverarbeitungs- und Analysewerkzeuge eingesetzt, um den Diagnoseprozess zu unterstützen und zu verbessern. Wir verwenden den Hautläsionsdatensatz für die Melanom-Klassifikation aus der International Skin Imaging Collaboration (ISIC) 2019 Challenge für unsere Bildklassifikationsaufgabe. Unser Hautläsionsbilddatensatz besteht aus 33.569 dermatoskopischen Bildern. Jedes Bild wird in acht verschiedene diagnostische Kategorien eingeteilt, die die Läsionstypen angeben.
Der offizielle ISIC-Challenge-Trainingsdatensatz und die Bilder werden in drei Teilmengen aufgeteilt und für das Training auf drei Stationen verteilt. 80 % der Bilder auf jeder Station werden als Trainingsdatensatz verwendet, die anderen 20 % als Validierungsdatensatz. Im Anwendungsfall Hautläsionen veranschaulichen wir das inkrementelle institutionelle Lernen, bei dem die Daten über drei geografisch unterschiedliche Standorte verteilt sind.
Use_Case_Execution_Result_ISIC2019_PHT.zip
- Anwendungsfall 2: Analyse des Ausbruchs von Malaria.
Malaria ist eine lebensbedrohliche Krankheit, die durch Parasiten verursacht wird, die durch den Stich infizierter weiblicher Anopheles-Mücken auf den Menschen übertragen werden. Nach Angaben der Weltgesundheitsorganisation (WHO) gab es im Jahr 2020 weltweit schätzungsweise 241 Millionen Malaria-Fälle mit 627 Tausend Malaria-Todesfällen. Für unsere Analyse verwenden wir den Malaria-Datensatz, der Daten über die Anzahl der Fälle und Todesfälle für jedes Land von 2000 bis 2017 enthält. Unser Datensatz enthält auch geografische Daten, um die Informationen über die Länder in Diagrammen auf der Grundlage von Weltkarten darzustellen.
Im Anwendungsfall Malaria haben wir die länderbezogenen Informationen in drei verschiedene Teilmengen aufgeteilt, die auf dem im Datensatz verfügbaren Attribut “WHO-Region” basieren. Ein Datensatz enthält Daten zu “Östliches Mittelmeer und Afrika”, der andere enthält Informationen zu “Amerika und Europa” und der dritte Bericht enthält Statistiken zu “Südostasien, Westpazifik”. Jede Station verfügt nur über einen dieser Datensätze.
Use_Case_Execution_Result_Malaria_PHT.zip
- Plattformübergreifende FAIR-Datenanalyse von Gesundheitsdaten
Wir verwenden eine plattformübergreifende Datenanalyse-Infrastruktur namens Personal Health Train (PHT). PHT bietet alle erforderlichen Datenanalyseverfahren sowohl für den Malaria- als auch für den Hautläsionsklassifizierungsdatensatz. Die wichtigsten Elemente des PHT-Ökosystems sind die sogenannten Trains und Stations, eine Analogie zu Zügen und Haltestationen. Der Zug kapselt die Analyseaufgaben mit Hilfe von Contain-Technologien. Züge enthalten alle Voraussetzungen, um die Daten abzufragen, den Algorithmus auszuführen und die Ergebnisse zu speichern. Stationen fungieren als Datenlieferanten, die Datenbestände verwalten. Zur Analyse der dezentralisierten Daten wird ein bestimmter Zug nacheinander an jede Station übertragen. Der Zug führt die Analyseaufgabe durch und berechnet die Ergebnisse (z. B. Statistiken) auf der Grundlage der lokal verfügbaren Daten.
Die Session ist in zwei Teile aufgeteilt: Im ersten Teil lernen Sie die Struktur des Demonstrators, ein Workflow-Beispiel und ausgeführte Anwendungsfälle kennen, und in zweiten können Sie dann Ihren eigenen Code (Zug) mitbringen. Wir werden Ihren Code auf den PHT-Stationen mit unseren Expert:innen ausführen. Zu Beginn der Veranstaltung werden wir Ihnen Zugang zu einem GitLab-Repository gewähren. Dieses Repository wird Beispielcodes und Datenschemata enthalten, die an jeder Station verfügbar sind. Die Teilnehmenden werden über ihre GitLab-Konten in das GitLab-Repository eingeladen (oder können eine Zugangsanfrage senden), um ihre Änderungen in das Repository übernehmen zu können. Der Hauptzweig, der die GitLab-CI auslöst (um Züge zu erstellen und zu pushen), ist geschützt. Benutzende erstellen “Merge Requests”, um ihre Änderungen anzuwenden.