1. Definition: Die FAIR-Prinzipien einfach erklärt
Die sogenannten FAIR-Prinzipien wurden erstmals 2016 in einem Nature-Artikel veröffentlicht [1], werden seitdem von der „GO FAIR“-Initiative vorangetrieben und sind bereits für zahlreiche Forschungseinrichtungen weltweit Standard.
Dabei handelt es sich um ein aus vier Grundsätzen bestehendes Konzept, das den Austausch und die Wiederverwendbarkeit von Forschungsdaten fördern soll. „FAIR“ ist ein englisches Akronym, bei dem jeder Buchstabe für einen der vier Grundsätze steht.
Die vier Grundsätze der FAIR-Prinzipien lauten:
F steht für Findable, A für Accessible, I für Interoperable und R für Reusable. Den FAIR-Prinzipien zufolge sollten die Forschungsdaten also auffindbar, zugänglich, interoperabel und wiederverwendbar sein.
2017 hat die Europäische Kommission die FAIR-Prinzipien in ihre Förderrichtlinien („EU Horizon 2020“) aufgenommen. Wird ein Antrag für dieses Förderprogramm gestellt, ist die Anwendung der Prinzipien somit verpflichtend.
Weitere Institutionen, die eine Förderung an die Umsetzung der FAIR-Prinzipien knüpfen, finden Sie hier.
Um die Notwendig- und Sinnhaftigkeit dieses Ansatzes besser nachvollziehen zu können, lohnt der Blick aufs Detail:
2. Die Kriterien der FAIR-Data-Prinzipien
Um die FAIR-Prinzipien in Gänze verstehen zu können, ist es wichtig, sich zuvor kurz die Begriffe „Metadaten“ und „Identifier“ klarzumachen:
Metadaten sind strukturierte Informationen über Forschungsdaten und können beispielsweise der Name von Autor:innen, des Projekts oder der untersuchten Stichprobe sowie andere Angaben hierzu sein.
Bei den sogenannten Identifiern (oder auch Identifikatoren) handelt es sich um eine eindeutige Zeichenfolge – ähnlich einem URL-Link –, die direkt einer digitalen Ressource zugeordnet ist. Die in der Gesundheitsforschung genutzten Identifier sind dauerhaft und unabhängig vom physischen Speicherort eines Datensatzes. Das Problem von defekten Links kann so umgangen werden.
2.1. Auffindbarkeit
Unter dem Grundsatz der Auffindbarkeit („Findability“) versteht man das Zusammenspiel folgender Aspekte {7]:
- Eindeutige Identifizierung: (Meta-)Daten erhalten einen global eindeutigen und dauerhaften Identifier.
- Umfassende Beschreibung: Alle Daten werden mit detaillierten Metadaten beschrieben.
- Verknüpfung der Metadaten: Metadaten enthalten den Identifier der beschriebenen Daten.
- Durchsuchbarkeit: (Meta-)Daten werden in einem durchsuchbaren Verzeichnis registriert.
Diese Maßnahmen sorgen dafür, dass Datensätze leicht auffindbar sind, unabhängig davon, ob Wissenschaftler zuvor mit diesen Daten gearbeitet haben. Es wird transparent, welche Datensätze existieren, wo sie gespeichert sind und welche Art von Daten sie enthalten. Umfangreiche Metadaten erleichtern die Suche nach den Daten erheblich, da sie die Datensätze umfassend beschreiben und somit Forscher bei der Entscheidung unterstützen, ob die sich hinter den gefundenen Metadaten befindlichen Datensätze für die vorliegende Forschungsfrage relevant sind oder nicht.
Durch die einheitliche Kennzeichnung der Daten mit globalen Identifiern wird sichergestellt, dass alle Forscher weltweit die notwendigen Daten leicht finden und nutzen können.
2.2. Zugänglichkeit
Unter dem Grundsatz der Zugänglichkeit („Accessibility“) versteht man das Zusammenspiel folgender Aspekte [7]:
- 1: (Meta)-Daten sind über ihren Identifier mithilfe eines standardisierten Kommunikationsprotokolls abrufbar.
- 1.1: Das Protokoll ist offen, frei und universell implementierbar.
- 1.2: Das Protokoll unterstützt, wo notwendig, die Authentifizierung und Rechteverwaltung. 2:
- 2. Metadaten sind/bleiben verfügbar, auch für den Fall, dass die zugehörigen Forschungsdaten nicht mehr vorhanden sind.
Mithilfe der entsprechenden Software kann also von überall auf der Welt eingesehen werden, welche Datensätze existieren und wie es um die Zugangsrechte bestellt ist [4].
Handelt es sich beispielsweise um sensible Gesundheitsdaten, die von externen Personen nicht ohne weiteres eingesehen werden dürfen, kann das System dies anzeigen und gegebenenfalls bei der Kontaktierung helfen. Da es sich in der Gesundheitsforschung natürlich immer um ausgesprochen schützenswerte Daten handelt, ist dieser Aspekt stets von großer Bedeutung [4].
Der Vorteil der Metadaten ist, dass sie stets zugänglich sind, auch wenn die eigentlichen Forschungsdaten nicht zur Verfügung stehen. Außenstehende wissen dann zumindest grob, welche Art der Ergebnisse dort einmal bestanden haben oder sogar weiterhin – bei entsprechendem Zugriffsrecht – bestehen [4].
2.3. Interoperabilität
Der Grundsatz der Interoperabilität („Interoperability“) lässt sich am besten mit dem Zusammenspiel folgender Aspekte erklären [7].
- (Meta-)Daten nutzen eine formale, zugängliche, gemeinsam genutzte und breit anwendbare Sprache für die Wissensrepräsentation.
- (Meta-)Daten benutzten Vokabularien, welche den FAIR-Prinzipien folgen.
- (Meta-)Daten beinhalten qualifizierte Verweise auf andere (Meta-)Daten.
Am Ende ergibt es wenig Sinn, Forschungsdaten für einen späteren Austausch aufzubewahren, wenn diese für andere Personen schlicht nicht verständlich sind.
Dies erhält eine besondere Relevanz vor dem Hintergrund, dass zunehmend Computersysteme automatisiert Datensätze durchforsten und analysieren sollen. Die Computersysteme müssen folglich erfassen können, ob die entsprechenden Daten inhaltlich mit anderen Datensätzen kombiniert werden können.
In einer für Menschen allein nicht mehr fassbaren Datenflut ist dieses Prinzip somit unerlässlich.
2.4. Wiederverwendbarkeit
Unter dem Grundsatz der Wiederverwend- oder Nachnutzbarkeit („Reusability“) versteht man das Zusammenspiel folgender Aussagen [7]:
- 1: (Meta-)Daten sind detailliert beschrieben und enthalten präzise, relevante Attribute.
- 1.1: (Meta-)Daten enthalten eindeutige und zugreifbare Angaben zur Nutzungslizenz.
- 1.2: (Meta-)Daten enthalten detaillierte Informationen über die Entstehung (Provenance).
- 1.3: (Meta-)Daten entsprechen den fachgebietsrelevanten Community-Standards.
Damit andere Wissenschaftler:innen die Forschungsdaten zu einem späteren Zeitpunkt – und womöglich mit einer komplett anderen Forschungsfrage – wiederverwenden können, muss für sie klar verständlich sein, wie die Daten entstanden sind und welche Nutzungsbedingungen vorliegen.
Auch dies sollte bereits automatisiert für Computersysteme erfassbar sein.
3. Vorteile der FAIR-Prinzipien im Forschungsdatenmanagement
Die FAIR-Prinzipien gehen mit einer ganzen Reihe an Vorteilen einher. Zu den wichtigsten zählen Folgende.
- Datensätze werden leichter auffindbar und gehen seltener verloren.
- Dadurch werden auch die ursprünglichen „Erschaffer“ des Datensatzes für andere besser sichtbar.
- Daten können erneut genutzt werden. Doppelte Erhebungen oder Mehrfacharbeit werden daher vermieden. Dies macht die Forschung effizienter.
- Forschungsergebnisse werden durch das Teilen von zugehörigen Daten nachvollziehbarer.
- Ist der Datensatz erst einmal für andere Wissenschaftler:innen „durchforstbar“, können diese auf neue Forschungsfragen stoßen und so zum wissenschaftlichen Fortschritt beitragen. Durch die Nachnutzung können also ganz neue Impulse für die Forschung entstehen. Zudem können bestehende Forschungsergebnisse mit weiteren Studienergebnissen angereichert werden.
- Auch die Sekundärforschung – also die Arbeit mit bereits vorhandenem Datenmaterial, aber häufig für andere Untersuchungszwecke – gelangt so an wesentlich größere Datensätze.
Im Wesentlichen kommt es also zu einer Transparenz- und Effizienzsteigerung.
Die folgenden Aspekte sollten dabei besondere Erwähnung finden.
3.1. Neue Erkenntnisse durch gutes Datenmanagement
H3: 3.1. Neue Erkenntnisse durch gutes Datenmanagement
Durch die Anwendung der FAIR-Prinzipien wird ein regelrechter Kulturwandel in der Forschungsgemeinschaft angestoßen, bei dem Datensilos erfolgreich aufgebrochen werden. Austausch und Handhabung von Daten werden immens vereinfacht.
Zudem ist gutes Datenmanagement keineswegs ein Selbstzweck. Es ist vielmehr das Schlüsselelement, wenn es darum geht, Wissenszuwachs und Erkenntnisgewinn systematisch zu beschleunigen.
Denn so wie Forschungsdaten bisher veröffentlicht und damit mit der Wissenschafts-Community geteilt wurden, war es nur schwer möglich, den maximalen Ertrag aus dem geleisteten Aufwand zu ziehen. Schließlich konnten nur die ursprünglichen „Datenerheber“ – meist einmalig – eine Auswertung ihrer Daten vornehmen.
Statt also – wie bisher – nur über die wichtigsten Ergebnisse der eigenen Datenauswertungen zu berichten, werden dank der FAIR-Prinzipien die weltweit erfassten Datensätze immer weiter zusammenwachsen.
Und vier Augen sehen bekanntlich mehr als zwei – Tausende dann sowieso.
3.2. Die Rolle von maschineller Datenverarbeitung
Die FAIR-Prinzipien sind auch deswegen so wegweisend, weil wir uns im Zeitalter der technologischen Transformation befinden. Die schiere Zahl an verfügbaren Daten ist für das menschliche Gehirn schlichtweg nicht mehr fassbar.
Computersysteme und KI-Algorithmen können genau diese Lücke schließen und Wissenschaftler:innen aktiv bei den Arbeitsschritten unterstützen, zu denen sie allein gar nicht mehr in der Lage wären.
Voraussetzung hierfür ist jedoch, dass die Daten – und zwar sowohl die Forschungs- als auch die Metadaten – für die Computersysteme korrekt interpretierbar sind. Ein grundlegendes Element der FAIR-Prinzipien.
4. FAIR-Prinzipien in der Deutschen Forschungsgemeinschaft (DFG)
Auch die deutsche Wissenschaft hat sich längst den FAIR-Prinzipien gegenüber geöffnet. So hat beispielsweise die Deutsche Forschungsgemeinschaft (DFG) 2019 ihre Standards „zur Sicherung guter wissenschaftlicher Praxis“ grundlegend überarbeitet.
Darin heißt es fortan: „Aus Gründen der Nachvollziehbarkeit, Anschlussfähigkeit der Forschung und Nachnutzbarkeit hinterlegen Wissenschaftlerinnen und Wissenschaftler, wann immer möglich, die der Publikation zugrunde liegenden Forschungsdaten und zentralen Materialien – den FAIR-Prinzipien („Findable, Accessible, Interoperable, Re-Usable“) folgend – zugänglich in anerkannten Archiven und Repositorien.“
5. „Open Access” bei Forschungsdaten
Ein häufiges Missverständnis liegt in der Annahme, „FAIRe“ Daten entsprächen automatisch „Open Data“ – also frei verfüg- und nutzbaren Daten. Dies ist jedoch derzeit nicht der Fall [4, 11, 12].
Hintergrund sind dabei meist wirtschaftliche sowie rechtliche Gründe. Viele wissenschaftliche Institutionen wollen mit dem zögerlichen Teilen der Daten entweder einem Kontrollverlust bei der Datenverwertung oder einem erhöhten Zeitaufwand für die Aufbereitung der Daten vorbeugen [4, 11, 13].
Die aktuell teils noch gängigen Einschränkungen beim Datenzugriff sind jedoch durchaus mit den FAIR-Prinzipien vereinbar. Voraussetzung hierfür ist jedoch, dass – ganz im Sinne des Wiederverwendbarkeits-Prinzipis („R“) – die Bedingungen und Wege zum Zugang für Andere ersichtlich sind [4, 11, 13].
Dank Vorteilen wie einer deutlich erleichterten Zusammenarbeit werden „Open Access“- und „Open Data“-Ansätze jedoch immer geläufiger [4, 11].
Das Zusammenwachsen der Forschungswelt dürfte also auch nach erfolgreicher FAIR-Prinzipien-Umsetzung weiter voranschreiten.
6. FAIR-Prinzipien für eine bessere Gesundheitsforschung
Spätestens seit Beginn der Corona-Pandemie ist überdeutlich geworden, wie essenziell der globale Austausch von Daten für das Gesundheitssystem ist. Denn nur wenn wirklich alle verfügbaren Informationen in die Auswertungen einfließen, können daraus – schnellstmöglich – die richtigen Schlüsse gezogen werden [16].
Dabei stehen Wissenschaftler:innen immer wieder vor dem Dilemma, dass Gesundheitsdaten zu Recht ein höchst schützenswertes Gut sein sollten. Gleichzeitig aber „blinde Flecken“ entstehen, wenn wichtige Informationen der Forschung vorenthalten werden [16].
Die FAIR-Prinzipien bieten daher auch für die Gesundheitsforschung ein immenses Potenzial.
Ist beispielsweise die Studienpopulation einer Forschungsgruppe zu klein, um statistisch fundierte Aussagen treffen zu können, kann der globale Austausch von Daten genau den Unterschied machen. Das ist höchst relevant für Menschen mit seltenen Erkrankungen und auch für marginalisierte Minderheiten [16].
Für die personalisierte Medizin – also den Ansatz, die Gesundheit eines jeden Menschen individuell zu betrachten – ist es ebenfalls unabdingbar, über so viele Informationen wie möglich zu verfügen. So können vermeintlich unerklärliche „statistische Ausreißer“ plötzlich Sinn ergeben, wenn sie in einem größeren Datenkontext beleuchtet werden [16].
Und nicht zuletzt ist es auch im Gesundheitsbereich für den erfolgreichen Einsatz von modernen KI-Algorithmen entscheidend, dass die relevanten Datensätze leicht auffindbar, vollständig sowie – weltweit interoperabel – verwertbar sind [16].
Die FAIR-Prinzipien machen es möglich.
Die Inhalte dieses Artikels geben den aktuellen wissenschaftlichen Stand zum Zeitpunkt der Veröffentlichung wieder und wurden nach bestem Wissen und Gewissen verfasst. Dennoch kann der Artikel keine medizinische Beratung und Diagnose ersetzen. Bei Fragen wenden Sie sich an Ihren Allgemeinarzt.
Ursprünglich veröffentlicht am