Home MyCoRe macht Forschungsdaten FAIR
Article Publicly Available

MyCoRe macht Forschungsdaten FAIR

  • Wiebke Oeltjen

    Universität Hamburg, Regionales Rechenzentrum, Schlüterstr. 70, D-20146 Hamburg

    ORCID logo EMAIL logo
    , Kathleen Neumann

    Verbundzentrale des GBV (VZG), Digitale Bibliothek, Platz der Göttinger Sieben 1, D-37073 Göttingen

    ORCID logo
    , Ulrike Stahl

    Julius Kühn-Institut (JKI), Informationszentrum und Bibliothek, Erwin-Baur-Str. 27, D-06484 Quedlinburg

    ORCID logo
    and Robert Stephan

    Universität Rostock, Universitätsbibliothek, D-18051 Rostock

    ORCID logo
Published/Copyright: April 5, 2019

Zusammenfassung

Forschungsdaten werden in Repositorien gespeichert und zur Nachnutzung erhalten. Dies setzt voraus, dass die Repositorien bestimmte Prinzipien einhalten. Die FAIR-Leitprinzipien besagen, dass wissenschaftliche Daten auffindbar, zugänglich, interoperabel und wiederverwendbar sein sollen. In diesem Artikel wird gezeigt, dass die Open-Source-Software MyCoRe geeignet ist, Repositorien bereitzustellen, die die FAIR-Prinzipien erfüllen. Dazu werden drei MyCoRe-Anwendungen, die Forschungsdaten verwalten und bereitstellen, untersucht und bewertet.

Abstract

Research data are stored in repositories for long term use. This presupposes that the repositories comply with certain principles. The FAIR data guiding principles propose that research data should be Findable, Accessible, Interoperable, and Reusable (FAIR). This article shows that the open source software MyCoRe is capable of providing repositories that meet the FAIR principles. Therefor three MyCoRe applications that manage and provide research data will be examined and evaluated.

1 MyCoRe trifft auf Forschungsdaten

Forschungsdaten[1] bilden einen Grundpfeiler wissenschaftlicher Erkenntnis und sind die Basis für weitere Forschung. Eine transparente Dokumentation der Forschungsdaten, ein verantwortungsvolles Forschungsdatenmanagement (FDM) einschließlich qualitätsgesicherter Archivierung und/oder Veröffentlichung sorgen für die Nachvollziehbarkeit und Reproduzierbarkeit von Forschungsprozessen und deren Ergebnissen und ermöglichen eine vielfältige Nachnutzung.

MyCoRe[2] ['maikɔːr] ist ein Open-Source-Framework zur Erfassung, Verwaltung und Präsentation digitaler Objekte[3] und deren Metadaten. Die bis heute mehr als 70 realisierten Anwendungen (z. B. institutionelle Repositorien, Archive und Online-Lexika) enthalten auch verschiedene Forschungsdaten. Von der zitierfähigen Ablage einzelner Forschungsdaten auf Publikationsservern bis zu fachspezifischen Datenbanken und Portalen, zeigt sich dabei ein breites Spektrum.

MyCoRe wird seit 2001 von einer bundesweiten Gemeinschaft an Universitätsbibliotheken, universitären Rechenzentren und an der Verbundzentrale des GBV (VZG) kontinuierlich weiterentwickelt. Dabei standen schon immer Prinzipien im Mittelpunkt, die wir heute unter anderem als FAIR-Leitprinzipien[4] kennen: Daten und Metadaten sollten in MyCoRe-Webanwendungen im Rahmen einer entsprechenden Infrastruktur auffindbar (Findable), zugänglich (Accessible), interoperabel (Interoperable) und wiederverwendbar (Reusable) sein. Dafür stellt das MyCoRe-Framework Schnittstellen und Funktionen bereit, die zum Verwalten, Speichern, Präsentieren und Austauschen von Metadaten und den digitalen Ressourcen benötigt werden.

Tab. 1

Die FAIR-Prinzipien und Rahmenrichtlinien für Repositorien

Bewertungskriterien
Auffindbarkeit (Findable)
F1(Meta-)Daten erhalten global eindeutige und dauerhafte PIDs
F2Beschreibung der Daten mit umfangreichen Metadaten
F3Klare Referenz von Metadaten zu Daten mittels ID
F4Metadaten sind in durchsuchbaren Verzeichnisdiensten erfasst
Zugänglichkeit (Accessible)
A1Auffindbarkeit der (Meta-)Daten über ein standardisiertes Protokoll
A1.1Protokoll ist offen, frei und universell
A1.2Protokoll unterstützt Authentifizierung und Rechteverwaltung
A2Metadaten sind/bleiben verfügbar
Interoperabilität (Interoperable)
I1Nutzung etablierter Formalismen zur Präsentation der (Meta-)Daten
I2Nutzung FAIRer Vokabulare in den (Meta-)Daten
I3Qualifizierte Referenz zwischen den (Meta-)Daten
Wiederverwendbarkeit (Reusable)
R1Detailliert beschriebene (Meta-)Daten mit präzisen und relevanten Attributen
R1.1Klare Angabe der Nutzungslizenz
R1.2(Meta-)Daten enthalten Provenienz-Informationen
R1.3(Meta-)Daten entsprechen fachgebietsrelevanten Standards
Rahmenrichtlinie für Repositorien (Guidelines)
G1Global eindeutige und dauerhafte PIDs (analog zu F1)
G2PIDs unterstützen mehrere Granularitäten
G3PIDs lösen auf die sogenannte „Landing Page“ (LP) auf
G4PID ist maschinenlesbar in LP eingebettet
G5Dokumentation und Unterstützung für Zitation der Daten
G6LP enthält Metadaten für Zitation und Auffindbarkeit
G7Metadaten sind entsprechend schema.org in JSON-LD eingebettet
G8Metadaten sind über HTML-Tags auslesbar
G9Download der Metadaten in BibTeX o. ä. möglich
G10„Content Negotiation“ (CN) für schema.org/JSON-LD
G11Unterstützung von sogenannten „HTTP Link Headern“ für CN

2 Offenen Zugang zu Daten FAIR gestalten

Die FAIR-Prinzipien, die für Menschen und Maschinen gleichermaßen gelten sollen,[5] haben die Wiederverwendung von Forschungsdaten als übergeordnetes Ziel. Sie werden heute oft im Zusammenhang mit der Forderung nach offenem Zugang zu Forschungsdaten proklamiert, wobei „offen“ in erster Linie verlangt, dass klar beschrieben ist, wo die Daten liegen. Mit dem expliziten Bezug auf die FAIR-Prinzipien beim geforderten Datenmanagementplan im aktuellen Horizon 2020 Förderprogramm[6] werden sie zu einem Grundstein des Forschungsdatenmanagements.[7] Eine wesentliche Rolle in den Prinzipien spielt die Zitierung von Forschungsdaten und Metadaten. Daher verfeinern Empfehlungen[8] zur Zitierung von Forschungsdaten einzelne FAIR-Kriterien. In Tab. 1 sind beide Kriterienkataloge zusammengefasst.

Die Umsetzung der sich daraus ergebenden Anforderungen stellen datenerzeugende Forschungseinrichtungen vor enorme Herausforderungen. Es ist eine Infrastruktur zu schaffen, die die anfallenden spezifischen Forschungsdaten und Metadaten bestmöglich erfasst, dokumentiert, analysiert, publiziert, archiviert und gleichzeitig den FAIR-Prinzipien genügt. Dadurch wächst die Notwendigkeit bestehende Software zu evaluieren, ob und wie sie den FAIR-Prinzipien genügt[9] und deren FAIRness[10] transparent zu messen.

Wir zeigen hier, inwieweit das MyCoRe-Framework selbst, sowie die folgenden drei MyCoRe-Anwendungen, die alle frei zugängliche Forschungsdaten enthalten, die FAIR-Prinzipien und die Empfehlungen zur Zitierung für Datenrepositorien vollständig und optimal (++), vollständig mit Potential (+), teilweise (?) oder nicht (–) erfüllen. Dabei vergeben wir vollständig und optimal (++) nur dann, wenn eine technische Möglichkeit vollständig implementiert und auch konsequent in der Anwendung umgesetzt ist. MyCoRe kann somit bestenfalls nur vollständig mit Potential (+) bewertet werden. Die untersuchten Anwendungen sind:

  1. OpenAgrar,[11] der Publikationsserver der Bibliotheken der Ressortforschungseinrichtungen des Bundesministerium für Ernährung und Landwirtschaft (BMEL-Forschung),

  2. der Catalogus Professorum Rostochiensium,[12] ein Personenlexikon über alle an der Universität Rostock tätigen Professoren seit ihrer Gründung (kurz: Rostocker Professorenkatalog) und

  3. der Corpus Musicae Ottomanicae[13] (CMO) Musik-Editionen- und -Quellen-Katalog des gleichnamigen Gemeinschaftsprojektes des Institutes für Musikwissenschaft der Westfälischen Wilhelms-Universität Münster, der Max-Weber-Stiftung und des Orient-Institutes Istanbul.

3 MyCoRe und die FAIR-Prinzipien

3.1 Auffindbarkeit (Findable)

Sowohl Daten als auch Metadaten sollen von Mensch und Maschine leicht zu finden sein. Zu diesem Zweck sollen die Forschungsdaten global eindeutige und dauerhafte Persistent Identifier (PIDs) erhalten (F1) und mit umfangreichen Metadaten beschrieben werden (F2). Weiterhin ist eine klare Referenz der Metadaten zu den entsprechenden Daten mittels einer ID zu realisieren (F3). Eine hochwertige Indizierung ermöglicht schlussendlich das Harvesting und die Meldung der Metadaten an einschlägige Verzeichnisdienste (F4).

Einer der in MyCoRe bereitgestellten Softwarebausteine, ermöglicht es beliebige PIDs zu generieren. Eine Implementierung zur Erzeugung von DNB-URNs, Datacite-DOIs und PURLs wird bereits mitgeliefert. Weitere Realisierungen z. B. für Crossref-DOIs oder Handle-Dienste können leicht ergänzt werden (F1: +). Das Datenmodell ist in einer MyCoRe-Anwendung frei definierbar. Einzige Einschränkung ist die Festlegung auf XML. MyCoRe ermöglicht einerseits eine flexible Datenmodellierung, so dass Daten detailliert zu erfassen sind, andererseits können aber auch XML-Metadatenstandards wie MODS oder MEI direkt als Datenmodell eingebunden werden (F2: +). Ist das Datenmodell entsprechend definiert, können die Metadaten eindeutig und explizit Informationen über die Daten enthalten, die sie beschreiben (F3: +). MyCoRe nutzt die Open-Source-Suchplattform Apache Solr und stellt damit umfangreiche Suchfunktionen zur Verfügung. Sowohl Metadaten als auch Volltexte können direkt über Solr durchsucht werden. Um von der konkreten Suchplattform zu abstrahieren, stellt MyCoRe weiterhin eine eigene Anfragesprache bereit, die „MyCoRe Query Language“ (MCR-QL) (F4: +).

3.2 Zugänglichkeit (Accessible)

Eine langfristige Verfügbarkeit der (Meta-)Daten über standardisierte (A1), offene und frei zugängliche Protokolle (A1.1) macht diese sowohl für Mensch als auch für Maschine leicht zugänglich. Auch der Zugriff auf stark geschützte Daten muss entsprechend realisiert werden (A1.2). Für den Fall, dass die eigentlichen Daten nicht mehr verfügbar sind, wird zu Dokumentationszwecken der Zugriff auf die Metadaten weiterhin sichergestellt (A2).

MyCoRe-Anwendungen nutzen das offene Protokoll HTTP/HTTPS, so dass die (Meta-)Daten entsprechend ihrer Zugriffsrechte frei zugänglich sind (A1: +). Es ist ein Rollen- und Rechtesystem implementiert, das den Zugriff auf die (Meta-)Daten steuerbar macht. Jedem Benutzer steht im Rahmen des Upload-Prozesses ein geschützter Bereich zur Verfügung, der konfiguriert werden kann. Privilegien steuern Berechtigungen und Access Control Lists (ACLs) regeln den Zugriff auf Metadaten, auch wenn die Ressourcen nicht mehr verfügbar sein sollten (A2: +).

3.3 Interoperabilität (Interoperable)

Die Daten müssen derart bereitgestellt werden, dass Austausch und Interpretation innerhalb anderer Systeme möglich ist. Daher sollen etablierte Formalismen (I1) und Vokabulare (I2) zur Erfassung und Präsentation genutzt werden. Bei entsprechender Abhängigkeit verschiedener Datensätze untereinander, sollen diese qualifiziert referenziert werden (I3).

Die Auszeichnungssprache XML spielt in MyCoRe eine zentrale Rolle. Sie gewährleistet die Interoperabilität, da Metadaten-Objekte intern als XML-Dokumente persistent abgelegt werden. Auch können durch XSL-Stylesheets beliebige Ausgabeformate wie beispielsweise XML, CSV, JSON oder BibTeX generiert werden. So lassen sich Metadaten und Klassifikationen vielfältig im- und exportieren. Dritte Systeme können diese Schnittstelle für den Batch-Import von Metadaten verwenden (I1: +). Um das Prinzip I2 zu erfüllen, müssen die Anwendungsentwickler von Repositorien das verwendete Vokabular – den FAIR-Prinzipien entsprechend – leicht auffindbar dokumentieren und falls möglich Standards verwenden. Eine Vernetzung von Datenquellen ist in MyCoRe über qualifizierte Verweise möglich (I2: +). Auch können externe Daten via Linked Open Data in MyCoRe-Webanwendungen integriert werden (I3: +). Das Framework bringt also die technischen Grundvoraussetzungen mit, um Interoperabilität in der jeweiligen Anwendung zu realisieren.

3.4 Wiederverwendbarkeit (Reusable)

Durch detaillierte und präzise Beschreibung der Daten (R1), die Angabe einer eindeutigen Nutzungslizenz (R1.1) und Provenienz-Informationen (R1.2) können die Forschungsdaten auch für zukünftige Forschung wiederverwendet werden. Bei der Verwendung fachgebietsrelevanter Standards können die Daten noch leichter verstanden und nachgenutzt werden (R1.3).

Dies liegt im Verantwortungsbereich der die Daten erfassenden Institutionen und Personen. Auf der technischen Seite können mit MyCoRe-Anwendungen (Meta-)Daten menschen- und maschinenlesbar bereitgestellt werden (R1: +). Begünstigt wird die Wiederverwendbarkeit der Daten, wenn sie nativ und in einem aussagekräftigen bzw. standardisierten Datenmodell vorliegen. Die Software bietet lediglich die Werkzeuge zur Wiederverwendung der Daten. So ist beispielsweise in der Anwendung MIR[14] die Lizenzangabe ein Pflichtfeld. Weiterhin kann der Rechteinhaber im Sinne des Urheberrechts benannt (R1.1: +) und eine Institutionszugehörigkeit angegeben werden. Auch können Provenienz-Informationen je nach Metadatenschema in den Metadaten erfasst (R1.2: +) und je nach Fachgebiet relevante Standards implementiert werden (R1.3: +).

3.5 Zitierbarkeit der (Meta-)Daten

Mit MyCoRe-Anwendungen können aus technischer Sicht die erforderlichen und empfohlenen Richtlinien zur Zitierung[15] von Forschungsdaten umgesetzt werden (G1-G9: +). Dazu gehört, dass Persistent Identifier – auch granular – vergeben werden, die auf eine Landing Page verweisen, die wiederum umfangreiche Metadaten in verschiedenen Formaten menschen- und maschinenlesbar bereitstellen. An der Umsetzung der beiden optionalen Richtlinien „Content Negotiation“ (CN) für schema.org/JSON-LD und die entsprechende Unterstützung von sogenannten „HTTP Link Headern“ für CN (G10, G11: -) wird noch gearbeitet.

4 OpenAgrar – ein Repositorium auch für Agrardaten

OpenAgrar ist das gemeinsame Repositorium von Einrichtungen im Geschäftsbereich des Bundesministeriums für Ernährung und Landwirtschaft (BMEL). Es dient einerseits dazu die Veröffentlichungen der Forschenden aus diesen Einrichtungen zu erfassen, zu archivieren und der Öffentlichkeit zugänglich zu machen und andererseits, um erzeugte Dokumente aber auch Forschungsdaten dieser Einrichtungen zu veröffentlichen und entsprechend nachnutzbar zu machen. Es werden alle Datenformate unterstützt – Bilder, Tabellen oder ganze Datenbanken können über eine Weboberfläche hochgeladen und entsprechend mit Metadaten angereichert werden.

Für alle erstpublizierten Datenobjekte im OpenAgrar können DOIs[16] aus dem System heraus vergeben und über DataCite registriert werden. Sie sind über einen HTTP-Resolver auflösbar (G1: ++) und ihre Langlebigkeit ist durch eine entsprechende Policy der DOI-Registrierungsagentur[17] garantiert (F1: ++). Außerdem kann ein Embargo auf das Datenobjekt selbst vergeben werden, sodass nur die Metadaten selbst sichtbar sind. Veröffentlichte Datenobjekte können gesperrt, aber nicht undokumentiert gelöscht werden, wobei die Metadaten in allen Fällen erhalten bleiben. Das verwendete MODS-Metadaten-Schema in OpenAgrar wurde dafür auf das DataCite-Schema 4.1[18] abgebildet.

Eine strukturierte granulare Vergabe von DOIs für einzelne Datenobjekte, die zu einer Datensammlung oder Teilen davon bzw. verschiedenen Versionen gehören, ist nur teilweise möglich (G2: ?). Die Datenobjekte können derzeit nur über die Beziehungstypen „Version von“, „anderes Format zu“, „Original zu“, „verbunden mit“ entsprechend verlinkt werden (I3: +). Registrierte DOIs lösen immer auf eine Landing Page (LP) auf, wo neben dem DOI selbst u. a. Kontaktinformationen, bibliografische und datenbeschreibende Metadaten, Verlinkungen, Lizenzen und Zitierweisen stehen (G3, G5, G6: ++). All diese Metadaten sind von Menschen als auch Maschinen lesbar, wobei die Maschinenlesbarkeit durch schema.org-Auszeichnung im JSON-LD Format und/oder verschiedenen HTML-Meta-Tags (z.B. DublinCore, HighWirePress) realisiert ist (F2, F3, G4, G7, G8: ++).

Für jedes Datenobjekt ist es möglich, sowohl die für die DOI-Registrierung nötigen fünf obligatorischen als auch alle weiteren sechs empfohlenen Metadaten des DataCite-Schemas 4.1 zu erfassen, womit die Zitierung garantiert ist und die Auffindbarkeit gewährleistet wird. OpenAgrar ermöglicht die beidseitige Verlinkung zwischen erstpubliziertem Datenobjekt und dem erfassten dazugehörigen wissenschaftlichen Artikel über den Bezug „ist referenziert in“ bzw. „referenziert“ und erhöht somit die Auffindbarkeit im OpenAgrar selbst als auch über externe Data Literature Interlinking Services wie ScholeXplorer.[19] Zusätzlich können Metadaten wie „Rechteinhaber“, „Beschreibung der Datenstruktur“ wie z. B. Parameter oder Messgrößen aber auch „Umfang/Größe“ des Datenobjektes, „Version“ und „Sprache“ erfasst werden (R1: +). Um Informationen über die Entstehung und Herkunft des Datenobjektes zu bekommen, erlaubt OpenAgrar das Erfassen von verschiedenen Beitragenden wie z. B. „Laborleitung“ oder „Projektleitung“ ebenso wie von verschiedenen zeitlichen Angaben wie „erstellt am“, „überprüft am“, „geändert am“, „aufgenommen am“ (R1.2: +). Das Metadatum „Rechte/Lizenz“ ist obligatorisch und erlaubt die Auswahl aus einer Liste mit verschiedenen Lizenzen (R1.1: ++). Die zur Zitierung nötigen Metadaten sind in einem extra Feld „Zitierform“ ersichtlich und in verschiedenen Formaten wie z. B. BibTeX, RIS und ISI exportierbar (G9: ++). OpenAgrar erlaubt die Eingabe von IDs für Personen und Schlagwörtern (ORCID, GND etc.) und ermöglicht somit eine eindeutige Zuordnung von Autoren bzw. zu Themengebieten. Das Datenobjekt selber muss obligatorisch einer Sachgruppe der Deutschen Nationalbibliothek zugeordnet werden. Alle diese, nach extern referenzierten Metadaten, lösen über eine entsprechende URL auf und sind auffindbar und dokumentiert (I2: +). Außerdem bietet OpenAgrar den Export im MODS und Dublin-Core-Schema an (I1: ++).

Die Daten und Metadaten sind über verschiedene Sucheinstiege im OpenAgrar recherchierbar. Da Volltexte ebenfalls indiziert sind, kann sowohl das Datenobjekt selbst besser gefunden werden, als auch mitveröffentlichte Methodenbeschreibungen oder datenbeschreibende Dateien. Diese zusätzlichen Informationen geben dem Datennachnutzenden Auskunft über die Herkunft, den Prozessierungsgrad, oder über die Erzeugungsmethode des Datenobjektes. Durch beschränkte Zugriffsrechte kann der Zugang zum Datenobjekt selbst eingeschränkt bzw. gesteuert werden, dem Datennutzenden wird dies auf der LP angezeigt, dabei bleiben die Metadaten immer zugänglich. In OpenAgrar können über ein Rollen- und Rechtemanagement entsprechend verschiedene Lese-/Schreibrechte für Autoren, Administratoren oder Bearbeiter zugewiesen werden (A1.2: ++). Datennutzende haben freien Zugang, wohingegen datenpublizierende Autoren sich z. B. via SHIBBOLETH oder LDAP authentifizieren und registrieren müssen.

Über die OAI-PMH-Schnittstelle werden Metadaten ausgegeben und können von Suchmaschinen gesammelt und indiziert (z. B. von Bielefeld Academic Research Engine – BASE[20]), über die REST-API exploriert und exportiert bzw. über die OpenAIRE-Schnittstelle entsprechend Projekten zugeordnet werden (F4: ++). Ebenso ist OpenAgrar in re3data.org,[21] einem Katalog für Datenrepositorien, registriert. Die Datenobjekte und ihre Metadaten sind über HTTPS zugänglich (A1: ++) – einem offenen und universellen Format (A1.1: ++).

Im Falle der Beendigung des Betriebs von OpenAgrar sind die Betreiber für den (Meta-)Datenerhalt verantwortlich und müssen dies entsprechend in ihrer Policy verankern (A2: ?), vertraglich ist momentan eine Datensicherung für 10 Jahre garantiert.

OpenAgrar ist ein Datenrepositorium für den Agrarbereich, aber nicht spezialisiert auf einen bestimmten Datentyp wie z. B. Gensequenzdaten, Geodaten oder Charakterisierungsdaten pflanzengenetischer Ressourcen, die jeweils eigene Metadatenstandards haben, es kann somit nur generelle Metadaten verpflichtend erheben und indizieren (R1.3: +).

5 Rostocker Professorenkatalog

Der Rostocker Professorenkatalog ist ein biografisches Online-Lexikon, in dem alle Rostocker Professoren seit Gründung der Universität 1419 bis heute erfasst und mit ihren biografischen Informationen dargestellt werden. Die Einträge werden mit Bildern und historischen Quelldokumenten angereichert und mit weiteren digitalen Ressourcen verknüpft.

In dieser Anwendung findet man die biografischen Informationen (Daten) nicht in Dateien, die in ein Repository hochgeladen und mit Metadaten beschrieben werden, sondern sie werden über Webformulare erfasst und direkt in den MyCoRe-Metadatenobjekten als XML gespeichert. Die Repository-Funktionalität von MyCoRe wird genutzt, um zusätzliches Bild- und Quellenmaterial für einen Datensatz zu veröffentlichen. Im Folgenden untersuchen wir, ob auch für diesen Spezialfall die FAIR-Prinzipien und die Kriterien zur Zitierung von Datensätzen erfüllt werden können.

Für jeden Datensatz wird auf dem PURL-Server der Universitätsbibliothek Rostock ein PID erzeugt. Sollte in Zukunft eine Migration oder Integration in eine andere Anwendung unter einer neuen Webadresse notwendig werden, bleibt die zitierfähige PURL konstant. In diesem Fall wird lediglich eine neue Resolving-URL auf dem PURL-Server registriert (F1, G1: ++). In einer Empfehlung fassen wir die für das Zitieren eines Datensatzes notwendigen Informationen (u. a. Titel, PID und Abrufdatum) zusammen (F3: ++). Durch die Registrierung der Datensätze in Suchmaschinen (u. a. durch Implementierung des Google-Sitemap-Protokolls) werden diese weltweit sichtbar (F4: +).

Die Daten werden über das HTTP-Protokoll in Form von Webseiten für den menschlichen Leser und über die MyCoRe-REST-API maschinenlesbar im XML-Format bereitgestellt (A1: ++, A1.1: ++). Sämtliche Daten stehen ohne Zugriffsbeschränkung zur Verfügung. Somit besteht keine Notwendigkeit, die in MyCoRe enthaltenen Funktionen des Rollen- und Rechte-Managements für den Zugriff auf die Webseiten und die REST-API zu verwenden (A1.2: +). Da sich Daten und Metadaten nicht trennen lassen, bzw. die Metadaten aus den Datensätzen abgeleitet werden, ist eine Bereitstellung der Metadaten unabhängig von den Primärdaten nicht vorgesehen (A2: –). Dieses Kriterium könnte erfüllt werden, wenn Metadaten im Rahmen der Registrierung eines PIDs erzeugt werden, wie es z. B. von MyCoRe bei der Registrierung von DOIs unterstützt wird. Die Speicherung der Daten im XML-Format und die Bereitstellung über die REST-API ermöglichen den Datenaustausch. Durch die Verwendung der GND-Nummer[22] der beschriebenen Personen, wird eine eindeutige Zuordnung der Person und Verknüpfung mit anderen Datenquellen, beispielsweise über den GND-Beacon-Service,[23] möglich. Die Verknüpfung weiterer Aspekte (z. B. Ortsnamen[24]) ist im Datenmodell vorgesehen, wurde allerdings bislang nicht explizit erfasst (I3: +).

Die Beschreibung der Datenerhebung und des Datenumfangs lässt sich aus der Projektbeschreibung der Webseite entnehmen. Diese Daten sind aber nicht formalisiert oder maschinenlesbar (R1: ?). Die Notwendigkeit der Angabe einer Lizenz für die Nachnutzung der Daten wurde erkannt und wird diskutiert (R1.1: –). Durch die Anzeige des Zitierhinweises sowie Angaben zum Erfasser und letzten Bearbeiter eines Datensatzes sind grundlegende Angaben zur Provenienz möglich (R1.2: ?). Die Identifizierung einzelner Datensatzbestandteile oder verschiedener Versionsstände eines Objektes sind derzeit nicht vorgesehen (G2: ?). MyCoRe bietet jedoch die Möglichkeit mehrere Versionsstände für einen Datensatz zu speichern. Die persistenten URLs verweisen auf eine individuelle Webseite für jeden Datensatz mit Hinweisen zur gewünschten Zitierform (G3: ++, G5: +). Weder eine maschinenlesbare Codierung (mittels JSON-LD bzw. HTML-Metatags) noch eine Bereitstellung in einem Zitierformat (BibTeX, RIS) wurde bislang umgesetzt (G4: -, G6: ?, G7: -, G8: -, G9: -), ließe sich aber durch die von MyCoRe bereitgestellten XML-Funktionen (z. B. XSLT) einfach implementieren.

6 CMO-Editionen- und Quellen-Katalog

Die abschließend vorgestellte Anwendung Corpus Musicae Ottomanicae (CMO) ist eine Mischung aus Publikationsserver und Quellen-Katalog und Teil des auf 12 Jahre angelegten, gleichnamigen Projektes CMO. Dieses beschäftigt sich mit der Aufarbeitung von Musikhandschriften aus dem Nahen Osten, die sich auf Manuskripte osmanischer Musik aus dem 19. Jahrhundert konzentrieren. Es wird eine umfassende Onlinedatenbank aufgebaut, die Drucke, Manuskripte, zugehörige Online-Quellen und Beschreibungen der beteiligten Personen enthält. Ein weiterer wesentlicher Bestandteil des Projektes ist die Transkription und Edition der Quellen. Die so entstehenden kritischen Berichte, Musik- und Texteditionen werden ebenfalls auf der Online-Plattform veröffentlicht und mit dem zugehörigen Quellmaterial verknüpft.[25]

Früh stand fest, dass für die Quellenbeschreibung der Metadatenstandard MEI (Music Encoding Initiative),[26] ein XML-basiertes Dokumentenformat für die Kodierung, den Austausch und die Archivierung von Musik verwendet werden soll[27] (I1: ++, R1.3: ++). Eine weitere Anforderung war es, keine reine Webpräsentation der Daten zu schaffen, sondern gleichzeitig ein Werkzeug mit dem die Informationen direkt erfasst, analysiert und erweitert werden können. Nach der Analyse verschiedener Lösungsmöglichkeiten fiel die Wahl unter anderem aus den folgenden drei Gründen auf MyCoRe:

  1. Das Framework bietet die Möglichkeit XML-basierte Metadatenmodelle frei zu modellieren – also auch das hier geforderte MEI und dessen Relationen nach dem FRBR-Modell.[28]

  2. Der Einsatz eines Open-Source-Frameworks mit aktiver Community und Entwicklung sowie Betrieb bei der Verbundzentrale des GBV (VZG) gewährleisten eine nachhaltige Softwarelösung (A2: +).

  3. Die ebenfalls in diesem Kontext angesiedelte MyCoRe-Anwendung Bach digital[29] ist seit 2010 online und belegt nochmals Umsetzbarkeit und Nachhaltigkeit (A2: +, R1.3: ++).

Seit Mai 2018 ist die Online-Plattform von CMO über HTTPS erreichbar (A1, A1.1, A1.2: ++) und der Bestand wächst seither stetig. Im Vordergrund des Projektes steht nachhaltiges Forschungsdatenmanagement. So sind neben den aktuellen Forschungsarbeiten auch für die internationale akademische Welt und Künstlergemeinschaft neue Einblicke und weitere Forschungen möglich, da diesen die Quellen zugänglich gemacht werden. Ein weiteres langfristiges Ziel ist es, die Datenbank für weitere Quellen zu öffnen, um zukünftig eine breitere Datenbasis für die Musikforschung bereitzustellen.

Durch die Verwendung der Metadatenstandards MODS und MEI sind sowohl Quell- als auch Publikations-(Meta-)Daten umfangreich (F2:++), nachhaltig und maschinenlesbar (F4: +) beschrieben. Innerhalb der Metadaten wird auf standardisiertes Vokabular gesetzt: Standard List of Musical Terms (Makâm, Usûl, Tempo, Genre)[30] (I1: ++, R1.3: ++). In den Bereichen, in denen die derzeitigen Standards nicht ausreichen, wird im CMO-Projekt an einer entsprechenden Erweiterung des Standards gearbeitet.

Die Umsetzung der Relationen nach dem FRBR-Modell ist wie in der MEI-Spezifikation beschrieben implementiert. Dadurch ist es möglich die z. T. komplexen Zusammenhänge der Daten auch anwendungsunabhängig, also nativ auf der Platte nachzuvollziehen. Einen leicht verständlichen Zugang zu den Daten wie er in Cremer et al. (2018) gefordert wird, der auch ohne Webanwendung mit deren Suche, sowie Filtern funktioniert, kann jedoch derzeit nicht geboten werden.[31]

Eine langfristige Verfügbarkeit der Quelldaten, um u. a. auch spätere Forschung unter neuen Aspekten zu ermöglichen ist dadurch realisiert, dass die Anwendung nach Projektlaufzeit als Standarddienst bei der VZG weiter gewartet und gehostet wird. Ein entsprechender Vertrag, der auch die Bereitstellung der Daten nach Vertragskündigung gewährleistet, ist bereits abgeschlossen.

7 Zusammenfassung

Wir haben gezeigt, dass die untersuchten FAIR-Prinzipien und die Zitierempfehlungen von MyCoRe bis auf die beiden optionalen Richtlinien G10 und G11 technisch sehr gut realisiert sind und somit entsprechende Anforderungen an das Forschungsdatenmanagement umgesetzt werden können. Trotzdem verdeutlicht die Übersicht in Tabelle 2, dass die vorgestellten MyCoRe-Anwendungen einige Prinzipien noch nicht vollständig und optimal umsetzen. Folgende Gründe können genannt werden:

Im OpenAgrar sind einige Prinzipien (siehe + in Tab. 2) noch nicht für alle Datensätzen konsequent angewendet worden. Dies liegt zum überwiegenden Anteil in der Verantwortung der Betreiber, z. B. fehlende Verträge mit DOI-Registrierungsagenturen (F1) oder fehlende Policies, die obligatorische und freiwillige Metadatenfelder festlegen können (R1, R.1.2, I3).

Im Professorenkatalog werden die intern als XML vorliegenden Daten in Form eines Webportals publiziert. Dadurch wird eine klare Abgrenzung von Daten und Metadaten erschwert und es besteht die Gefahr, dass die genannten Prinzipien nicht ausreichend Beachtung finden. Viele der zur Erfüllung der Kriterien notwendigen Informationen sind in den Daten enthalten und müssen lediglich in Form von zusätzlichen Angaben auf der Webseite oder die Aufbereitung in maschinenlesbarer Form explizit gemacht werden. Für die Umsetzung stellt MyCoRe die notwendige Funktionalität bereit. Aus unserer Sicht ist auch eine stärkere Sensibilisierung der Fachwissenschaftler für dieses doch eher technische Thema notwendig.

Der CMO-Editionen- und Quellen-Katalog ist die jüngste der hier vorgestellten Anwendungen und sowohl inhaltlich als auch funktional noch im Aufbau befindlich. Auch wenn MyCoRe aus technischer Sicht alles mitbringt, was für die Umsetzung der hier evaluierten Kriterien notwendig ist, sind einige Funktionen nur teilweise oder gar nicht umgesetzt.

Abschließend können wir sagen, dass Forschungsdaten und Metadaten in MyCoRe-Repositorien potentiell FAIR sind. Es kommt aber darauf an, dass in den Projekten, die den Aufbau eines Repositoriums planen und realisieren, kontinuierlich an der Einhaltung der Prinzipien mitgewirkt wird. Dies setzt eine stärkere Sensibilisierung der Fachwissenschaftler bzw. Repository-Betreiber für die FAIR-Prinzipien voraus. Notwendig ist auch eine kontinuierliche Weiterentwicklung der Software, wie dies in der MyCoRe-Entwicklergemeinschaft gepflegt wird. Da die grundlegenden Prinzipien der Auffindbarkeit, Zugänglichkeit, Interoperabilität und Wiederverwendbarkeit von (Meta-)Daten in Repositorien schon bei der Entwicklung von MyCoRe eine wichtige Rolle gespielt haben, sind viele technische Möglichkeiten schon lange verfügbar und bei entsprechenden institutionellen Publikationsservern mit diversen digitalen Objekten umgesetzt. Mit MyCoRe-Anwendungen kann so ein Beitrag zum Aufbau einer langfristig stabilen, vertrauenswürdigen und verlässlichen Forschungsdateninfrastruktur geleistet werden.

Tab. 2:

Bewertungen anhand der FAIR-Prinzipien und Richtlinien für Repositorien

BewertungskriteriumMyCoReOpenAgrarProfessoren-katalogCMO
F1(Meta-)Daten erhalten global eindeutige und dauerhafte PIDs+++++++
F2Beschreibung der Daten mit umfangreichen Metadaten+++?++
F3Klare Referenz von Metadaten zu Daten mittels ID+++++++
F4Metadaten sind in durchsuchbaren Verzeichnisdiensten erfasst+++++
A1Auffindbarkeit der (Meta-)Daten über ein standardisiertes Protokoll+++++++
A1.1Protokoll ist offen, frei und universell+++++++
A1.2Protokoll unterstützt Authentifizierung und Rechteverwaltung++++++
A2Metadaten sind/bleiben verfügbar+?+
I1Nutzung etablierter Formalismen zur Präsentation der (Meta-)Daten+++?++
I2Nutzung FAIRer Vokabulare in den (Meta-)Daten++??
I3Qualifizierte Referenz zwischen den (Meta-)Daten++++
R1Detailliert beschriebene (Meta-)Daten mit präzisen und relevanten Attributen++??
R1.1Klare Angabe der Nutzungslizenz+++++
R1.2(Meta-)Daten enthalten Provenienz-Informationen++??
R1.3(Meta-)Daten entsprechen fachgebietsrelevanten Standards++?++
G1Global eindeutige und dauerhafte PIDs (analog zu F1)+++++++
G2PIDs unterstützen mehrere Granularitäten+???
G3PIDs lösen auf die sogenannte „Landing Page“ (LP) auf+++++++
G4PID ist maschinenlesbar in LP eingebettet+++++
G5Dokumentation und Unterstützung für Zitation der Daten++++-
G6LP enthält Metadaten für Zitation und Auffindbarkeit+++?+
G7Metadaten sind entsprechend schema.org in JSON-LD eingebettet+++
G8Metadaten sind über HTML-Tags auslesbar++++
G9Download der Metadaten in BibTeX o. ä. möglich+++
G10„Content Negotiation“ (CN) für schema.org/JSON-LD
G11Unterstützung von sogenannten „HTTP Link Headern“ für CN
Legende: Kriterium ist vollständig und optimal erfüllt: ++

Kriterium ist vollständig mit Potential erfüllt: +

Kriterium ist teilweise erfüllt: ?

Kriterium ist nicht erfüllt: –

About the authors

Dr. Wiebke Oeltjen

Universität Hamburg, Regionales Rechenzentrum, Schlüterstr. 70, D-20146 Hamburg

Kathleen Neumann

Verbundzentrale des GBV (VZG), Digitale Bibliothek, Platz der Göttinger Sieben 1, D-37073 Göttingen

Dr. Ulrike Stahl

Julius Kühn-Institut (JKI), Informationszentrum und Bibliothek, Erwin-Baur-Str. 27, D-06484 Quedlinburg

Robert Stephan

Universität Rostock, Universitätsbibliothek, D-18051 Rostock

Literaturverzeichnis

Arbeitsgruppe Forschungsdaten (2018): Forschungsdatenmanagement. Eine Handreichung [Arbeitsgruppe Forschungsdaten der Schwerpunktinitiative „Digitale Information“ der Allianz der deutschen Wissenschaftsorganisationen]. Potsdam: Deutsches GeoForschungsZentrum GFZ. DOI: 10.2312/allianzoa.029.Search in Google Scholar

Allianz der deutschen Wissenschaftsorganisationen (2018): Schwerpunktinitiative „Digitale Information. Forschungsdaten“. Verfügbar unter https://www.allianzinitiative.de/de/handlungsfelder/forschungsdaten.Search in Google Scholar

Boeckhout, Martin; Zielhuis, Gerhard A.; Bredenoord, Annelien L. (2018): The FAIR guiding principles for data stewardship: fair enough? In: European Journal of Human Genetics, 26, 931–36, DOI: https://doi.org/10.1038/s41431-018-0160-0. 10.1038/s41431-018-0160-0Search in Google Scholar

Corpus Musicae Ottomanicae (2018): Projekt CMO. Verfügbar unter https://www.uni-muenster.de/CMO-Edition/cmo/cmo.html.Search in Google Scholar

Cremer, Fabian; Klaffki, Lisa; Steyer, Timo (2018): Der Chimäre auf der Spur: Forschungsdaten in den Geisteswissenschaften. In: o-Bib. Das Offene Bibliotheksjournal, 5 (2), 142–62. DOI: https://doi.org/10.5282/o-bib/2018H2S142-162.Search in Google Scholar

DataCite Metadata Working Group (2017): DataCite Metadata Schema for the Publication and Citation of Research Data, Version 4.1. DataCite e.V. DOI: https://doi.org/10.5438/0014.Search in Google Scholar

DFG (2018): Umgang mit Forschungsdaten. DFG-Leitlinien zum Umgang mit Forschungsdaten. Letzte Aktualisierung am 16.05.2018. Verfügbar unter http://www.dfg.de/foerderung/antrag_gutachter_gremien/antragstellende/nachnutzung_forschungsdaten.Search in Google Scholar

Dunning, Alastair; de Smaele, Madeleine; Böhmer, Jasmin (2017): Are the FAIR Data Principles fair? In: International Journal of Digital Curation, 12 (2), 177–95. DOI: https://doi.org/10.2218/ijdc.v12i2.567.10.2218/ijdc.v12i2.567Search in Google Scholar

Fenner, Martin; Crosas, Mercè; Grethe, Jeffrey; Kennedy, David; Hermjakob, Henning; Rocca-Serra, Philippe et al. (2016): A Data Citation Roadmap for Scholarly Data Repositories. In: bioRxiv 097196. DOI: https://doi.org/10.1101/097196.10.1101/097196Search in Google Scholar

EU (2016): H2020 Programme. Guidelines on FAIR Data Management in Horizon 2020. Verfügbar unter http://ec.europa.eu/research/participants/data/ref/h2020/grants_manual/hi/oa_pilot/h2020-hi-oa-data-mgt_en.pdf.Search in Google Scholar

Kindling, Maxi; Schirmbacher, Peter (2013): „Die digitale Forschungswelt“ als Gegenstand der Forschung. In: Information – Wissenschaft & Praxis, 64 (2-3), 127–36. DOI: https://doi.org/10.1515/iwp-2013-0017.10.1515/iwp-2013-0017Search in Google Scholar

Mons, Barend; Neylon, Cameron; Velterop, Jan; Dumontier, Michel; da Silva Santos, Luiz Olavo Bonino; Wilkinson, Mark (2017): Cloudy, increasingly FAIR; revisiting the FAIR Data guiding principles for the European Open Science Cloud. In: Information Services & Use, 37, 49–56, DOI: https://doi.org/10.3233/ISU-170824.10.3233/ISU-170824Search in Google Scholar

MEI (2018): The Music Encoding Initiative. Verfügbar unter https://github.com/music-encoding.Search in Google Scholar

Nature (2016): Announcement: Where are the data? In: Nature, 537, 138. Verfügbar unter https://www.nature.com/news/announcement-where-are-the-data-1.20541.Search in Google Scholar

Rat der Europäischen Union (2016): Der Übergang zu einem System der offenen Wissenschaft – Schlussfolgerungen des Rates (angenommen am 27.5.2016). Dokumentennummer 9526/16. Verfügbar unter http://data.consilium.europa.eu/doc/document/ST-9526-2016-INIT/de/pdf.Search in Google Scholar

Riley, Jenn (2009): Seeing Standards: A Visualization of the Metadata Universe. Verfügbar unter http://jennriley.com/metadatamap.Search in Google Scholar

Wilkinson, Mark D.; Dumontier, Michel; Aalbersberg, IJsbrand Jan et al. (2016): The FAIR Guiding Principles for scientific data management and stewardship. In: Scientific Data, 3, 160018. DOI: https://doi.org/10.1038/sdata.2016.18.10.1038/sdata.2016.18Search in Google Scholar

Wilkinson, Mark D; Sansone, Susanna-Assunta; Schultes, Erik; Doorn, Peter; Bonino da Silva Santos, Luiz Olavo; Dumontier, Michel (2018): A design framework and exemplar metrics for FAIRness. In: Scientific Data, 5, 180118, DOI: https://doi.org/10.1038/sdata.2018.118.10.1038/sdata.2018.118Search in Google Scholar

Published Online: 2019-04-05
Published in Print: 2019-04-03

© 2019 Walter de Gruyter GmbH, Berlin/Boston

Articles in the same Issue

  1. Titelseiten
  2. Inhaltsfahne
  3. Forschungsdaten
  4. PARTHENOS – Eine digitale Forschungsinfrastruktur für die Geistes- und Kulturwissenschaften
  5. Bedeutung und Potenzial von Geoinformationen und deren Anwendungen im Kontext von Bibliotheken und digitalen Sammlungen
  6. Forschungsdaten und Fachinformationsdienste – eine Bestandsaufnahme
  7. Das Management von Forschungsdaten als Handlungsfeld wissenschaftlicher Bibliotheken: Forschungsunterstützung am Beispiel ZB MED – Informationszentrum Lebenswissenschaften
  8. Forschungsdatenmanagement an der ETH Zürich: Ansätze und Wirkung
  9. Wege zur Optimierung des Forschungsdatenmanagements – Die Forschungsperspektive des PODMAN-Projekts
  10. Metadata Challenges for Long Tail Research Data Infrastructures
  11. Methods to Evaluate Lifecycle Models for Research Data Management
  12. MyCoRe macht Forschungsdaten FAIR
  13. Zwei Ansätze zur Lösung der Replikationskrise in den Wirtschaftswissenschaften
  14. Synergieeffekte durch Kooperation: Hintergründe, Aufgaben und Potentiale des Projekts FoDaKo
  15. Von der Produktion bis zur Langzeitarchivierung qualitativer Forschungsdaten im SFB 1187
  16. Archivierungsstrategien anpassen – Herausforderungen und Lösungen für die Archivierung und Sekundärnutzung von ethnologischen Forschungsdaten
  17. Redaktionssache Forschungsdaten
  18. Wettbewerb Zukunftsgestalter in Bibliotheken 2018 / Preisträger
  19. Framework Information Literacy – Aspekte aus Theorie, Forschung und Praxis
  20. Lernwelten für Bibliotheken – Dimensionen der Zukunftsgestaltung
  21. Zukunftsgestalter in Bibliotheken 2018 / Weitere herausragende Projekte
  22. abiLehre.com: Wissensvermittlung mit Nachhaltigkeit
  23. MusicSpace – Ein neues Konzept für Nutzungsbereiche wissenschaftlicher Musikbibliotheken
  24. Die Bibliographische Datenbank zur Geschichtsschreibung im Osmanischen Europa (15. bis 18. Jh.)
  25. Schwerpunkt: Perspektiven und Erfahrungen – Voraus- und Rückblicke führender Bibliothekare
  26. Bibliotheken weiter denken und besser positionieren – Rückblicke und Ausblicke
  27. Ein offener Wissensmarktplatz mit gesellschaftlicher Relevanz
  28. Ein Jahr an der Universitätsbibliothek Kiel: Alles klar zur Wende! Status quo, Maßnahmen, Perspektiven
  29. Weiterer Beitrag
  30. Open Access aus der Sicht von Verlagen
  31. Neue Entwicklungen
  32. Library life in Australia: It Has Been a Busy Year!
  33. Zur Diskussion
  34. Detecting and Facing Information Demand for New Target Groups such as Start-up Founders – A Case Study at the WHU Library
  35. Bibliographische Übersichten
  36. Zeitungen in Bibliotheken
  37. Rezensionen
  38. Biographien des Buches
  39. Richard David Lankes: Erwarten Sie mehr! Verlangen Sie bessere Bibliotheken für eine komplexer gewordene Welt. Herausgegeben und mit einem Vorwort von Hans-Christoph Hobohm. Aus dem Amerikanischen übersetzt von Erdmute Lapp und Willi Bredemeier. Berlin: Simon Verlag für Bibliothekswesen, 2017. 175 Seiten, 19,50 €, ISBN 978-3-9456-10-32-9
  40. Wolfgang Schmitz: Grundriß der Inkunabelkunde. Das gedruckte Buch im Zeitalter des Medienwechsels. Stuttgart: Hiersemann 2018. X, 420 Seiten. Mit 58 einfarbigen und 16 farbigen Abbildungen. (Bibliothek des Buchwesens, Band 27) € 169,- ISBN 978-3-7772-1800-7
  41. Falk Eisermann, Jürgen Geiß-Wunderlich, Burkhard Kunkel, Christoph Mackert, Hartmut Möller (Texte), Volkmar Herre (Fotos): Stralsunder Bücherschätze. Hrsg. von der Hansestadt Stralsund. Wiesbaden: Harrassowitz, 2017. 144 S., 122 farbige Abb. ISBN 978-3-447-10834-8. € 39,80
Downloaded on 21.9.2025 from https://www.degruyterbrill.com/document/doi/10.1515/bfp-2019-2013/html
Scroll to top button