Webplattform für die Bearbeitung, Publikation und Langzeitarchivierung der regionalwissenschaftlichen Forschungsdaten (LaZAR)





Übersicht
Regionalwissenschaften als ein komplexes System verschiedener Teildisziplinen zeichnen sich durch die große Menge der von ihr erzeugten heterogenen Forschungsdaten aus. Das größte Problem der heutigen Regionalwissenschaften ist die Inkompatibilität zwischen den traditionellen Formen der Publikation der Feldforschungsdaten als Text oder Album und dem Format der Video- Audio- und 3D-Bilddaten, in der die Feldforschungsdaten seit jüngerer Zeit in immer unüberschaubarer Menge erhoben werden. Weil das konventionelle Druck- bzw. Textformat für die Veröffentlichung vieler dieser Daten nicht brauchbar ist, und weil es noch keine geeignete Publikationsform von solchen Forschungsmaterialien gibt bzw. die vorhandenen Ansätze noch nicht vereinheitlicht wurden, wird der Zugang zu diesen Daten und dementsprechend ihre freie Kursierung in Fachpublikationen erheblich verhindert. Die von vielen Autoren praktizierte Einrichtung von Privatarchiven mit Multimediadaten, die über globalen Webplattformen wie YouTube oder Dropbox freigegeben werden, ist für wissenschaftliche Zwecke nicht geeignet, da sie weder persistent abgesichert noch wiss. dokumentiert werden und sie zudem keine ausreichenden Recherchemöglichkeiten bieten. Bisher entwickelte Werkzeuge und Repositorien wie z.B. The Language Archive - Max Planck Institute for Psycholinguistics sind wegen ihrer fachlichen Beschränkung (hier: Linguistik) für den interdisziplinären Ansatz der Regionalwissenschaften unzureichend. Hauptziel des Vorhabens besteht daher darin, einem weiten Forscherkreis die auf regionalwissenschaftlichen Feldforschungen erhobenen Video-, Audio- und 3D-Bildmaterialien genauso leicht zugänglich und zitierfähig zu machen wie dies bei konventionellen Daten (z.B. Textsammlung, Album) der Fall ist. Die Aufnahme der Forschungsdaten erfolgt über ein webgestütztes Erfassungssystem, das nicht nur die Möglichkeit bietet, die Mediendateien beim Hochladen zu bearbeiten und mit Metadaten zu versehen, sondern auch in der Lage ist, die Inhalte über standardisierte Schnittstellen zur Nachnutzung zur Verfügung zu stellen. Durch eine Verbindung zu einem Dienst zur Langzeitarchivierung können diese Forschungsdaten zudem langfristig gesichert werden.

Einladung und Ankündigung zum Workshop
Forschungsdaten-Repository
für die Regionalwissenschaften

18. und 19. April 2016 in Jena
Haus auf der Mauer
Johannisplatz 26
07743 Jena

Der Workshop setzt sich zum Ziel, Lösungsstrategien für die Bearbeitung, Publikation und Langzeitarchivierung von Forschungsdaten zu diskutieren und weiterzuentwickeln. Diese vom  Projektteam,  bestehend aus Geisteswissenschaftlern, Informatikern und Bibliotheksfachleuten   erarbeitete Strategie bezieht sich auf den disziplinspezifischen Problemkreis  der regionalwissenschaftlichen Forschungsdaten und setzt sich mit den Erschließungsproblemen, der Bereitstellung und der Langzeitarchivierung äußerst heterogener Forschungsdaten auseinander. Als wichtigste Herausforderung gilt die reibungslose Einbettung unkonventioneller multimedialer Zitate und Beweismaterialien in konventionelle wissenschaftliche Publikationen.

Zu den Aufgabenfeldern gehören:

  1. Erarbeitung des Datenmodells für die Erschließung und LZA der regionalwissenschaftlichen Forschungsdaten,
  2. Entwicklung einer Web-Infrastruktur für die Bearbeitung, Publikation und Recherche der [überwiegend Multimedia-]Forschungsdaten,
  3. Erarbeitung von Richtlinien und Empfehlungen für die Gewährleistung der Erhebung, Bearbeitung, Publikation, Archivierung und Distribution der qualitätsgesicherten und rechtkonformen Daten.

Im Laufe des Workshops sollen die Projektteilnehmer im Dialog mit den Projektmitarbeitern entsprechende Konzepte diskutieren (siehe Ablauf des Workshops).

Im Rahmen des Workshops werden außerdem kurze Präsentationen erwartet, die sich folgenden Fragestellungen widmen:

  1. Transkodierungsmethode von Video und Audiodateien,
  2. Zusammenhang zwischen Mastervideo und Derivaten,
  3. Pseudonymisierungs- bzw. Anonymisierungsmethoden der Personendaten,
  4. Authentizitäts- bzw. Qualitätssicherung der Daten insbesondere aber Video- und  Audio-Dateien,
  5. Urheber- bzw. Nutzungsrechte und Aushandeln der Verträge mit den Produzenten und Nutzern.

Bitte melden Sie Ihre Präsentationsvorschläge bis zum 15. März hier an. Eine Benachrichtigung, ob Ihre Beiträge angenommen worden ist, wird Ihnen bis zum 25. März versendet.

Der Workshop findet am 18. und 19. April in Jena statt.

Von den Organisatoren des Workshops wird nachdrücklich darauf hingewiesen, dass die Vortragenden und alle Teilnehmer für den gesamten Workshop angemeldet sein müssen. Die Anmeldung ist hier möglich.

Wir freuen uns auf Ihre Teilnahme!

Institut für Slawistik und Kaukasusstudien der Friedrich-Schiller-Universität Jena
Verbundzentrale des GBV (VZG) Göttingen
TIB Hannover


Workshop-Ablauf

18. April - Disziplinspezifische Probleme

14:00 – 18:00

14:00 – 14:15 Begrüßung und Einführung (Thede Kahl - Universität Jena)

14:15 – 15:15 Fachliche Anforderungen aus Sicht der regionalwissenschaftlichen Feldforschung:

    14:15 – 14:45 Disziplinspezifische Probleme (Universität Jena - Elguja Dadunashvili)
    14:45 – 15:15 Feldforschung – Methoden im Wandel (Thede Kahl)

15:15 – 15:30 Diskussion

Kaffeepause 15:30 – 16:00

16:00 – 16:45 Erfahrungsberichte aus anderen Fachgebieten und Projekten

    16:00 – 16:30 VerbaAlpina - eine raumorientierte, virtuelle Forschungsumgebung (Thomas Krefeld / Stephan Lücke - Ludwig-Maximilian-Universität München)
    16:30 – 16:45 Datenmodelle und Persistenzierungsformate (Volker Gast - Universität Jena)

16:45 – 17:00 Diskussion

nach 18.00 Uhr Konzert. Amalia Căpruci (Bukarest), Panflöte, und Teodora Oprișor (Weimar), Klavier

19:00 – 21:30 Gemeinames Büffet und gemütliches Beisammensein

 

19. April - Rechtliche und technische Probleme

09:00 - 16:00

09:00 – 09:30 Schilderung der rechtlichen Probleme (Elguja Dadunashvili)

09:30 – 10:00 Rechtliche Aspekte der Langzeitarchivierung von Forschungsdaten (Stefan Danz - Universität Jena)

10:00 – 10:15 Diskussion

Kaffeepause 10:15 – 10: 45

10:45 – 11:15 Metadatenmodell, Schnittstellen, Austauschformat (Jakob Voss - VZG Göttingen)

11:15 - 12:45 Technische Umsetzung: Prototyp (Dominika Pienkos - Programmfabrik Berlin)

12:45 – 13:00 Diskussion

Mittagspause 13:00 – 14:30

14:30 – 15:00 Langzeitarchivierung (Thomas Bähr - TIB Hannover)

15:00 – 15:30 Die Erschließung von Forschungsdaten und deren Integration in nationale und internationale Datenressourcen (Frank Dührkohp - VZG Göttingen)

15:35 – 16:00 Abschlussdiskussion

 

Flyer zum Herunterladen


Kurzbeschreibung

Das Problem der allgemeinen Zugänglichkeit von Forschungsdaten in den regionalwissenschaftlichen Disziplinen ist mit folgenden Aufgaben verbunden:
 
(a) Retrodigitalisierung alter Forschungsdaten,
(b) Konzipierung der Ausgabeformen genuin digitaler Forschungsdaten.
 
Bei der Lösung dieser beiden Aufgaben sind sowohl gemeinsame Probleme als auch Interessenkonflikte anzutreffen. Als erstes ist der Unterschied zwischen dynamischen und abgeschlossenen Datenstrukturen zu nennen. Wenn bei der Retrodigitalisierung eines alten Archivbestandes sowohl quantitative als auch strukturelle Gegebenheiten der Datenbank vorher festgelegt worden sind, ist die Aufgabe der Überarbeitung und Langzeitarchivierung (LZA) genuin digitaler Forschungsdaten mit einem dynamischen und reziproken Prozess zu vergleichen. Die Primärdaten, die der Forschung in der verarbeiteten Form wieder zur Verfügung gestellt werden, tragen nicht nur dazu bei, die Wissenschaft mit notwendigen Forschungsmaterialien zu versorgen, sondern dienen auch der Verfeinerung von Feldforschungsmethoden. Eine entscheidende Rolle in diesem wechselseitigen Entwicklungsprozess spielen die Langzeitarchivierung und die Möglichkeit, die Multimediadaten als zitierfähiges Belegmaterial in wissenschaftliche Arbeiten einzubetten. Die Perspektive, während der Feldforschung erhobene Multimediadaten in der Form der strukturierten Datensammlung der Wissenschaft zur Verfügung zu stellen, optimiert die Anwendung der Methode der Mediendokumentierung des Forschungsobjekts, indem es nicht mehr den privaten Interessen eines Forschers bzw. einer Forscherin dient, sondern den Interessen eines möglichst breiten Kreises von Wissenschaftlern.

Das Projekt LaZAR hat zum Ziel, durch die Entwicklung der entsprechenden Infrastruktur für die Bearbeitung und Langzeitarchivierung der regionalwissenschaftlichen Forschungsdaten die Zugänglichkeit dieser Daten einem breitenForscherkreis zu gewährleisten.

Der erste Schritt zur Entwicklung dieser Infrastruktur erfordert die Erarbeitung eines Konzeptes, welches nach den Prinzipien der eHumanities nur aufgrund der engen Kooperation zwischen den Vertretern der Geisteswissenschaften und Informatik sowie mit Fachleuten aus dem Bereich des Bibliothekswesens zu erreichen ist. Das Konzept umfasst folgende Problembereiche:

  • Erhebung regionalwissenschaftlicher Forschungsdaten (allgemeine Empfehlungen für die Planung und Durchführung der Feldforschung und der Bearbeitung der Forschungsdaten),
  • Entwicklung des Verwaltungs- und Accessszenario regionalwissenschaftlicher Forschungsdaten,
  • Entwicklung eines Metadatenmodells für Dokumentierung und Erschließung regionalwissenschaftlicher Forschungsdaten,
  • Entwicklung eines Softwaremoduls für die Bearbeitung regionalwissenschaftlicher Forschungsdaten (Weblaboratorium),
  • Einrichtung eines Repositoriums für die Speicherung und Recherche in den regionalwissenschaftlichen Forschungsdaten,
  • Archivierung der regionalwissenschaftlichen Forschungsdaten in einem vorhandenen Langzeitarchivierungssystem,
  • Entwicklung von Schnittstellen zwischen Repositorium und LZA-System für den Ingest sowie zur Bereitstellung der Inhalte des Repositoriums (Open Archives Initiative – Protocol for Metadata Harvesting (OAI-PMH), Linked Open Data (LOD)),
  • Entwicklung einer Exit-Strategie für das Langzeitarchiv, zur Ausgabe und Weiterverarbeitung der archivierten Daten und Metadaten in anderen Systemen.

Methoden und Ansätze der Erhebung von regionalwissenschaftlichen Forschungsdaten orientieren sich stark an den Interessen der einzelnen Disziplinen oder dem Ziel des jeweiligen Forschungsvorhabens. Die Empfehlungen zur Optimierung der Feldforschung sollen sich deshalb hauptsächlich auf die konzeptuellen Fragen beziehen. Zur Konzipierung der Dokumentierungs- und Erschließungsregel der regionalwissenschaftlichen Forschungsdaten werden verschiedene Modelle der Formalerschließung betrachtet. Als Basismodel wird dabei die von der Deutschen Nationalbibliothek erarbeitete Regel für den Schlagwortkatalog (RSWK) verwendet. Vorgesehen wird folgende Definition der für die Erschließung vorgelegten dokumentarischen Einheiten:

  • „Elektronisches Konvolut“ – Sammelband nach dem Thema oder der Erhebungszeit und/oder dem Ort homogener Materialien,
  • einzelne Datei als unabhängige dokumentarische Einheit.

Der nächste Punkt des Konzeptes richtet sich an die Sacherschließung der zur Langzeitarchivierung vorbereiteten Forschungsdaten. Vorgesehen sind die inhaltliche Indexierung sowohl mit Hilfe des normierten Vokabulars der Gemeinsamen Normdatei (GND) als auch durch freie Stichworteingabe. Deshalb werden bei der Vergabe des normierten Vokabulars entsprechende Hilfsmittel angeboten. Außerdem sollen bei der Erfassung mit einer Verlinkung der Standardzitierliteratur und Referenzwerke begonnen werden.
Als Innovation in der Struktur des geplanten Repositoriums ist das Einordnungsprinzip des Materials nach elektronischen Konvoluten vorgesehen. Nach diesem Prinzip stellt sich ein Bestandteil des Konvoluts nicht unbedingt als einzelne Datei dar, sondern als Einheit von Dateien und damit wiederum als ein untergeordnetes Konvolut. Dieser Struktur zufolge wird das Weblaboratorium für die Bearbeitung der zur Langzeitarchivierung angelegten Multimediadaten wie folgt eingerichtet:
 
Das Weblaboratorium stellt sich als eine entwicklungsfähige (flexible) Eingabemaske mit verschiedenen Feldern dar. Die Felder stimmen mit den allgemein etablierten Formal- und Sacherschließungselementen überein. Die angelegten Daten werden unter einem Titel angeordnet, der seinerseits unter einem Übertitel geordnet werden kann. Als Vorlage bzw. Konvolut, die/ der entsprechend annotiert werden muss, ist die unter dem obersten Titel eingeordnete Einheit. Die annotierte Liste der unter ihm eingeordneten Untertitel und Dateien bestehen aus dem Inhaltsverzeichnis des Konvoluts.

Der Access in das Repositorium zum Zweck der Recherche ist für alle User frei. Bezüglich der Publikation der Daten wird auf folgende Regeln zu achten sein:
 

  • Wissenschaftler müssen sich einmalig als Beitragende registrieren;
  • Die Freischaltung des eingestellten Dokuments kann vom Betreiber abgelehnt werden;
  • Nach der Freischaltung kann die Publikation nicht mehr bearbeitet werden. Ergeben sich dann Änderungen, muss gegebenenfalls eine neue Version der Publikation hochgeladen werden.

 
Um die Inhalte des Repositoriums dauerhaft für Forschung- und Wissenschaft bereitstellen zu können, ist geplant, Abbildungen von Schemata für die Forschungsdaten/ Metadaten auf Basis von datacite-Schema, Dublin Core, und ggf. vorhandener Ontologien und Erschließungssysteme zu entwickeln, um eine einheitliche und genaue Beschreibung zu ermöglichen. Anhand dieser Datenschemata werden dann entsprechende standardisierte Ex- und Importschnittstellen bereitgestellt, um über mehrere geeignete Formen und Formaten (OAI-PMH, Linked Open Data) eine möglichst umfangreiche Findbarkeit und Nachnutzbarkeit zu gewährleisten.
 
Die Vereinheitlichung der archivierten Daten und Standardisierung der sie beschreibenden Metadaten, die als wichtigste Voraussetzung für ihre einwandfreie Zugänglichkeit gilt, ist dadurch abzusichern, dass die Rohdaten vor der Veröffentlichung im Weblaboratorium entsprechend konvertiert und erschlossen werden müssen.
Die Forschungsdaten aus Bereichen der Regionalwissenschaften wie der Ethnolinguistik, Dialektologie oder Ethnologie sind nicht zuletzt aufgrund ihres Alters zu schätzen. Dieser Faktor stellt den Betreiber eines Repositoriums vor die Herausforderung, sich um die robuste Entwicklung der Infrastruktur der Langzeitarchivierung zu kümmern. Das Konzept beachtet dabei folgende Kriterien:
 

  • Implementierung des Datenmodells unter Berücksichtigung nationaler und internationaler Standards,
  • Berücksichtigung des kompletten Lebenszyklus der Materialien auf Basis des OAIS-Modells,
  • Archivierung im Rahmen eines abgestimmten Prozesses und Sicherstellung einer hohen Qualität und Transparenz durch definierte und dokumentierte Workflows,
  • Effizienter und nutzerfreundlicher Ingest und Access,
  • Mitarbeit in nationalen und internationalen Netzwerken als Voraussetzung für eine kontinuierliche Weiterentwicklung der Langzeitarchivierung sowie einem aktiven Technology-Watch.

 
Die derzeit eingesetzten LZA-Systeme haben den Ingest der Daten, die damit verbundenen Verarbeitungsprozesse und die anschließende Archivierung im Fokus. Der Fall, dass eine Institution ihre Daten aus einem Langzeitarchiv herausholt, um sie in einem anderen System oder zu einem anderen Zwecke weiter zu nutzen, wird derzeit nur theoretisch diskutiert. Es gibt noch keine praktischen Erfahrungen oder konkrete Umsetzungen zur Ausgabe der Daten an den Dateninhaber. Es ist davon auszugehen, dass dieses Szenario aus unterschiedlichen Gründen für eine Vielzahl von Institutionen zur Anwendung kommen wird. Gründe hierfür können in der Problematik der dauerhaften Finanzierung der LZA, in der Veränderung organisatorischer Rahmenbedingungen oder aber in einer veränderten rechtlichen Situation liegen. Ziel in diesem Projekt ist es deshalb, ein Verfahren zur Ausgabe der Daten inklusive aller relevanten Metadaten zu entwickeln, dass dem Dateninhaber eine möglichst hohe Flexibilität bei der individuellen Weiterverarbeitung seiner Daten ermöglicht. Dabei muss insbesondere berücksichtigt werden, dass die die aufgelieferten Metadaten eine Nutzung außerhalb des unmittelbaren Entstehungskontextes erlaubt.
 
Das Konzept wird im Laufe des zweitägigen Workshops mit Teilnahme der Vertreter der Regionalwissenschaften und Informatik, Experten des Bibliothekswesens sowie Rechtsexperten mit Erfahrung im Bereich Urheberrecht und Datenschutz diskutiert werden. Die Ergebnisse der Diskussionen des Workshops  werden in die Weitentwicklung des Projektkonzeptes einfließen.

Förderung


Deutsche Forschungsgemeinschaft (DFG)
Wissenschaftliche Literaturversorgungs- und Informationssysteme (LIS)
Förderprogramm: Informationsinfrastrukturen für Forschungsdaten

Antragsteller und Beteiligte Institutionen


Erstantragsteller: Univ.-Prof. Dr. Thede Kahl
E-Mail: thede.kahl@uni-jena.de
Telefon: +49 (3641) 944725
Fax: +49 (3641) 944702
Institut für Slawistik und Kaukasusstudien,
Friedrich-Schiller-Universität Jena
Ernst-Abbe-Platz 8
07743 Jena

Mitantragsteller: Dipl. Kfm. Reiner Diedrichs
E-Mail: diedrichs@gbv.de
Telefon: +49 (551) 395207
Fax: +49 (551) 3913980
Verbundzentrale des GBV
Platz der Göttinger Sieben 1
37073 Göttingen
Tel.: +49 (551) 395207

Mitantragsteller: Uwe Rosemann
E-Mail: uwe.rosemann@tib.eu
Telefon: +49 (511) 7622531
Fax: +49 (511) 7622686
Technische Informationsbibliothek (TIB) Hannover
Welfengarten 1 B
30167 Hannover