Bitte aktivieren Sie JavaScript, um alle Funktionen dieser Internetseite benutzen zu können.

Annohub RDF Edition

Hintergrund

Annohub (abgeleitet von annotation hub) steht für ein Verfahren zum automatisierten Erkennen und Sammeln von Informationen über die linguistische Annotation von Sprachressourcen. Erfasst werden frei verfügbare Ressourcen aus dem Bereich der Computerlinguistik wie Korpora, Lexika oder Ontologien. Die Datensammlung enthält aktuell Metadaten von über 1.000 verschiedenen Ressourcen.

Die Metadaten werden automatisch generiert und anschließend von Fachexpert*innen kontrolliert. Die erzeugten Metadaten umfassen Informationen über

alle ermittelten Annotationen (Tags) aus den Bereichen Syntax und Morphologie;
die identifizierten Annotationsmodelle;
die Ojektsprache (vorhanden als Tag oder ermittelt durch das Sprachanalyse-Tool);
alle formalisierten Konzepte aus den Ontologies of Linguistic Annotations (OLiA), die den ermittelten Annotationen entsprechen.

Annohub ist ein Service des Fachinformationsdiensts (FID) Linguistik, ein Kooperationsprojekt der Universitätsbibliothek Johann Christian Senckenberg und der Arbeitsgruppe Angewandte Computerlinguistik (ACoLi) der Goethe-Universität Frankfurt. Das FID-Projekt wird von der Deutschen Forschungsgemeinschaft (DFG) unterstützt.

Software & Repository

Die Annohub-Software wird verwendet, um Ressourcen, die im RDF-, CoNLL- oder XML-Format vorliegen, herunterzuladen, zu parsen und zu analysieren. Die Software wurde unter einer offenen Lizenz veröffentlicht: https://github.com/ubffm/Annohub.

Als Teil des Verfahrens werden zudem verschiedene Tools für die Konvertierung von XML-Dokumenten nach CoNLL- und RDF-Format eingesetzt. Die Tool-Pakete sind unter https://github.com/acoli-repo/xml2conll und https://github.com/acoli-repo/conll-rdf verfügbar.

Die Ergebnisse der Analyse werden – zusammen mit den aggregierten Kernmetadaten (Titel, Autor etc.) – in einem eigens dafür eingerichteten Metadaten-Repositorium (Annohub-Repository) gespeichert. Die Annohub-Ressourcen wurden in das Lin|gu|is|tik-Portal (www.linguistik.de) integriert und sind über die LOD-Suche recherchierbar. Zusätzlich wird im Portal eine tabelarische Übersicht zur Verfügung gestellt.

Nähere Informationen zum Verfahren finden Sie in

Abromeit et al. (2020). Annohub – Annotation Metadata for Linked Data Applications. In Proceedings of the 7th Workshop on Linked Data in Linguistics (LDL-2020), Marseille, France, May 2020, pages 36-44

Zugang

Die RDF-Edition der Annohub-Daten ist unter einer CC-BY-Lizenz veröffentlicht. Die unten angegebenen Links führen zur aktuellen Version der Datensammlung. Alle vorherigen Versionen sind im Archiv dokumentiert (https://annohub.linguistik.de/archive/).

Annohub Dataset

Persistent URI: http://annohub.linguistik.de/annohub-dataset
Download: http://annohub.linguistik.de/annohub-dataset.zip
Archive: https://annohub.linguistik.de/archive

Mittels Content Negotiation werden je nach Spezifikation im HTTP-Header verschiedene Dateiformate zur Verfügung gestellt. Unterstützt werden die folgenden MIME-Types: text/turtle, application/n-triples, application/rdf+xml. Darüber hinaus sind auch statische Daten-Dumps verfügbar.

Kontakt

E-Mail: info@linguistik.de