Advanced search in Research products
Research products
arrow_drop_down
Searching FieldsTerms
Any field
arrow_drop_down
includes
arrow_drop_down
Include:
The following results are related to Digital Humanities and Cultural Heritage. Are you interested to view more results? Visit OpenAIRE - Explore.
4 Research products, page 1 of 1

  • Digital Humanities and Cultural Heritage
  • Research software
  • 2018-2022
  • Software
  • German
  • ZENODO

Date (most recent)
arrow_drop_down
  • Open Access German
    Authors: 
    José, Calvo Tello;
    Publisher: Zenodo

    This is the code and data for following article: * Calvo Tello, José. 2023 (accepted). ‘Where Are Romance Studies Heading? A Bibliographic Data Science Analysis Using Regression’. Edited by Nanette Rißler-Pipika, Jan Rohden, and José Calvo Tello. Apropos [Perspektiven Auf Die Romania].

  • Research software . 2021
    Open Access German
    Authors: 
    Schumacher, Mareike;
    Publisher: Zenodo

    CRF-Classifier für automatische Annotation männlicher, weiblicher und neutraler Genderzuschreibungen in deutschsprachiger Literatur. Der Gender-Classifier kann mit dem Stanford Named Entity Recognizer zusammen genutzt werden. Das Modell wurde mit einem Trainingskorpus folgender Zusammensetzung trainiert: ca. 100.000 Tokens aus 25 Novellen des deutschen Novellenschatzes ca. 40.000 Tokens aus 10 Romanen des 18. Jahrhunderts ca. 40.000 Tokens aus 10 Romanen des 19. Jahrhunderts ca. 40.000 Tokens aus 10 Romanen des 20. Jahrhunderts ca. 40.000 Tokens aus 10 Romanen des 21. Jahrhunderts ca. 20.000 Tokens aus 5 Dramen des 18. Jahrhunderts ca. 20.000 Tokens aus 5 Dramen des 19. Jahrhunderts ca. 20.000 Tokens aus 5 Dramen des 20. Jahrhunderts ca. 7.000 Figurennamen aus 500 Dramen des 17.-20. Jahrhunderts (bereitgestellt von https://dracor.org) Getestet wurde das Modell mit 6 Novellen aus dem deutschen Novellenschatz, 8 Romanen aus den Jahrhunderten 18-21 und 3 Dramen von Caroline von Günderrode (1805), das Modell erreichte in den Tests einen durchschnittlichen overall F1-Score von 78,09%. Die Erkennung von Genderzuschreibungen in Novellen des 19. Jahrhunderts ist mit einem durchschnittlichen overall F1-Score von 85,52% am besten. In Romanen des 18.-21. Jahrhunderts beträgt die durchschnittliche Gesamterkennungsgenauigkeit (F1-Score) 72,83%. In Ausschnitten aus drei Dramen von Caroline von Günderode (publiziert 1805) erreicht der Gender-Classifier einen F1-Score von 75,53% Der Classifier wird laufend weiter entwickelt. Es handelt sich um eine Open-Beta-Version. Geplant ist z.B. die Aufnahme weiterer Gender-Kategorien, die nicht in das Binärschema männlich-weiblich fallen. Der Classifier wurde im Projekt m*w entwickelt. Der Classifier kann wie folgt verwendet werden: Laden Sie sich den Classifier herunter Laden Sie sich das Named-Entity-Recognition-Tool StanfordNER herunter Öffnen Sie den Stanford-Named-Entity-Recognizer wie auf der Webseite der Stanford NLP Group beschrieben Laden Sie über "Classifier" > "Load CRF from file" den Gender-Classifier in das Tool Wählen Sie über "File" > "Open File" ein Dokument, in dem Genderzuschreibungen annotiert werden sollen Klicken Sie auf "Run" Die annotierten Daten können über "File" > "Save tagged file as" gespeichert und weiter verwendet werden.

  • Open Access German
    Authors: 
    Mareike K. Schumacher;
    Publisher: Zenodo

    In diesem Repository finden Sie einen Raum-Classifier, der mit dem StanfordNER kompatibel ist, sowie dazugehörige Trainingsdaten. Die Datei "Raum320000_18-21_ner-model" ist ein Raum-Classifier mit sieben Unterkategorien, die mit dem StanfordNER kompatibel sind. Die Datei "Raum320000_18-21_ner-model_ohneMetaphern" entält den gleichen Classifier mit sechs Raum-Kategorien (Metaphern sind hier weggelassen). Die Kategorien sind: Ort Relation relationeles Verb Raumhinweis Raumbeschreibung Raumthema Raummetapher Die Datei "Raum320000_18-21_ner-model_ohneMetaphern" ist die empfohlene Version zur Anwendung. Beide Classifier können wie folgt verwendet werden: Laden Sie sich die Classifier herunter Laden Sie sich das Named-Entity-Recognition-Tool StanfordNER herunter Öffnen Sie den Stanford-Named-Entity-Recognizer wie auf der Seite der Stanford NLP Group beschrieben Laden Sie über "Classifier" > "Load CRF from file" den Raum-Classifier in das Tool Wählen Sie über "File" > "Open File" ein Dokument, in dem Raumausdrücke annotiert werden sollen Klicken Sie auf "Run" Die annotierten Daten können über "File" > "Save tagged file as" gespeichert und weiter verwendet werden. Die Annotationskategorien des Raum-Classifiers erreichen unterschiedliche Erkennungsquoten. Eine detaillierte Übersicht der Gesamterkennunggenauigkeit (F1-Score) der einzelnen Kategorien finden Sie im Unterordner "Modell Testreihen". Im Unterordner "Testreihen mit 7 Kategorien" sind im Dokument "7 Kategorien NER-Test Übersicht.xlsx" ausführliche Tests des gesamten Traningsprozesses dokumentiert. Getestet wurde mit acht Testtexten aus vier Jahrhunderten. Durchschnittswerte finden sich im Tabellenblatt "einige Durchschnittswerte". Die abschließenden Tests der finalen Classifier finden sich in den Zeilen 20 und 21. Werte für die einzelnen Testtexte aus den Jahrhunderten 18-21 sind in den anderen Tabellenblättern verzeichnet. Die annotierten Testtexte können - so weit das urheberrechtlich möglich ist, aus dem Unterordner "annotierte Testtexte" heruntergeldane werden. Hierin finden Sie sechs annotierte Texte in Tabellenform aus den Jahrhunderten 18-20 (die nicht gemeinfreien Texte aus dem 21. Jahrhundert können hier nicht zugänglich gemacht werden). Außerdem in diesem Repository zu finden sind: die Dokumentation von Tests eines ersten, nicht implementierten Modells (Ordner "Vorabtests - nicht implementierte Varianten") Anzahl der Annotationen im Trainingskorpus (im Ordner "Testreihen mit 7 Kategorien") Imformationen und Daten zum Trainig des Raum-Classifiers finden sich im Ordner "Training CRF-Classifier". Hierin ist eine Auflistung der Texte im Trainingskorpus enthalten. Aus jedem der aufgelisteten Texte wurden 4.000 Tokens direkt vom Anfang entnommen und ins Trainingskorpus integriert. Das Trainingskorpus besteht insgesamt aus 320.000 Tokens aus 80 Romanen aus vier Jahrhunderten (18-21). Annotierte Trainingsdaten im Tabellenformat TSV (kompatibel mit dem StanfordNER-Tool) finden sich im Unterordner "Trainingsdaten". Die Trainingsdaten aus dem 20. und 21. Jahrhundert enthalten urheberrechtlich geschütztes Material und können darum nicht öffentlich zugänglich gemacht werden. Die Trainingsdaten aus dem 18. und 19. Jahrhundert können jahrhundertweise heruntergeladen werden. Sowohl die Variante mit als auch die ohne Metaphern steht zur Nachnutzung zur Verfügung. Das Trainingskorpus umfasst 80.000 Tokens / Jahrhundert. Informationen zu den im Raum-Classifier implementierten Features können in der Properties-Datei "Raum.prop" eingesehen werden.

  • Open Access German
    Authors: 
    Simmler, Severin;
    Publisher: Zenodo

    An important step in the quantitative analysis of narrative texts is the automatic recognition of references to figures, a special case of the generic NLP problem of Named Entity Recognition (NER). Usually NER models are not designed for literary texts resulting in poor recall. This Neural Network Model is the continuation of the work of Jannidis et al. and used in this easy-to-use package for the programming language Python.