Actions
  • shareshare
  • link
  • cite
  • add
add
auto_awesome_motion View all 2 versions
Research data . Dataset . 2020

Stoppwörter der Deutschen Rechtssprache (SW-DE-RS)

Fobbe, Sean;
Open Access
German
Published: 23 Sep 2020
Publisher: Zenodo
Abstract
Überblick Die Stoppwörter der Deutschen Rechtssprache (SW-DE-RS) sind eine wissenschaftliche Sammlung von in der Rechtssprache der Bundesrepublik Deutschland gebräuchlichen Stoppwörtern. Frei nach Hans Peter Luhn verstehe ich Stoppwörter als hochfrequente Wörter, die in der Regel keinen Rückschluss auf den Inhalt eines Dokumentes zulassen und in der Regel nur grammatikalische oder syntaktische Bedeutung haben. Die bestimmten Artikel »der«, »die« und »das« sind klassische Stoppwörter der Allgemeinsprache. In der quantitativen Analyse von Texten (»Natural Language Processing«) werden diese in nicht wenigen Anwendungsfällen entfernt um Analysen zu beschleunigen und die Qualität der Ergebnisse zu verbessern. Viele Softwarelösungen enthalten integrierte Listen von in der Allgemeinsprache üblichen Stoppwörtern. Die juristische Fachsprache weist jedoch viele semantische Besonderheiten und einen ganz eigenen und altertümlichen Sprachstil auf, welcher eine spezialisierte Liste von Stoppwörtern erforderlich macht. Dieser Datensatz ist als Ergänzung zu allgemeinsprachlichen Listen gedacht und sollte mit diesen kombiniert werden. Bitte beachten Sie das beiliegende Codebook! Es enthält wichtige Informationen zur korrekten Nutzung des Datensatzes. Aktualisierung Die Stoppwörter der Deutschen Rechtssprache (SW-DE-RS) werden ständig weiterentwickelt. Updates werden in unregelmäßigen Abständen auf Zenodo bereitgestellt. Benachrichtigungen über neue und aktualisierte Datensätze veröffentliche ich immer zeitnah auf Twitter unter @FobbeSean. Entwicklung Die SW-DE-RS wurden auf Basis der häufigsten Wörter (N=500) in Entscheidungen des Bundesverfassungsgerichts, des Bundesgerichtshofs und des Bundesverwaltungsgerichts der Bundesrepublik Deutschland (Jahre 1998 bis 2020) entwickelt. Jedes Wort wurde auf seine Rolle in der juristischen Fachsprache geprüft. Der Umfang der SW-DE-RS ist konservativ gehalten um nicht zuviele Wörter zu entfernen. Die Liste ist nach Variablen in Sub-Listen geteilt um sie leichter für eigene Forschungsprojekte individualisieren zu können. Sie ist in einer CSV-Datei gespeichert und enthält eine Header-Zeile mit den Variablen-Namen. Tip zur Nutzung Neben der Nutzung lokaler Dateien bieten einige Programmiersprachen auch die Möglichkeit CSV-Dateien aus Online-Quellen direkt einzulesen, ohne sie erst lokal abspeichern zu müssen. Die Links zu Dateien auf Zenodo eignen sich dafür besonders, weil sie langzeit-stabil und mit der Versions-DOI verknüpft sind. Das ist insbesondere dann hilfreich, wenn Sie ihre Skripte mit anderen Personen teilen wollen ohne Daten beizulegen oder wenn Sie die Replikationsfähigkeit ihres Codes in veröffentlichten Analysen erhöhen wollen. Ein Beispiel für die Nutzung mit R: stoppwoerterJura <- read.csv("https://zenodo.org/record/3995594/files/SW-DE-RS_v1-0-0_Datensatz.csv?download=1") Kein Urheberrecht: Public Domain An den Entscheidungstexten und amtlichen Leitsätzen besteht gem. § 5 Abs. 1 UrhG kein Urheberrecht, da sie amtliche Werke sind. § 5 UrhG ist auf amtliche Datenbanken analog anzuwenden (BGH, Beschluss vom 28.09.2006 - I ZR 261/03, "Sächsischer Ausschreibungsdienst"). Alle eigenen Beiträge (z.B. durch Zusammenstellung und Anpassung der Metadaten) und damit den gesamten Datensatz stelle ich gemäß einer CC0 1.0 Universal Public Domain License vollständig urheberrechtsfrei. Weitere Open Access Veröffentlichungen (Fobbe) Website — www.seanfobbe.de Open Data — zenodo.org/communities/sean-fobbe-data/ Source Code — zenodo.org/communities/sean-fobbe-code/ Volltexte regulärer Publikationen — zenodo.org/communities/sean-fobbe-publications/ Kontakt Fehler gefunden? Anregungen? Melden Sie diese entweder im Issue Tracker auf GitHub oder schreiben Sie mir eine E-Mail an fobbe-data@posteo.de
Subjects

Stoppwort, Stoppwörter, stop word, stop words, Deutschland, Germany, Text Pre-Processing, Natural Language Processing, Rechtssprache, Text Mining

Related to Research communities
Digital Humanities and Cultural Heritage
moresidebar