Historisches Korpus zum Schlagwort "Utraquismus"

Über die Datensammlung und Dokumentation

Inhalte der Datensammlung

Das Korpus enthält Textausschnitte rund um das Schlagwort "utraquistisch"/"Utraquismus"/"Utraquist" (Abfrage: "utra??is*" aus historischen Zeitungen und Zeitschriften, die im ANNO (AustriaN Newspapers Online) der Österreichischen Nationalbibliothek verfügbar und durchsuchbar sind. Die dort verfügbaren OCR-Scans wurden manuell überprüft und korrigiert sowie in Bezug auf Orthographie und Morphologie normalisiert, um bestmögliche automatische Verarbeitung mit auf die Gegenwartssprache des Deutschen ausgelegten Taggern und Lemmatizern zu ermöglichen.

Es wurden keine kompletten Zeitungsausgaben oder Zeitungsartikel sondern nur Textausschnitte bearbeitet, die wie folgt definiert wurden:

ein maximaler Textausschnitt = der Satz mit dem Schlagwort plus bis zu fünf Sätze vor und/oder nach diesem innerhalb eines Absatzes

Ein Textausschnitt (kurz: "text") enthält demnach maximal 11 Sätze innerhalb eines Absatzes.

Jeder Textausschnitt (XML-Element text) ist in Bezug auf die folgenden Metadaten (als Attribute) annotiert:

Zeitung/Zeitschrift (source)

eventuell: Beilage der Zeitung/Zeitschrift (source2)

Veröffentlichungsort (place)

Veröffentlichungsdatum (date)

Periode (für einfachere Durchsuchbarkeit, als Zuordnung zu einem Jahrzehnt, period)

Genrezuordnung (aktuell noch provisorisch, genre)

Thema des Artikels (aktuell noch provisorisch, topic)

Bezugsraum des Artikels (space)

Jede orthographische/morphologische Normalisierung (XML-Element edit) ist durch folgende Attribute näher spezifiziert:

originale Variante (original)

Klassifikation des Abweichungstyps (aktuell noch provisorisch, type)

Arbeit mit der Datensammlung

Das Korpus wird einerseits als .xml-Dokument zur Verfügung gestellt. Andererseits ist es auf SketchEngine verfügbar und kann dort auf Anfrage freigeschalten werden.

ACHTUNG: Der Lemmatizer erkennt die verschiedenen Formen der Schlagwörter nicht als jeweils ein Lemma! Um alle Formen (aller Schlagwörter zu finden) muss mit der CQL-Abfrage [lemma="utraquis.*"]|[lemma="Utraquis.*"] gearbeitet werden.

Entstehung

Die Datensammlung ist das Ergebnis einer Hausaufgabe in einem von Agnes Kim am Institut für Germanistik der Universität Wien im Sommersemester 2021 angebotenen Proseminar zur "Historischen Soziolinguistik". Ziel der Aufgabe war, zwischen acht und zehn Texte aus einem vorgegebenen Paket rund um Suchergebnisse für die Abfrage "utra??is*" aus dem ANNO, also aus historischen Zeitschriften aus dem Bestand der Österreichischen Nationalbibliothek in ein XML-Dokument zu übertragen und so zu normalisieren, dass die Texte auch mit den auf die Gegenwartssprache trainierten, auf SketchEngine zur Verfügung stehenden Taggern für das Deutsche bearbeitet werden können. Die Daten wurden von den Studierenden eingegeben und von Agnes Kim überprüft und angeglichen.

Verfügbarkeit

Da es sich aktuell um eine erste Version dieser Datensammlung handelt, ist sie noch ausschließlich als Download aus der dioecloud verfügbar. Außerdem ist das Korpus auf SketchEngine verfügbar und kann auf Anfrage (per Mail an agnes.kim@univie.ac.at) freigeschalten werden!

Version/Dateiname

Veröffentlichungs-datum

ungefähre Größe

Link

v 0.1 / Korpus_Utraquis_v0.1.CSV

12.05.2021

156 Textausschnitte

31.176 Tokens

https://dioecloud.trans.univie.ac.at/index.php/s/36iS7xZ4f8dD6fK

v 0.2 / Korpus_Utraquis_v0.2.CSV

06.06.2021

156 Textausschnitte

31.176 Tokens

https://dioecloud.trans.univie.ac.at/index.php/s/P7p2jMcoFMgWFbx 

Änderungsnotizen können den Seiten zum Korpusaufbau entnommen werden.

Nach weiteren Überprüfungen und eventuellen Ergänzungen ist geplant, das Korpus in einer ersten stabilen Version zu archivieren und auf SketchEngine öffentlich zur Verfügung zu stellen.

Zitation

Zitation der Datensammlung

Kim, Agnes (JAHRESZAHL DES VERÖFFENTLICHUNGSDATUMS DER VERSION): Historisches Korpus zum Schlagwort "Utraquismus". Datensammlung. VERSIONSNUMMER ANGEBEN In: Dies. (Hg.): Datensammlungen aus der bzw. für die Forschung und Lehre. Online verfügbar unter: LINK ZUR VERSION.

Zitation der Dokumentation

Kim, Agnes (2021): Historisches Korpus zum Schlagwort "Utraquismus". Dokumentation. In: Dies. (Hg.): Datensammlungen aus der bzw. für die Forschung und Lehre. Online verfügbar unter: https://wiki.dioe.at/books/historisches-korpus-zum-schlagwort-%22utraquismus%22.

Fragen? Fehler gefunden?

Sie haben einen Fehler gefunden, haben Ergänzungen oder Nachfragen? Bitte wenden Sie sich per Mail an mich: agnes.kim@univie.ac.at Umfang und Aufbau des Korpus


Konkretere Informationen zur Korpusaufbau und Korpusgröße in Bezug auf die Originalquellen

In der folgenden Tabelle werden die bearbeiteten Textausschnitte in Relation zu einem Schlagwortkorpus, das das gesamte 19. und das frühe 20. Jahrhundert (bis 1918) grob abdeckt und nachvollziehbar macht, gesetzt. Insgesamt können (am 17. 05. 2021) mit der Suchabfrage "utra??ist*" im ANNO bis inklusive 1918 6.338 Treffer (= Ausgaben von Zeitungen und Zeitschriften, in denen die Suchabfrage mindestens ein Mal vorkommt) gefunden werden, von denen 6.179 auf Zeitungen und 159 auf Zeitschriften entfallen. Letztere wurden bei den Überlegungen zu einem möglichen Gesamtkorpus außer Acht gelassen.

Periode 1800–1829

Publikationsort

Link zu ANNO

Treffer

davon im Korpus

Brno

Link

15

13 (2 Duplikate)

Wien

Link

11

11

L'viv

Link

1

0 (weil Duplikat)

Periode 1850–1859

Publikationsort

Link zu ANNO

Treffer

davon im Korpus

Wien

Link

29

8

Olomouc

Link

3

3

Salzburg

Link

3

3

Brno

Link

1

1

Opava

Link

1

1

Litoměřice

Link

1

0

Periode 1867–1868 (stellvertretend für die 1860er)

Jahr

Publikationsort

Link zu ANNO

Treffer

davon im Korpus

1867

Wien

Link

13

11

1867

Plzeň

Link

4

0

1867

Graz

Link

1

0

1867

Klagenfurt

Link

1

0

1867

Znojmo

Link

1

0

1867

Olomouc

Link

4

0

1867

Praha

Link

2

0

1868

Wien

Link

22

8

1868

Znojmo

Link

7

0

1868

Praha

Link

6

0

1868

Graz

Link

1

0

1868

Plzeň

Link

1

0

Jahr 1890

Publikationsort

Zeitung

Link zu ANNO

Treffer

davon im Korpus

Wien

Neue Freie Presse

Link

11

8

Wien

Die Presse

Link

8

8

Wien

Das Vaterland

Link

12

10

Wien

Wiener Montags-Journal

Link

1

0

Wien

Wiener Zeitung

Link

6

6

Wien

Deutsches Volksblatt

Link

4

4

Praha

alle

Link

13

0

Maribor

alle

Link

9

6

Salzburg

alle

Link

4

4

Litoměřice

alle

Link

8

0

Linz

alle

Link

7

0

Znojmo

alle

Link

3

0

Jahr 1910

Publikationsort

Zeitung

Link zu ANNO

Treffer

davon im Korpus

Wien

Neue Freie Presse

Link

13

10

Wien

Wiener Zeitung

Link

13

10

Wien

Neues Wiener Tagblatt

Link

6

6

Wien

Zollämter- und Finanzwachzeitung

Link

4

4

Wien

Deutsches Volksblatt

Link

5

5

Wien

Arbeiterzeitung

Link

3

3

Praha

alle

Link

30

0

Maribor

alle

Link

15

6

Klagenfurt

alle

Link

10

9

Graz

alle

Link

24

10

Czernowitz

alle

Link

13

0

Mitarbeit?

Sie haben Interesse, einzelne Ausgaben zu einem der Datenpakete zu ergänzen? Gerne sende ich Ihnen eine genaue Liste der noch fehlenden Ausgaben zu! Melden Sie sich bei: agnes.kim@univie.ac.at

v 0.1

Veröffentlichung

Datum: 12.05.2021Link: https://dioecloud.trans.univie.ac.at/index.php/s/36iS7xZ4f8dD6fK

Größe des Korpus

Textausschnitte: 156Tokens: 31,176Wörter: 26,806

Überblick über den Korpusaufbau

Die Grafiken beziehen sich auf die Gesamtzahl der Token. Sie wurden mit SketchEngine erstellt.

Zeitliche Dimension: Korpusgröße nach Jahrzehnten

Jahrzehnt

Tokenzahl

1800

382

1820

1.115

1850

2.343

1860

3.419

1890

10.024

1900

2.650

1910

11.241

Räumliche Dimension: Korpusgröße nach Publikationsorten

Achtung: In v 0.1 bestehen noch Probleme in Bezug auf die Zuweisung bzw. Vereinheitlichung der Publikationsorte, die in der Tabelle durch Kursivsatz hervorgehoben werden!

Publikationsort

Tokenzahl

Wien

19.819

Klagenfurt

3.070

Maribor u. Marburg

2.348 + 954 = 3.202

Graz

2.053

Brno

1.497

Salzburg

971

nicht zugewiesen

299

Prag

163

v 0.2

Veröffentlichung

Datum: 06.06.2021Link: https://dioecloud.trans.univie.ac.at/index.php/s/P7p2jMcoFMgWFbx

Änderungsnotizen

Vereinheitlichung der Periodenzuordnung (period)

Vereinheitlichung der Publikationsorte (place)

Vereinheitlichung der Annotation der orthographischen und morphologischen Normalisierungen (edit type)

Größe des Korpus

Textausschnitte: 156Tokens: 31,176Wörter: 26,806

Überblick über den Korpusaufbau

Die Grafiken beziehen sich auf die Gesamtzahl der Token. Sie wurden mit SketchEngine erstellt.

Zeitliche Dimension: Korpusgröße nach Jahrzehnten

Jahrzehnt

Tokenzahl

1800

382

1820

1.115

1850

2.343

1860

3.419

1890

10.024

1910

13.888

Räumliche Dimension: Korpusgröße nach Publikationsorten

Achtung: In v 0.1 bestehen noch Probleme in Bezug auf die Zuweisung bzw. Vereinheitlichung der Publikationsorte, die in der Tabelle durch Kursivsatz hervorgehoben werden!

Publikationsort

Tokenzahl

Wien

20.119

Maribor

3.302

Klagenfurt

3.070

Graz

2.053

Brno

1.497

Salzburg

971

Prag

163

Metadaten


Orthographische und morphologische Normalisierung


Abweichungstypen und Abweichungen

Abkürzung

Erklärung

Beispiele

A

<a>-Schreibung

Kommisär

ABK

Abkürzung

Abg.

AE

<Ä>-Schreibung

Aenderung

DAT

Dativ-e

EI

<ei>-Schreibung

ey

ERR

Abweichungen, die als Fehler (morphologisch oder orthographisch) eingestuft werden

Agitarion

IE

<i> statt <ie> in {ieren}/{ierung}

finanziren

K

<k>-Schreibung

Collission

KOMP

Schreibung von Komposita

LEX

lexikalische Abweichungen

M

<m>-Schreibung

gesammt

MOR

morphologische Abweichungen

OE

<Ö>-Schreibung

Oesterreich

ORTHKON

andere Abweichungen in der Schreibung von Konsonanten

ORTHVOK

andere Abweichungen in der Schreibung von Vokalen

T

<th>-Schreibung

Muth

TSCH

<tsch>-Schreibung

czechisch

UE

<UE>-Schreibung

Uebung

VOKL

Vokallänge

Abendmahl, Schooß

W

<w>-Schreibung

slovenisch

Z

<z>-Schreibung

Civilisation