Information

Allgemeine Informationen

Das Schweizerdeutsche Mundartkorpus (CHMK) dokumentiert die alemannischen Dialekte der Schweiz des 19., 20. und 21. Jahrhunderts und dient als Belegkorpus für die Weiterführung des Wörterbuchs Schweizerisches Idiotikon.

Die Arbeiten am Mundartkorpus wurden im Januar 2019 aufgenommen. Seither wurden mehrere hundert Werke der Mundartliteratur digitalisiert und Mundarttexte aus dem Internet heruntergeladen. Im Rahmen der Digitalisierung wurde eine OCR-Erkennung angewandt. Es kann daher vorkommen, dass Texte OCR-Fehler enthalten. Wir sind bemüht, unsere Systeme laufend zu optimieren und Fehlerquellen zu minimieren.

Das Korpus umfasst bereits über 30 Mio. Textwörter aus über 2900 verschiedenen Quellen (Stand Juli 2023; genauere Korpuszahlen entnehmen Sie bitte dem Abschnitt «Korpusaufbau»).

Textauswahl

Um das Korpus so umfangreich wie möglich zu gestalten, schliessen wir Texte nur dann aus, wenn sie unserer formalen Kriterienliste nicht standhalten:

Der Text muss in einer identifizierbaren schweizerdeutschen Mundart verfasst sein.
Der Text beinhaltet rezente Mundart (von 1800 oder jünger).

XML-CHMK

Das Mundartkorpus ist im XML-Format für die Forschung zugänglich. Bei Interesse kontaktieren Sie uns bitte via chmk [ät] idiotikon.ch.

Ein Subkorpus mit urheberrechtlich freien Werken kann hier als Zip-Datei heruntergeladen werden: XML-CHMK_v2.1_free_subcorpus.zip

Geplante Erweiterungen

Das Schweizerdeutsche Mundartkorpus wird laufend um weitere Texte ergänzt. Unter Korpussuche kann es bereits jetzt im Volltext durchsucht werden. Geplant sind des weiteren korpuslinguistische Annotationen auf Wort-Ebene:

Normalisierung
Lemmatisierung
Wortartenannotation (Part-of-Speech-Tagging)

Publikationen

Manuela Weibel, Muriel Peter: "Compiling a Large Swiss German Dialect Corpus" in Proceedings of the 5th Swiss Text Analytics Conference (SwissText) & 16th Conference on Natural Language Processing (KONVENS), Zurich, Switzerland, June 23–25, 2020. (PDF)

Hilfe zur Suche

Mithilfe von Filtern können Sie die Texte nach Dialekt, Autor*in, Übersetzer*in, Erstauflagejahr, Publikationsjahr, Werkkategorie oder Gattung filtern. Die Dialektangaben zu einem Werk beziehen sich jeweils auf den Dialekt der Autorin oder des Autors, beziehungsweise bei übersetzten Werken auf den Dialekt der Übersetzerin oder des Übersetzers.

Gewisse Funktionen (Exportfunktion, Anzeige von mehr als 100 Treffern) können Sie nur nutzen, wenn Sie sich mit Benutzernamen anmelden. Ein Verzeichnis sämtlicher abgekürzter Dialektregionen finden Sie hier.

Über das Suchfeld können Sie nach der gewünschten Zeichenabfolge suchen. Die Suchsyntax baut auf der Abfragesprache von DDC auf, wobei die meisten, jedoch nicht ganz alle Möglichkeiten unterstützt werden.

Einige Beispiele für mögliche Korpusabfragen:

Chorb	Findet die Wortform 'Chorb'.
Hahn im Chorb	Findet Treffer mit 'Hahn', 'im' oder 'Chorb'.
"Hahn im Chorb"	Findet die exakte Wortfolge 'Hahn im Chorb'.
Chorb*	Findet 'Chorb', 'Chorbball', 'Chorbware' etc.
*chorb	Findet 'Chirschichorb', 'Wydlichorb', 'Papierchorb' etc.
Chorb && !Hahn	Findet Sätze mit 'Chorb', aber ohne 'Hahn'.
Chorb\|\|Hahn	Findet Sätze mit 'Chorb' oder mit 'Hahn'.

Mit regulären Ausdrücken können komplexere Suchabfragen formuliert werden. Die Ausdrücke müssen mit Schrägstrichen umgeben werden. Einige Beispiele für Korpusabfragen mit regulären Ausdrücken:

/hun[dg]/	Findet Treffer, die 'hund' oder 'hung' enthalten.
/^Hun[dg]$/	Findet Treffer, die mit 'Hund' oder 'Hung' beginnen und enden.
/^[a-zA-Z]{2,5}hun[dg]$/	Findet Treffer, die auf 'hund' oder 'hung' enden und davor 2–5 (Klein- oder Gross-)Buchstaben haben.
/^mach.$/	Findet Treffer, die aus 'mach' plus genau einem beliebigen weiteren Zeichen bestehen.
/^mach.$/	Findet Treffer, die aus 'mach' plus einem beliebigen weiteren Zeichen bestehen.
/Glugg?si/	Findet «Glugsi» und «Gluggsi».

Achtung: Gross-/Kleinschreibung wird bei der Suche unterschieden. Um sie zu ignorieren können ebenfalls reguläre Ausdrücken verwendet werden:

/[Cc]horb/

Findet Treffer, die 'Chorb' oder 'chorb' enthalten

Funktionen

Bestimmte Inhalte und Funktionen sind nur eingeloggten Nutzerinnen und Nutzern zugänglich.

	alle	eingeloggt
Volltextsuche	x	x
Filtersuche	x	x
Filtern via Karte	x	x
Suchbeispiele	x	x
Suche im gesamten Korpus		x
Trefferübersicht mit Keyword‑in‑Context	x	x
Keyword-Detailansicht	x	x
Erweiterter Kontext *		x
Seitenangabe *		x
Originalvorschau *		x
Permalink *		x
Sortierfunktion	x	x
Treffer-Export		x

mit * markierte Funktionen nur in Kombination mit «Mehr als 1 Treffer/Dokument»

Korpusaufbau

Übersicht

4’628 Werke, darunter 1’924 Artikel aus insgesamt 171 Sammlungen.
1’816 Autor*innen, 189 Übersetzer*innen.
Ca. 44’519’100 Textwörter (Tokens).

Häufigkeitsverteilung der Werke

Nach Kategorie

Belletristik	3826
journalistischer Text	472
Gebrauchstext	16
Sachtext	14
Keine der oben genannten	301

Nach Gattung

Prosa	2341
Lyrik (Versform)	1608
Drama (Theater)	486
Lyrik/Prosa	172
Drama/Lyrik	12
Drama/Prosa	9

Nach Vierteljahrhundert
(gemessen am Erstauflagedatum – sofern bekannt)

1800–1824	41
1825–1849	85
1850–1874	96
1875–1899	215
1900–1924	373
1925–1949	521
1950–1974	547
1975–1999	865
2000–2024	1254

Nach Kanton

Bern	1206
Zürich	577
Basel-Stadt	486
Graubünden	390
Freiburg	270
Basel-Landschaft	232
St. Gallen	230
Solothurn	181
Aargau	181
Luzern	166
Glarus	143
Wallis	98
Schaffhausen	90
Thurgau	80
Uri	79
Appenzell Ausserrhoden	73
Schwyz	70
Appenzell Innerrhoden	67
Piemont / Aostatal (IT)	38
Nidwalden	35
Obwalden	33
Zug	19
Tessin	6

Mitarbeitende

Wissenschaftliche Mitarbeitende

Sabrina Brändle
Lorenz Küchler
Christoph Landolt
Muriel Peter
Tobias Roth
Manuela Weibel

Wissenschaftliche Hilfskräfte

Rahel Frefel
Eric Oechslin

Ehemalige

Hans Bickel
Luca Hofmann
Alessandra Lötscher
Florian Matter
Robin Schenkel
Selina Sprecher

Für Fragen oder Anmerkungen kontaktieren Sie uns bitte via chmk [ät] idiotikon.ch.