Grafik: ZHAW

Im Rahmen des diesjähren Jahrestreffens der Association for Computational Linguistics (ACL 2023), das noch bis 14. Juli in Toronto (Kanada) stattfindet, wird mit dem neuen Speech-to-Text-Korpus für Schweizerdeutsch (STT4SG-350-Korpus) erstmals ein ehrgeiziges Projekt öffentlich vorgestellt, das einen wichtigen Beitrag zur schweizerdeutschen Sprachforschung und -technologie leistet. Das Korpus enthält laut Mitteilung 343 Stunden schweizerdeutscher Sprachdaten, die mit standarddeutschem Text annotiert sind. Dieses Korpus ist das Ergebnis des SNF-Projekts "End-to-End Low-Resource Speech Translation for Swiss German Dialects", einer Zusammenarbeit zwischen der Zürcher Hochschule für angewandte Wissenschaften (ZHAW", der Fachhochschule Nordwestschweiz (FHNW) sowie der Universität Zürich (UZH).

Das STT4SG-350-Korpus, das bisher grösste öffentlich zugängliche Sprachkorpus des Schweizerdeutschen, sei das Ergebnis der Bemühungen, die Horizonte der schweizerdeutschen Sprachtechnologie zu erweitern, heisst es in der Aussendung dazu. Für die Datenerhebung wurden den Infos zufolge Sprechern in einer Web-App standarddeutsche Sätze gezeigt, die sie dann ins Schweizerdeutsche übersetzten und aufzeichneten. Das Korpus umfasst alle Deutschschweizer Dialektregionen und spiegelt einen breiten Querschnitt der Schweizer Gesellschaft wider. Es enthält Daten von 316 Sprecherinnen und Sprechern aller Altersgruppen, wobei die Geschlechter gleichmässig vertreten sind. Wichtig sei, dass jede Dialektregion mit ungefähr gleich vielen Sprachdaten vertreten sei, was sicherstelle, dass das Korpus eine hervorragende Ressource für vergleichende Studien und dialektspezifische Technologien darstelle.

Diese umfangreiche Sammlung schweizerdeutscher Sprache ist als Fundgrube für viele Bereiche der linguistischen Forschung und Entwicklung zu werten. Ihre potenziellen Anwendungen reichen von der automatischen Spracherkennung (ASR) über die Text-zu-Sprache-Konvertierung bis hin zur Dialektidentifikation und Sprechererkennung. Darüber hinaus hat die Forschercrew die Daten sorgfältig in Trainings-, Validierungs- und Testdatensätze aufgeteilt, um strenge Experimente und Evaluierungen zu unterstützen. Insbesondere der Testsatz bestehe aus denselben Sätzen, die in jeder Dialektregion gesprochen werden, was eine faire Bewertung der Technologie in verschiedenen Dialekten ermögliche, so die Mitteilung.

Die Stärke des Korpus liege nicht nur in seiner Grösse und Vielfalt, sondern auch in seiner Qualität, wird weiters betont. Man habe ein ASR-Modell auf dem STT4SG-350 Trainingssatz trainiert und einen beeindruckenden durchschnittlichen BLEU-Wert von 74,7 auf dem Testsatz erzielt. Insbesondere habe dieses Modell die besten veröffentlichten Ergebnisse auf zwei anderen Deutschschweizer ASR-Testsätzen übertroffen, was die Robustheit dieses Korpus untermauere.



Der Online-Stellenmarkt für ICT Professionals