Sprache besser erkennen

Verbesserung der Spracherkennung für Menschen mit Sprachbehinderungen

Improving Voice Recognition for People with Speech Disabilities

übersetz mit DeepL

Zusammenfassung: Eine neue Studie zeigt, dass automatische Spracherkennungssysteme (ASR), die mit der Sprache von Menschen mit Parkinson-Krankheit trainiert wurden, bei der Transkription ähnlicher Sprachmuster um 30 % genauer sind. Die Forscher sammelten über 151 Stunden an Aufnahmen von Teilnehmern mit unterschiedlichem Grad an Dysarthrie, einer bei Parkinson-Patienten häufigen Sprachstörung, und verwendeten die Daten, um ASR-Systeme zu trainieren.

Die Studie zeigt, dass die Spracherkennungstechnologie für Menschen mit Sprachbehinderungen durch die Einbeziehung atypischer Sprachmuster erheblich verbessert wird. Diese Erkenntnisse könnten dazu beitragen, sprachgesteuerte Geräte für Menschen mit neuromotorischen Störungen zugänglicher zu machen.

Wichtige Fakten:

ASR-Systeme, die auf Parkinson-Sprache trainiert wurden, verbesserten die Transkriptionsgenauigkeit um 30 %.
Die Studie sammelte 151 Stunden an Aufnahmen von Menschen mit Dysarthrie.
Diese Erkenntnisse könnten die Zugänglichkeit für Benutzer mit Sprachbehinderungen verbessern.

Quelle: Beckman Institute

Als Mark Hasegawa-Johnson die Daten seines neuesten Projekts durchforstete, war er angenehm überrascht, als er ein Rezept für Eier Florentine entdeckte. Das Durchsuchen von Hunderten von Stunden aufgezeichneter Sprache wird den einen oder anderen Schatz zutage fördern, sagte er.

Hasegawa-Johnson leitet das Speech Accessibility Project, eine Initiative an der University of Illinois Urbana-Champaign, die Spracherkennungsgeräte für Menschen mit Sprachbehinderungen nützlicher machen soll.

In der ersten veröffentlichten Studie des Projekts baten die Forscher ein automatisches Spracherkennungsprogramm, 151 Stunden – fast sechseinhalb Tage – an Aufnahmen von Menschen mit Sprachbehinderungen im Zusammenhang mit der Parkinson-Krankheit anzuhören. Ihr Modell transkribierte einen neuen Datensatz ähnlicher Aufnahmen mit 30 % höherer Genauigkeit als ein Kontrollmodell, das keine Aufnahmen von Menschen mit Parkinson-Krankheit angehört hatte.

Sie sagte, das Team habe sich mit Parkinson-Experten und Gemeindemitgliedern beraten, um Inhalte zu entwickeln, die für das Leben der Teilnehmer relevant sind. Bildnachweis: Neuroscience News

Diese Studie erscheint im Journal of Speech, Language, and Hearing Research. Die in der Studie verwendeten Sprachaufnahmen sind für Forscher, gemeinnützige Organisationen und Unternehmen, die ihre Spracherkennungsgeräte verbessern möchten, frei verfügbar.

„Unsere Ergebnisse deuten darauf hin, dass eine große Datenbank mit atypischer Sprache die Sprachtechnologie für Menschen mit Behinderungen erheblich verbessern kann“, sagte Hasegawa-Johnson, Professorin für Elektrotechnik und Informationstechnik an der Universität von Illinois und Forscherin am Beckman Institute for Advanced Science and Technology der Universität, wo das Projekt angesiedelt ist.

„Ich bin gespannt, wie andere Organisationen diese Daten nutzen werden, um Spracherkennungsgeräte integrativer zu gestalten.“

Geräte wie Smartphones und virtuelle Assistenten nutzen automatische Spracherkennung, um aus Sprachäußerungen Bedeutungen zu machen. So können Menschen eine Wiedergabeliste erstellen, freihändig Nachrichten diktieren, nahtlos an virtuellen Besprechungen teilnehmen und klar mit Freunden und Familienmitgliedern kommunizieren.

Die Spracherkennungstechnologie funktioniert nicht für alle gut, insbesondere nicht für Menschen mit neuromotorischen Störungen wie der Parkinson-Krankheit, die eine Reihe von angespannten, undeutlichen oder unkoordinierten Sprachmustern verursachen können, die zusammen als Dysarthrie bezeichnet werden.

„Leider bedeutet dies, dass viele Menschen, die sprachgesteuerte Geräte am dringendsten benötigen, möglicherweise die größten Schwierigkeiten haben, sie gut zu bedienen“, so Hasegawa-Johnson.

„Aus der Forschung wissen wir, dass eine automatische Spracherkennung die Stimme einer Person besser versteht, wenn sie darauf trainiert wird. Wir haben uns gefragt: Kann man eine automatische Spracherkennung darauf trainieren, Menschen mit Dysarthrie durch Parkinson zu verstehen, indem man sie einer kleinen Gruppe von Menschen mit ähnlichen Sprachmustern aussetzt?“

Hasegawa-Johnson und seine Kollegen rekrutierten etwa 250 Erwachsene mit unterschiedlich starker Dysarthrie im Zusammenhang mit der Parkinson-Krankheit. Vor der Teilnahme an der Studie trafen sich die potenziellen Teilnehmer mit einem Sprachpathologen, der ihre Eignung beurteilte.

„Viele Menschen, die schon lange mit einer Kommunikationsstörung zu kämpfen haben, insbesondere mit einer fortschreitenden, ziehen sich möglicherweise aus der täglichen Kommunikation zurück“, sagte Clarion Mendes, eine Logopädin im Team. ‚Sie teilen ihre einzigartigen Gedanken, Bedürfnisse und Ideen immer seltener mit, weil sie denken, dass ihre Kommunikationsfähigkeit zu stark beeinträchtigt ist, um an sinnvollen Gesprächen teilzunehmen.“

„Das sind genau die Menschen, nach denen wir suchen‘, sagte sie.

Ausgewählte Teilnehmer nutzten ihre PCs und Smartphones, um Sprachaufnahmen einzureichen. Sie wiederholten in ihrem eigenen Tempo und mit optionaler Unterstützung durch eine Pflegekraft abgenutzte Sprachbefehle wie „Weckruf einstellen“, rezitierten Passagen aus Romanen und äußerten sich zu offenen Aufforderungen wie „Bitte erkläre die Schritte zur Zubereitung eines Frühstücks für vier Personen“.

Auf die letzte Frage antwortete ein Teilnehmer, indem er die Schritte zur Zubereitung von Eiern Florentine aufzählte – mit Sauce Hollandaise und allem –, während ein anderer pragmatisch riet, etwas zum Mitnehmen zu bestellen.

„Viele Teilnehmer haben uns berichtet, dass ihnen der Teilnahmevorgang nicht nur Spaß gemacht hat, sondern dass er ihnen auch das Selbstvertrauen gegeben hat, wieder mit ihren Familien zu kommunizieren“, sagte Mendes. “Dieses Projekt hat vielen unserer Teilnehmer und ihren Angehörigen Hoffnung, Begeisterung und Energie – einzigartige menschliche Eigenschaften – gebracht.“

Sie sagte, das Team habe sich mit Experten für die Parkinson-Krankheit und Gemeindemitgliedern beraten, um Inhalte zu entwickeln, die für das Leben der Teilnehmer relevant sind. Die Aufforderungen waren spezifisch und spontan: Das Training eines Spracherkennungsalgorithmus zur Erkennung von Medikamentennamen kann beispielsweise einem Endbenutzer helfen, mit seiner Apotheke zu kommunizieren, während beiläufige Gesprächseinstiege den Rhythmus des täglichen Geplauders imitieren.

„Wir sagen den Teilnehmern: Wir wissen, dass du deine Sprache klarer machen kannst, indem du dich voll und ganz anstrengst, aber du bist es wahrscheinlich leid, dich für andere verständlich machen zu müssen. Versuche, dich zu entspannen und so zu kommunizieren, als würdest du mit deiner Familie auf der Couch plaudern“, sagte Mendes.

Um zu beurteilen, wie gut der Spracherkennungsalgorithmus zugehört und gelernt hat, teilten die Forscher die Proben in drei Gruppen auf. Die erste Gruppe von 190 Teilnehmern bzw. 151 aufgezeichneten Stunden trainierte das Modell.

Als sich seine Leistung verbesserte, bestätigten die Forscher, dass das Modell ernsthaft lernte (und nicht nur die Antworten der Teilnehmer auswendig lernte), indem sie es mit einer zweiten, kleineren Gruppe von Aufnahmen konfrontierten. Als das Modell beim zweiten Satz seine Höchstleistung erreichte, forderten die Forscher es mit dem Testsatz heraus.

Die Mitglieder des Forschungsteams transkribierten durchschnittlich 400 Aufnahmen pro Teilnehmer manuell, um die Arbeit des Modells zu überprüfen.

Sie stellten fest, dass das ASR-System nach dem Anhören des Trainingssatzes die Aufnahmen des Testsatzes mit einer Wortfehlerrate von 23,69 % transkribierte. Zum Vergleich: Ein System, das mit Sprachproben von Menschen ohne Parkinson-Krankheit trainiert wurde, transkribierte den Testsatz mit einer Wortfehlerrate von 36,3 % – also etwa 30 % weniger genau.

Die Fehlerquoten sanken auch bei fast allen Personen im Testdatensatz. Selbst bei Sprechern mit weniger typischer Parkinson-Sprache, wie ungewöhnlich schnellem Sprechen oder Stottern, wurden leichte Verbesserungen festgestellt.

„Ich war begeistert, einen so dramatischen Nutzen zu sehen“, sagte Hasegawa-Johnson.

Er fügte hinzu, dass sein Enthusiasmus durch das Feedback der Teilnehmer noch verstärkt wurde:

„Ich habe mit einem Teilnehmer gesprochen, der sich für die Zukunft dieser Technologie interessierte“, sagte er. “Das ist das Wunderbare an diesem Projekt: zu sehen, wie begeistert Menschen von der Möglichkeit sein können, dass ihre intelligenten Lautsprecher und ihre Handys sie verstehen werden. Das ist es, was wir wirklich versuchen zu erreichen.“

Finanzierung: Die in dieser Pressemitteilung beschriebene Forschung wird von Amazon, Apple, Google, Meta und Microsoft, dem National Institute on Deafness and Other Communication Disorders der National Institutes of Health unter der Förderungsnummer R13DC003383 und der National Science Foundation unter der Förderungsnummer 1725729 unterstützt.

Der Inhalt liegt ausschließlich in der Verantwortung der Autoren und gibt nicht unbedingt die offizielle Meinung der National Institutes of Health wieder.

Über das Speech Accessibility Project

Das Speech Accessibility Project ist eine Forschungsinitiative, die Spracherkennungstechnologie für Menschen mit unterschiedlichen Sprachmustern und Behinderungen nützlicher machen soll.

Das Projekt ist am Beckman Institute for Advanced Science and Technology der University of Illinois Urbana-Champaign angesiedelt und wurde im Herbst 2022 angekündigt. Derzeit werden für das Projekt englischsprachige Erwachsene aus den USA und Kanada rekrutiert, die an Parkinson, Down-Syndrom, Zerebralparese oder amyotropher Lateralsklerose leiden oder einen Schlaganfall erlitten haben.

Das Projekt wird branchenübergreifend von den Geldgebern Amazon, Apple, Google, Meta und Microsoft sowie von gemeinnützigen Organisationen, deren Gemeinschaften von dieser Barrierefreiheitsinitiative profitieren werden, in beispielloser Weise unterstützt.

Bis Ende Juni 2024 hat das Projekt 235.000 Sprachproben mit den fünf Geldgebern geteilt.

Bewirb dich für die Teilnahme am Speech Accessibility Project.

Durchführung von Forschung im Rahmen des Speech Accessibility Project

Das Speech Accessibility Project hat etwa 170 Stunden Sprachaufnahmen und Anmerkungen von 211 Teilnehmern mit Parkinson-Krankheit veröffentlicht (einschließlich der Trainings- und Entwicklungsdatensätze).

Das Projekt nimmt Vorschläge von Forschern, Unternehmen und gemeinnützigen Organisationen entgegen, die die Aufnahmen und Anmerkungen nutzen möchten, um Technologie für alle zugänglich zu machen.

Reiche einen Vorschlag ein, um im Rahmen des Projekts zu forschen.

Über diese KI- und Spracherkennungs-Forschungsnachrichten

Autor: Jenna Kurtzweil
Quelle: Beckman Institute
Kontakt: Jenna Kurtzweil – Beckman Institute
Bild: Das Bild ist den Neuroscience News zuzuschreiben

Originalstudie: Open Access.
„Community-Supported Shared Infrastructure in Support of Speech Accessibility“ von Mark Hasegawa-Johnson et al. Journal of Speech, Language and Hearing Research

Abstract

Gemeinschaftlich unterstützte gemeinsame Infrastruktur zur Unterstützung der Barrierefreiheit von Sprache

Zweck:

Das Speech Accessibility Project (SAP) soll die Forschung und Entwicklung im Bereich der automatischen Spracherkennung (ASR) und anderer maschineller Lernaufgaben für Menschen mit Sprachbehinderungen erleichtern. Der Zweck dieses Artikels ist es, dieses Projekt als Ressource für Forscher vorzustellen, einschließlich einer Basisanalyse des ersten veröffentlichten Datenpakets.

Methode:

Das Projekt zielt darauf ab, die ASR-Forschung zu erleichtern, indem transkribierte US-englische Sprache von Menschen mit Sprech- und/oder Sprachbehinderungen gesammelt, kuratiert und verteilt wird. Die Teilnehmer nehmen die Sprache an ihrem Wohnort auf, indem sie ihren PC, ihr Mobiltelefon und bei Bedarf ihre Hilfsgeräte mit dem SAP-Webportal verbinden. Alle Proben werden manuell transkribiert und 30 pro Teilnehmer werden mit Hilfe von differenziellen diagnostischen Musterdimensionen annotiert. Für ASR-Experimente wurden die Teilnehmer nach dem Zufallsprinzip einem Trainingssatz, einem Entwicklungssatz für kontrollierte Tests eines trainierten ASR und einem Testsatz zur Bewertung der ASR-Fehlerrate zugewiesen.

Ergebnisse:

Das SAP-Datenpaket vom 2023-10-05 enthält die Sprache von 211 Personen mit Dysarthrie als Korrelat der Parkinson-Krankheit, und das zugehörige Testset enthält 42 weitere Sprecher. Eine ASR-Grundlinie mit einer Wortfehlerrate von 3,4 % für typische Sprecher transkribiert die Testsprache mit einer Wortfehlerrate von 36,3 %. Durch Feinabstimmung wird die Wortfehlerrate auf 23,7 % reduziert.

Schlussfolgerungen:

Vorläufige Ergebnisse deuten darauf hin, dass ein großer Korpus dysarthrischer und dysphonischer Sprache das Potenzial hat, die Sprachtechnologie für Menschen mit Behinderungen erheblich zu verbessern. Durch die Bereitstellung dieser Daten für Forscher beabsichtigt das SAP, die Forschung im Bereich barrierefreier Sprachtechnologie erheblich zu beschleunigen.