Sprachdialogsystem

Mit einem Sprachdialogsystem (englisch Voice Portal), auch IVR-System (Interactive Voice Response), können Anrufer über das Telefon oder andere akustische Medien teil- oder vollautomatisierte natürlichsprachliche Dialoge führen.

Beispiel:

Anrufer: „Wie ist das Tages-Hoch und der aktuelle Kurs der Aktie der Firma F in Frankfurt?“.

Antwort des Sprachdialogsystems: „Das Tages-Hoch von F in Frankfurt ist xxx,yy Euro und aktuell steht F bei xxx,yy Euro.“

IVR schließt in der Praxis auch andere Eingabemöglichkeiten der Telefonie, wie das Mehrfrequenzwahlverfahren, ein („Für den Verkauf drücken Sie jetzt bitte die ‚1‘, für Service drücken Sie jetzt bitte die ‚2‘ …“). In der Telekommunikation ermöglichen es IVR-Systeme den Kunden, über das Tastenfeld eines Telefons oder durch Spracherkennung mit dem Hostsystem eines Unternehmens zu interagieren, sodass mithilfe des IVR-Systems Auskünfte eingeholt werden können. IVR-Systeme können mit vorab aufgenommenen Sprachbausteinen reagieren, um die Benutzer zur weiteren Vorgehensweise anzuleiten. In einem Netzwerk bereitgestellte IVR-Systeme sind für die Abwicklung eines großen Anrufaufkommens dimensioniert.^[1]

Grundaufbau

IVR-Systeme können folgende Module haben:^[2]:

Spracherkennung (Automated Speech Recognition ASR) mit Grammatiken / Semantiken zur Interpretation von Spracheingaben (Natural Language Understanding NLU),
Sprachsynthese (Text-to-Speech TTS) zur Wandlung von Texten in computergenerierte Stimmen zur Sprachausgabe,
Dialogablauf-Interpreter (z. B. VoiceXML-Browser) als Frontend,
Geschäftslogik zur Einbindung in Unternehmensprozesse als Backend,
Datenbanken zu Speicherung und zur Abfrage
Schnittstellen zu IP-Netzwerk, Telefonnetz, DECT-Anlagen oder Audioanschlüssen.

Abbildung 1: Architektur von IVR-Systemen^[3]

Es sind biometrische Verfahren zur Sprecherauthentifizierung („Die Stimme als Passwort“) verfügbar und durch das Bundesamt für Sicherheit in der Informationstechnik (BSI) als sicher zertifiziert.

Wegen der Weiterentwicklung der Spracherkennung in den letzten Jahren sind aus ganzen Sätzen bestehende Dialoge möglich. Dies setzt eine gewisse Intelligenz der Systeme voraus. Nachdem die Kerntechnologie heute als weitgehend ausgereift gilt, geraten neue Disziplinen in den Blickpunkt der Entwickler von Sprachdialogsystemen, z. B. Dialog Design.

Verwendung

IVR-Systeme werden eingesetzt, um hohe Anrufvolumina zu verarbeiten und die Kosten zu reduzieren.^[4]^[5] IVR-Systeme können für mobile Einkäufe, Bankdienstleistungen, Versorgungsunternehmen, Reiseinformationen und den Wetterbericht verwendet werden. Durch IVR-Systeme können Anrufende Daten relativ anonym abrufen. Dies ist auf gesteigerte CPU-Leistungen und die Migration der Sprachanwendungen von proprietärem Code hin zum VoiceXML-Standard zurückzuführen.^[6]

IVR-Systeme ermöglichen es, Sprache als weiteres Ein-/Ausgabemedium neben Tastatur, Maus und Monitor zu nutzen.

Die Anwendungsarten lassen sich technisch einteilen in

reine Sprachdienste: bieten nur Interaktion über Sprache und
multimodale Anwendungen: kombinieren Sprachinteraktion mit anderen Ein-/Ausgabemedien (z. B. grafischen Oberflächen).

Im Folgenden werden die Anwendungsarten weiter nach Nutzergruppen eingeteilt in kommerzielle Sprachdienste (Business2Consumer, Business2Business), innerbetriebliche Sprachdienste und geräteintegrierte Sprachdienste (Hardware- und Software-Steuerung, Computerspiele).

Kommerzielle Sprachdienste

Reine Sprachdienste kommerzieller Natur stießen bei deutschen Konsumenten im Jahr 2009 meist noch auf Ablehnung. Da der Anwender nicht persönlich eingewiesen werden kann, die Funktionsweise der Systeme nicht kennt und sich durch eventuell über den Sprachdienst eingespielte Werbung belästigt fühlt, nehmen Endkunden häufig eine negative Haltung gegenüber Sprachdiensten ein. Folgende Einsatzfelder waren exemplarisch für den kommerziellen Bereich:

Dienste für Endkunden (Business-to-Consumer)^[7]:
- Informationen und Auskünfte am Telefon, z. B. Fahr- und Flugpläne
- Automatische Bestellung/Reservierung am Telefon, z. B. Ticket-Hotline, Katalogbestellungen, Telefonbanking
- Automatische Telefonzentrale/Vermittlung
- Vorqualifikation/Autorisierung von Anrufern, z. B. Abfrage der Kundennummer bzw. PIN
- Intelligente Wartefelder von Call-Centern
- Stör-Ansage-Management
- Televoting, Gewinnspiele am Telefon

Dienste für zwischenbetriebliche Abläufe (Business-to-Business waren damals noch nicht bekannt).

Innerbetriebliche Sprachdienste (für Mitarbeiter)

Innerbetrieblich wurde Sprachverarbeitung bisher kaum genutzt, obwohl hier bei großen Unternehmen Potenziale liegen: Der innerbetriebliche Anwender kann in die Bedienung eingewiesen werden und er arbeitet regelmäßig mit dem Sprachdienst. Dies führt zu effizienter Nutzung bei hoher Akzeptanz durch den Anwender. Die Prozesszeiten innerbetrieblicher Abläufe lassen sich stark beschleunigen bei gleichzeitiger Senkung der Fehlerraten bei der Dateneingabe durch reduzierte Medienbrüche.

Warenannahme
Qualitätsprüfung, Laufprüfung, Produktendabnahme
Inventur
Inspektion von Anlagen
prozessorientierte Ereignismeldung
Fern- und Vorortdiagnose

Geräteintegrierte Sprachdienste

Nur wenig besser angenommen wurden 2009 geräteintegrierte Dialogsysteme. Allerdings erfordert eine qualitative Spracherkennung hohe Rechenleistung bei entsprechendem Energiebedarf, so dass zufriedenstellend funktionierende Lösungen zunächst nur in Bordsystemen einzelner Oberklassewagen, Computerspielen oder spezieller Anwendungssoftware anzutreffen waren. Beispiele für geräteintegrierte Spracherkennung sind:

Freisprecheinrichtungen in Kraftfahrzeugen
Navigationssysteme in Kraftfahrzeugen
Rufnummernwahl in Mobiltelefonen über den Personennamen
Computerspiele
Anwendungs-Software für körperlich Behinderte
kooperative Maschinensteuerung
- Engere Kooperation zwischen Mensch und Maschine, z. B. für den Einsatz von Industrierobotern in Handwerksbetrieben, war ein aktueller Forschungsgegenstand.^[8]

Vorteile und Grenzen interaktiver Sprachdialogsysteme

Mittels Sprache kann gegenüber herkömmlichen grafischen Benutzeroberflächen direkt und natürlich kommuniziert werden:

Vorteile der Sprachinteraktion
- Die Hände und der Blick bleiben frei (verbessert Ergonomie und Prozesszeit).
- Sprache ist dem Menschen unmittelbar zugänglich (größere Qualifikationsmaßnahmen und längere Einlernzeiten zur Oberflächenbedienung entfallen).
- Die Anforderungen an das Endgerät sind gering (es genügt ein Telefon oder Headset mit gutem Mikrofon).
- Die allgemeine Verfügbarkeit von (Mobil-)Telefonen erlaubt neue Freiheitsgrade während der Interaktion mit Software-Anwendungen.
- Moderne sprecherunabhängige Erkennung versteht Äußerungen verschiedener Personen (mehrsprachige Applikationen möglich; bis zu einem gewissen Grad auch Dialekte toleriert).
- Alle Informationselemente sind direkt erreichbar (kein mühsames Durchlaufen hierarchischer Menüs und langer Listen).
- Innerhalb eines spezifischen Kontexts können komplexe Sätze verstanden und automatisch verarbeitet werden (zum Beispiel für die Reservierung eines Dienstwagens über einen Telefonanschluss: „Hallo. Ich hätte gerne einen Wagen für die Strecke Stuttgart – Darmstadt am Donnerstag von 6 bis 22 Uhr“).
- Visuelle Aufgaben erfordern hohe Aufmerksamkeit. Dialoge können praktisch „nebenbei“ geführt werden.

NLU ist eine fortgeschrittene Schnittstelle in der Computerinteraktion, dennoch sind die Möglichkeiten der Darstellung von Informationen im Vergleich zu visuellen Medien eingeschränkt:

Grenzen der Sprachinteraktion
- Keine 100-prozentige Erkennung
  - Problematisch sind sehr umfangreiche Vokabulare (vermehrt Ähnlichkeiten in der Aussprache verschiedener Begriffe).
  - Keine perfekte Erkennung durch die Variabilität der menschlichen Stimme.
- Raue Umweltbedingungen
  - Wiederholt auftretende Umweltgeräusche können signaltechnisch und softwaretechnisch heutzutage gut herausgefiltert werden.
  - Das Filtern menschlicher Stimmen im Hintergrund bleibt dagegen weiterhin problematisch.
- Navigation und Menüstrukturen
  - Der Benutzer muss sich mit den Navigationsmöglichkeiten und Funktionen einer komplexen Sprachapplikation erst vertraut machen. Lösung: Abgestufte Anwendungs-Modi für Einsteiger und Fortgeschrittene zur effizienten Nutzung.
  - Die menschliche Wahrnehmung kann lange Listen visuell gut überblicken; akustisch ist das Auflisten vieler Informationen an einem Stück jedoch schwer verständlich.
  - Man muss „die Regeln“ kennen. Computer „verstehen“ nicht – es ist lediglich eine Sprach-„Erkennung“.
  - Spracherkennungstechniken korrelieren die gesprochenen Wörter mit einer Liste von erwarteten Äußerungen, die in ihrer Größe limitiert ist. Bei der Entwicklung eines Sprachdialogsystems müssen Annahmen getroffen werden, was gefragt werden könnte. Basierend hierauf müssen Frage/Antwort-Dialoge entwickelt werden, die den Anrufer zu einer bestimmten Information führen. Ein Dialog könnte dann beispielsweise wie folgt aussehen: „Suchen Sie nach Informationen über ein Unternehmen, einen Film, Verkehrsinformationen …?“ „Unternehmen.“ „Welche Art von Unternehmen?“ „Restaurant!“ „Welche Art von Restaurant?“ „Chinesisch!“ „In welcher Straße, Stadtteil oder in der Nähe von welchem Lokal?“ Auch wenn dieses Vorgehen funktionieren kann und für den Anrufer hilfreich sein kann, ist es doch weit entfernt von den Möglichkeiten, die man mit einer Freitexteingabe bei einer Suchmaschine im Internet hat.

Kritik

Die Dialogsysteme sollen es dem Nutzer ermöglichen, auf möglichst einfache Art und Weise (d. h. vor allem ohne spezielle Ausbildung oder Erfahrung) an die gewünschten Informationen zu gelangen. Einige Systeme erfordern vom Benutzer jedoch meist, dass dieser mit der Bedienung vertraut macht.

„Sprache ist das Fahrrad unter den Benutzungsschnittstellen. Es macht großen Spaß […], aber es trägt nur eine geringe Zuladung. Nüchterne Fürsprecher wissen, dass es schwierig sein wird, das Automobil zu ersetzen: die grafische Benutzeroberfläche.“ (Speech is the bicycle of user-interface design, it is great fun to use […], but it can carry only a light load. Sober advocates know that it will be tough to replace the automobile: graphic user-interfaces.) Ben Shneiderman, 1998.^[9]

Die an den Menschen angepasste Bedienung eines Dialogsystems lässt sich anhand folgender Eigenschaften beschreiben:^[10]

Adaptivität
Implizite Bestätigung
Nachfragen und Ambiguitätenresolution
Korrekturmöglichkeiten
Überbeantwortung
Interpretation von Verneinungen
Diskurs und Rückbezüge
Interpretation von Umgangssprache
Art der Formulierung / Sprachgenerierung
Sozialverhalten
Qualität der Spracherkennung und -synthese

Neben dem Endnutzer ist auch der Entwickler zu betrachten. Solange es keine einfach zu bedienenden Werkzeuge zur Erstellung von Dialogsystemen gibt, werden auch die Ergebnisse nicht nutzerfreundlich sein: „Bei einem Vergleich der Systeme fällt jedoch auf, dass viele der Eigenschaften natürlicher Dialogsysteme noch nicht umgesetzt worden sind. Dies liegt vor allem am Fehlen eines allumfassenden Dialogmodellierungs- und -implementierungswerkzeugs.“^[10]

Kriterien für den Einsatz von Sprachdialogsystemen

Für den Einsatz von Sprachtechnologien in betrieblichen Anwendungen sprechen folgende Kriterien:^[11]

Der Mitarbeiter …
- hat wenig Computererfahrung
- hat eine Schreib-/Leseschwäche
- spricht nur Fremdsprachen

Die Aktivität fordert …
- freie Hände und freier Blick
- Input leicht in Worte zu fassen
- Mobilität
- häufig wiederholte Aufgaben

Das Arbeitsumfeld ergibt
- visuelle Wahrnehmung erschwert
- Platzmangel, kein Bildschirm/Tastatur
- Wechsel zwischen Tätigkeit und Computerarbeitsplatz unergonomisch oder zeitintensiv

Siehe auch

Weblinks

Fraunhofer Voice Control API: Ein Webservice zur Entwicklung interaktiver Sprachdialoge

Einzelnachweise

↑ Enhancing customer engagement with interactive voice response. Abgerufen im 1. Januar 1
↑ nach: Jürgen Hoffmeister, Christel Müller, Engelbert Westkämper: Sprachtechnologie in der Anwendung – Sprachportale. Springer, Berlin/Heidelberg 2008, ISBN 978-3-540-72435-3, S. 85.
↑ nach: Jürgen Henke, Ronny Egeler: Spracherfassung in industriellen EDV-Systemen. Folie 7, Vortrag Fraunhofer IPA, Stuttgart 2008, PDF-Dokument (Memento des Originals vom 28. August 2012 im Internet Archive) Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2
↑ IVR- oder Sprachdialogsysteme. Abgerufen im 1. Januar 1
↑ Suendermann, David: Advances in Commercial Deployment of Spoken Dialog Systems. Springer Science+Business Media, Berlin 2011, ISBN 978-1-4419-9610-7, S. 9–11.
↑ Lam: Validation of interactive voice response system administration of the Short Inflammatory Bowel Disease Questionnaire. In: Inflammatory Bowel Diseases. 2009, S. 599–607, doi:10.1002/ibd.20803, PMID 19023897.
↑ Vergleiche: Susanne Feldt, Kai-Werner Fajga, Christoph Pause: Voice Business Jahrbuch 2009, telepublic Verlag, Hannover 2008, ISBN 978-3-939752-01-1, S. 30–68.
↑ Christopher Parlitz: PowerMate – Schrankenlose Mensch-Roboter-Kooperation. Fraunhofer IPA, 2005, PDF (Memento des Originals vom 1. September 2011 im Internet Archive) Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2
↑ Ben Shneiderman: Designing the User Interface: Strategies for Effective Human-Computer Interaction, 3rd edition, Addison-Wesley, 1998
↑ ^a ^b Markus Berg: Natürlichsprachlichkeit in Dialogsystemen. Informatik-Spektrum 36/4, S. 371–381, Springer, 2013, doi:10.1007/s00287-012-0650-3
↑ Matthias Peissner: Präsentation – Erfolgsfaktoren für den Einsatz von Sprachinteraktion, Folie 9, Stuttgart 2008, PDF (Memento des Originals vom 28. August 2012 im Internet Archive) Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2

[1] Enhancing customer engagement with interactive voice response. Abgerufen im 1. Januar 1

[2] : Jürgen Hoffmeister, Christel Müller, Engelbert Westkämper: Sprachtechnologie in der Anwendung – Sprachportale. Springer, Berlin/Heidelberg 2008, ISBN 978-3-540-72435-3, S. 85.

[3] : Jürgen Henke, Ronny Egeler: Spracherfassung in industriellen EDV-Systemen. Folie 7, Vortrag Fraunhofer IPA, Stuttgart 2008, PDF-Dokument (Memento des Originals vom 28. August 2012 im Internet Archive) Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2

[4] IVR- oder Sprachdialogsysteme. Abgerufen im 1. Januar 1

[5] Suendermann, David: Advances in Commercial Deployment of Spoken Dialog Systems. Springer Science+Business Media, Berlin 2011, ISBN 978-1-4419-9610-7, S. 9–11.

[6] Lam: Validation of interactive voice response system administration of the Short Inflammatory Bowel Disease Questionnaire. In: Inflammatory Bowel Diseases. 2009, S. 599–607, doi:10.1002/ibd.20803, PMID 19023897.

[7] Vergleiche: Susanne Feldt, Kai-Werner Fajga, Christoph Pause: Voice Business Jahrbuch 2009, telepublic Verlag, Hannover 2008, ISBN 978-3-939752-01-1, S. 30–68.

[8] Christopher Parlitz: PowerMate – Schrankenlose Mensch-Roboter-Kooperation. Fraunhofer IPA, 2005, PDF (Memento des Originals vom 1. September 2011 im Internet Archive) Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2

[9] Ben Shneiderman: Designing the User Interface: Strategies for Effective Human-Computer Interaction, 3rd edition, Addison-Wesley, 1998

[natdialog-10] Markus Berg: Natürlichsprachlichkeit in Dialogsystemen. Informatik-Spektrum 36/4, S. 371–381, Springer, 2013, doi:10.1007/s00287-012-0650-3

[11] Matthias Peissner: Präsentation – Erfolgsfaktoren für den Einsatz von Sprachinteraktion, Folie 9, Stuttgart 2008, PDF (Memento des Originals vom 28. August 2012 im Internet Archive) Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]