Emotionen für Vorleser

Das Vorlesen kann bei digitalen Büchern ein Problem sein, jedenfalls wenn es das Lesegerät macht. Das wurde durch die jüngste Affäre um die Sprachsynthese-Funktion (TTS, text-to-speech) des Amazon Kindle klar gemacht. Einige Rechte-Inhaber sehen da wohl eine Konkurrenz zu den Hörbüchern. Dass manche digitale Angebote der letzten Zeit neben der Text- auch gleich die Audiofassung beinhalten, macht die Lage wohl nicht einfacher.

Fragt sich, wie gut denn die TTS-Fassung im Vergleich zu einer Hörbuchfassung ist? Macht der synthetisierte Vorleser wirklich dem ausgebildeten Sprecher Konkurrenz? Eher wohl nicht, zur Zeit ist ersteres wohl doch nur ein Hilfsmittel. Die Qualität der Stimmen und des Vortrages lässt im Konsumentenbereich noch zu wünschen übrig. Auch wenn sich, seitdem ich mich zum letzten Mal mit der Sprachsynthese befasst habe, viel verbessert hat. Jedenfalls an den Stimmen auf meinem Rechner gemessen.

Neben den von Apple mitgelieferten englischen Stimmen – wirklich gelungen, die Lokalisierung – habe ich noch z
wei deutsche, von Cepstral. Das Vorlesen beschränkt sich hier allerdings auf Anwendungsmeldungen oder Chats, die ich im Hintergrund verfolge, ohne hinschauen zu müssen. Für längere Texte, Bücher gar, ist der Vortrag dann doch noch etwas monoton. Und das obwohl die eingebaute Sprachsynthese mittlerweile die Satzzeichen ganz gut zur Betonung nutzt.

Bei beiden Arten von Stimmen kann man die Aussprache und Betonung allerdings verbessern. Apple bietet dazu Kommandos an, die man einfach in den Text integrieren kann. Um die Betonung zu ändern kann man z.B. einfach [[emph +]] bzw. [[emph – ]] einfügen. Statt

Bitte drücken sie nicht den roten Knopf.

hieße es dann

Bitte drücken sie [[emph +]] nicht [[emph -]] den roten Knopf.

Cepstral hält sich zur Kodierung der Betonung an den W3C-Standard SSML (Speech Synthesis Markup Language). Damit würde die betonte Fassung so aussehen:

Bitte drücken Sie <emphasis level=’strong‘>nicht</emphasis> den roten Knopf.

Anhören (Kein Player? Hier klicken..):

Nun wurde SSML nicht primär dafür entwickelt, literarische Texte zu synthetisieren. Man dachte da wohl eher an sachliche Dinge wie Kundenkommunikation, automatische Agenten, die mit Kunden per Sprache kommunizieren. Daher kann man Dinge wie Betonung, Stimmhöhe oder Sprechgeschwindigkeit definieren, oder auch die genaue Aussprache durch Phoneme festlegen, z.B.

Parlament : p a0 r l a0 m eh1 n t

Jetzt geht es aber in der Belletristik öfters um den Ton, in dem jemand etwas sagt, vielleicht sogar in einer der Figur eigentümlichen Sprechweise. Das lässt sich auch kodieren, wie ein Beispiel aus der Entwicklerdokumentation von Apple zeigt:

[[inpt TUNE]] ~
s {D 250; P 212.0:0 212.0:35 212.0:54 212.0:85 212.0:96}
1AA {D 190; P 232.0:0 218.0:35 222.0:80}
r {D 80; P 216.0:0}
IY {D 150; P 177.0:0 162.0:29 162.0:68 162.0:77 162.0:90 162.0:100}
, {D 20}
~
d {D 60; P 162.0:0 162.0:36 162.0:57 160.0:93}
1EY {D 350; P 162.0:0 150.0:27 150.0:41 150.0:70}
v {D 30; P 150.0:0 150.0:29 150.0:52 150.0:67 150.0:90 150.0:100}
, {D 510}
~

[[inpt TEXT]]

Ausgesprochen hört sich das Ganze so an: (Kein Player? Hier klicken.)

Wenn man sich nun vorstellt, eine derartig aufwendige Kodierung für einen größeren Text machen zu müssen – da wäre man wohl mit einem gut ausgebildeten Sprecher besser bedient. Wie schön, dass da Abhilfe zu nahen scheint! Denn seit einigen Tagen gibt es die Auszeichnungssprache für Gefühle: EmotionML. Damit soll es möglich werden Stimmungen, Meinungen, Gefühlslagen zu definieren und in den verschiedensten Szenarien zu verwenden:

Human emotions are increasingly understood to be a crucial aspect in human-machine interactive systems. Especially for non-expert end users, reactions to complex intelligent systems resemble social interactions, involving feelings such as frustration, impatience, or helplessness if things go wrong. Furthermore, technology is increasingly used to observe human-to-human interactions, such as customer frustration monitoring in call center applications. Dealing with these kinds of states in technological systems requires a suitable representation, which should make the concepts and descriptions developed in the affective sciences available for use in technological contexts.

Unter anderem sieht dieser Standard auch eine Integration mit SSML vor. Somit könnte der gewitzte Schreiberling den Tonfall eines Satzes für die Audiofassung genau definieren, ohne auf komplizierte Phonemlösungen zurück greifen zu müssen. Mit einem solchen Gemisch aus SSML und EmotionML würde also der Frage „Benötigen Sie Hilfe?“ ein gemäßigter Zweifel unterlegt (adaptiertes Beispiel):

<?xml version="1.0"?>
<speak version="1.1" xmlns="http://www.w3.org/2001/10/synthesis"
         xmlns:emo="http://www.w3.org/2009/10/emotionml"
         xml:lang="de-DE">
    <s>
        <emo:emotion>
            <emo:category set="everydayEmotions" name="doubt"/>
            <emo:intensity value="0.4"/>
        </emo:emotion>
        Benötigen Sie Hilfe?
    </s>
</speak>

EmotionML selbst ist noch ganz am Anfang, es steht zur Zeit nur ein Gerüst. Die erwähnte Integration scheint derzeit auch nur als Idee zu existieren. Aber die Arbeit zeigt, dass sich im TTS-Markt etwas bewegt, und das könnte Auswirkungen auf die digitalen Bücher haben.

Ob allerdings eine so synthetisierte Audiofassung eines Textes gut gemachte Hörbücher verdrängen könnte, muss offen bleiben. Abgesehen von der Frage, ob die technische Entwicklung wirklich das bringt, was die Anfänge hier vermuten lassen, bleibt, denke ich, das Interesse an der Interpretation eines Textes durch bestimmte Sprecher oder Schauspieler. So wie man in ein klassisches Konzert gehen mag, um nicht so sehr das Stück, sondern dessen Interpretation durch diesen Dirigenten, dieses Orchester zu erleben, so besteht auch das Interesse am Hören der Interpretation eines Textes durch eine bestimmte Person.

Selbst wenn diese Person mal so beschaffen sein wird wie Rei Toei in Idoru.