BokmålNynorsk
sitemap

Du er her:

Forsiden Nyheter Faglig Skjøtesyntese
Skjøtesyntese

Av Jørn Almberg

Talesyntese (2) – Skjøtesyntese
Som antydet i forrige artikkel, finnes det ulike teknologier for talesyntese. Her skal vi ta for oss ulike typer skjøtesyntese. Denne teknologien baseres på at man tilpasser og setter sammen biter av taleopptak. Skjøtesyntese er den teknologien som på sitt beste gir den mest naturlige lydkvaliteten, men som samtidig ofte gir hørbare ”skjøtefeil”. De tre mest kjente typene skjøtesyntese er difonsyntese, enhetsutvelgelse og domenespesifikk syntese. Disse teknologiene presenteres nærmere under.


Difonsyntese
Den første formen for skjøtesyntese vi skal kikke på, er difonsyntese. Som alle skjøtesynteser er den bygget på ”ekte tale” som en bærende komponent i systemet.
Direkte oversatt betyr ”difon” det samme som ”to språklyder”. Difonsyntese er en teknologi som bygger på lydbiter som består av to og to språklyder. Lydenhetene er imidlertid to hele språklyder, men hvert difon utgjøres av siste halvdel av lyd nr. 1, og første halvdel av lyd nr. 2.
En difonsyntese er språkspesifikk. Dette betyr at en syntese er laget for å virke i ett bestemt språk, og vil som regel prestere svært ujevnt eller dårlig om vi ber den lese tekster fra andre språk. Dette skyldes i hovedsak at både lydinventar og fonotaks (les: ”lydgrammatikken”) er forskjellig fra språk til språk. Eksempelvis består spansk av ca. 800 difoner, mens norsk har så mange som ca. 2100 difoner. For språk som ligner hverandre er det derimot mulig å gjenbruke difonene med akseptabelt resultat. Eksperimenter har vist at norsk syntese basert på svenske difoner fungerer forbausende bra.

Språkdatabasen til en difonsyntese inneholder ett eksemplar av hvert difon i språket det skal brukes til. Det betyr at en norsk difonsyntese har en lyd-database som inneholder ca. 2100 lydbiter (les: difoner) som er spesialisert for å kombineres til å bli alle mulige norske språklydstrenger.

Hvordan brukes så disse byggesteinene, som difonene er, når man skal syntetisere tale? Når en difonsyntese skal uttale ordet ”to”, setter den sammen tre lydenheter fra språkdatabasen:  (1) Stillhet + t; (2) t+o og (3) o+stillhet. Resultatet kan da høres slik ut (eksempel med difonsyntesen Lingspeak Arne): Lingspeak Arne sier ”to”

Merk at eksempelet over viser ordet ”to” uttalt alene, og er derfor omgitt av stillhet. Hvis ordet uttales i en setning vil det ikke omgis av stillhet, men tvert imot henge sammen med og være farget av språklydene til nabo-ordene. For eksempel slik: ”Er to nok?”


I eksemplene over hørte vi Lingits eldste talesyntese; Lingspeak Arne. Arne er en difonsyntese utviklet for norsk. Når en difonsyntese genererer lyd vil den tilpasse overordnede faktorer som tonefall, lengde på de ulike lydene og så videre, på toppen av sekvensen av difoner som settes sammen til setninger. Disse faktorene går under den lingvistiske fellesbetgnelsen ”prosodi”.

Difonsynteser har gjerne god forståelighet. De har også et fortrinn ved at de krever liten dataplass og lite datakapasitet. De kan imidlertid fortone seg som monotone og noen ganger ”robot-aktige” ved lesing av lengre tekster. Difonsynteser vil også inneholde skjøte-ulyder på grunn av at lydsegmentene må manipuleres for å tilpasses hverandre, og for å få riktig lengde, trykk, tonefall og så videre. Hør Lingspeak Arne lese forrige avsnitt for deg i nokså høy hastighet.

Enhetsutvelgelse
Denne teknologien går under ulike navn. ”Maksimal enhetsutvelgelse” og ”konkatenativ syntese” er to eksempler. Her kaller vi den ”enhetsutvelgelse”.

Denne teknologien baseres på at man lager syntetisk tale ved å velge ut og sette sammen biter av taleopptak (les: lydenheter) fra en stor taledatabase. Taledatabasen til en slik syntese inneholder lydenheter organisert som for eksempel foner (enkeltstående språklyder), difoner (språklydpar) eller stavelser. Lydenhetene kan også være organisert som en kombinasjon av to eller flere av disse kategoriene.
Lydenhetene er organisert på grunnlag av automatiske prosesser som involverer segmentering ved hjelp av talegjenkjenningskomponenter. Denne automatiske organiseringen modifiseres deretter ved hjelp av manuelle korreksjoner. Lydenhetene i databasen vil være kodet med informasjon om egenskaper som trykk, lengde, nabolyder, posisjon i ord/setning osv. Denne informasjonen brukes av systemet til å velge de antatt mest egnede enhetene til hver enkelt lydsekvens som skal lages. Det er denne prosessen som gir teknologien navnet ”enhetsutvelgelse”.


Talesynteser basert på enhetsutvelgelse fremstår som regel som mye mer naturlige enn for eksempel difonsynteser. Dette skyldes at enhetsutvelgelse involverer lite eller ingen (lydforringende) manipulasjon av lydenhetene. Svært gode systemer med denne teknologien er på sitt beste bortimot umulig å skille fra naturlig tale. Ulempene med enhetsutvelgelse er at de fleste av dem krever svært mye dataplass og til dels også mye datakraft for å gi et godt resultat. Det er også ganske vanlig at utvelgelsesmetodene gjør dårlige valg innimellom, noe som resulterer i at deler av talen den produserer blir utydelig og/eller hakkete. I verste fall blir talen umulig å forstå.
Hør Isak i enhetsutvelgelse-modus lese ”Vi har et sekretariat i Oslo med noen få fast ansatte, og ca 45 lokallag og fylkeslag som drives av tillitsvalgte medlemmer.”

Domenespesifikk syntese
Dette er en teknologi som setter sammen ytringer fra forhåndsinnspilte fraser og ord. Domenespesifikke systemer brukes i applikasjoner som skal håndtere et forhåndsdefinert vokabular og et begrenset sett av ytringer. Eksempler på domener er taleenheter i GPS-systemer, og ulike talebaserte ruteopplysningstjenester. Det finnes også såkalte ”digitale stemmer” som er spesialisert på enkeltordopplesing. Teknologien er relativt enkel, og kan gi svært god naturlighet og lydkvalitet siden det den produserer grovt sagt er avspilling av (sammenstilte) lydopptak. Den krever også lite dataplass og maskinkraft.

Som det ligger i navnet, kan man ikke bruke domenspesifikke synteser til generelle formål. Dette skyldes at teknologien kun håndterer produksjon av et begrenset sett med ord og kombinasjoner av ord, og vil ikke kunne håndtere fri tekst av typen man finner i for eksempel eposter, eller nyhetstekster fra nett.

Oppsummering
Som vi har sett har de ulike formene for skjøtesyntese komplementære egenskaper som gjør at de egner seg godt i ulike typer applikasjoner. Derfor lever de side om side innenfor sine enkelte bruksområder den dag i dag. I en senere artikkel vil vi se på flere talesyntese-teknologier, blant annet HTS-teknologien som Lingit bruker i stemmene Isak og Inger.

 
footer_stripe