Neurale netværk, kunstig intelligens, deep learning

Max Manus’ 4. generation talegenkendelse, der er baseret på Nuance’ nye motor ”Dragon”, bruger neurale netværk til at genkende lyde og ord

Hvad er neurale netværk?

Kort sagt er det et teknologisk forsøg på at kopiere den måde, den menneskelige hjerne fungerer på. Her er det via vores indlæring og træning, at vi tager en beslutning.

Teknikkerne og principperne har været kendt længe – siden 50’erne, men det er først nu blevet muligt at føre ud i praksis, da vi i dag har computerkraft hurtig nok til at kunne processere de store mængder af data, som er nødvendige for at kunne danne et beslutningsgrundlag.

Hvorfor er computerkraft afgørende?

Lad os tage udgangspunkt i talegenkendelse.

For at skabe den nye motor og for at give den et erfaringsgrundlag til at danne et beslutningsgrundlag, har man indsamlet og fodret computeren med mere end 10 millioner lyde og tekster. Hvert enkelt ord og lyd er gentagne gange og i mange forskellige sammenhænge blevet kørt igennem computeren.

I det neurale netværk nedbrydes og modelleres hvert input igennem det neurale netværk.

Et eksempel på denne proces kan være billedgenkendelse. Her inddeles hvert billede i bittesmå pixels, som behandles i det man kalder ”hidden layers”. Som det ses på billedet, består billedet af 28×28 pixels, der i alt giver 784 pixels at lede efter tendenser i. Hver eneste pixel sammenlignes med tusindvis af lignende pixels og danner derefter grundlag for en erfaring eller tendens, i dette tilfælde at disse pixels tilsammen danner tallet 6.

 

Talegenkendelse i neuralt netværk

Med udgangspunkt i samme teknologi anvender Dragon et neuralt netværk til talegenkendelse. På lignende vis nedbrydes hver lyd og hvert ord i mindre fragmenter, der sendes igennem det neurale netværk. Jo flere gange en lyd og et tilhørende ord sendes igennem computeren i træningsfasen, jo større chance har computeren for at genkende lyden og ordet, og i sidste ende foreslå det korrekte output hos brugeren.

Dragon kontra SpeechMagic – gammel versus ny

Den nye motor Dragon er baseret på neurale netværk også kaldet deep learning. Den hidtidige motor SpeechMagic er baseret på machine learning, som er algoritmer der igennem træning og statistikmæssig sandsynlighed forbedres over tiden. Den store forskel er, at Dragon kan anvende flere parametre, når et ord skal beregnes, hvilket giver højere nøjagtighed.

Når års træning gøres på få måneder skal input være meget nøjagtigt, ellers kan det gå galt

Nuance har brugt rigtig mange måneder på træning af tekster og lyde i neurale netværk. Sammenlignet skulle et mennesket bruge flere år på at træne og opnår det samme erfaringsgrundlag.

Når indlæringen foregår så hurtigt og over så kort tid, er det vigtigt, at input er meget nøjagtigt og korrekt. Oplærer du et barn fra 1 til 15 år, har du tid til at korrigere fejlinput. Når du oplærer en computer på få måneder, i hvad der svarer til at opnå et 15-årig barns erfaring, så kan det hurtigt gå galt.

Det måtte Microsoft sande, da de for nogle år siden lancerede chatboten Tay på Twitter.
Googler du ”Tay microsoft”, så kan du læse mere om dén historie.