Et vigtigt skridt er taget mod at gøre livet lettere for mennesker med nedsat hørelse. Ph.d.-studerende Morten Kolbæk fra Aalborg Universitet (AAU) har udviklet en banebrydende algoritme, der kan gøre det nemmere for høreapparatbrugere at deltage aktivt i samtaler i støjfyldte omgivelser
For personer med nedsat hørelse er det ofte et stort problem at forstå og adskille stemmer i støjfyldte omgivelser. Dette problem kan snart blive fortid takket være en ny banebrydende algoritme, som er designet til at udtrække og adskille stemmer effektivt i ukendte lydmiljøer.
Visionen om intelligente høreapparater
Mennesker med normal hørelse kan i de fleste tilfælde forstå hinanden uden de store anstrengelser, når de kommunikerer i et støjfyldt miljø. Hvis man derimod har nedsat hørelse, kan det være virkelig svært at forstå og adskille stemmer i støjfyldte omgivelser, og her kan et høreapparat ofte være til hjælp. Der er imidlertid stadig udfordringer inden for generel lydbehandling i hørehjælpemidler, forklarer Morten Kolbæk:
– Når lydbilledet, der omgiver brugeren, er kendt på forhånd, som i visse kliniske test-setups, eksisterer der allerede algoritmer, der er lige så gode som mennesker til at udtrække og adskille talere. I en almindelig lyttesituation uden forudgående kendskab er den menneskelige hjerne dog stadig den bedste ”maskine”.
Det er imidlertid lige nøjagtig det, Morten Kolbæk har arbejdet på at ændre med den nye algoritme.
– På grund af algoritmens evne til at fungere i ukendte miljøer med ukendte stemmer, er dens funktionalitet så meget stærkere, end det vi har set med tidligere teknologi. Det er et vigtigt skridt fremad, når vi taler om løsning af vanskelige lyttesituationer i hverdagen, siger den ene af Morten Kolbæks to vejledere, Jesper Jensen, som er seniorforsker på Oticon og samtidig professor på Center for Akustisk Signalbehandling (CASPR) på AAU.
Professor Zheng-Hua Tan, som ligeledes er tilknyttet CASPR og vejleder på projektet, er enig i algoritmens store potentiale inden for lydforskning.
– Nøglen til denne algoritmes succes er, at den ved at lære fra data, opbygger stærke statistiske modeller, som er i stand til at repræsentere komplekse lyttesituationer. Det fører til løsninger, der fungerer godt selv i nye lyttesituationer, forklarer Zheng-Hua Tan.
Støjreduktion og taleseparation
Helt konkret har Morten Kolbæks ph.d.-projekt beskæftiget sig med to forskellige, men velkendte lyttescenarier.
Det første spor arbejder hen mod at løse udfordringen med samtale på tomandshånd i et støjfyldt rum, fx i en bil. Det er en situation, som høreapparatbrugere oplever hele tiden.
− For at løse dette har vi udviklet algoritmer, som kan forstærke lyden fra den talende og reducere støjen væsentligt uden forudgående kendskab til lyttesituationen. Der findes høreapparater på markedet i dag med præprogrammerede indstillinger til forskellige situationer, men i det virkelige liv varierer miljøet så meget, at man har brug for et høreapparat til at aflæse den specifikke situation, forklarer Morten Kolbæk.
Projektets andet spor handler om taleseparering. I dette scenarie er der flere, der taler, og høreapparatbrugeren kan være interesseret i nogle af dem eller dem alle. Løsningen er en algoritme, som kan adskille stemmerne og fjerne støjen. Det kan betragtes som en forlængelse af første spor; nu med to eller flere stemmer.
− Overordnet kan man sige, at Morten har fundet ud af at skrue på forskellige faktorer for at få algoritmen til at fungere med flere ukendte talende i støjfyldte miljøer. Begge Mortens forskningsspor er signifikante og har tiltrukket stor opmærksomhed, siger Jesper Jensen.
Dybe neurale netværk
Metoden til at skabe de pågældende algoritmer kaldes deep learning, som falder ind i kategorien for maskinlæring. Mere specifikt har Morten Kolbæk arbejdet med dybe neurale netværk, en slags algoritme, som man træner ved at fordre den med eksempler på de signaler, som den vil møde i den virkelige verden.
– Hvis det eksempelvis drejer sig om tale i støj, giver man algoritmen et eksempel på en stemme i et støjfyldt miljø og den samme stemme uden støj. På den måde lærer algoritmen, hvordan den skal behandle det støjfyldte signal for at opnå det rene stemmesignal. Man fodrer netværket med tusindvis af eksempler, og i denne træningsproces lærer det, hvordan det skal behandle en given stemme i et realistisk miljø, forklarer Jesper Jensen.
− Forcen ved deep learning er algoritmernes hierarkiske opbygning, som er i stand til at transformere det støjfyldte eller blandede stemmesignal til rene eller adskilte stemmer ved hjælpe af lag på lag-behandling. Den udbredte brug af deep learning i dag skyldes tre store faktorer: stadigt stigende databehandlingskraft, voksende mængder af datamateriale til at træne algoritmerne på og nye metoder til træning af dybe neurale netværk, siger Zheng-Hua Tan.
En computer bag øret
Én ting er at udvikle algoritmen, en anden er at få den til at virke i et rigtigt høreapparat. Morten Kolbæks algoritme for taleadskillelse virker indtil videre kun i større målestok.
– Med høreapparater er udfordringen altid, at teknologien skal kunne fungere på en lille computer bag øret, og lige nu kræver Mortens algoritme for meget plads til, at det kan lade sig gøre. Og selv hvis Mortens algoritme kan adskille flere ukendte stemmer fra hinanden, beskæftiger den sig ikke med at vælge, hvilken stemme den skal præsentere for høreapparatbrugeren. Så der er nogle praktiske spørgsmål, der skal løses, før vi kan introducere den i en høreapparatløsning. Det vigtigste er dog, at disse problemer nu synes at være til at løse, siger Jesper Jensen.
Cocktailparty-problemet
Normalthørende er ofte i stand til at fokusere på én taler af interesse, selv i akustisk vanskelige situationer, hvor andre personer taler samtidigt. Problemet er kendt som cocktailparty-problemet, og det er et meget aktivt forskningsområde at søge at forstå, hvorledes den menneskelige hjerne er i stand til at løse problemet så godt. Dette ph.d.-projekt er et skridt imod at bygge algoritmer, som endelig kan løse problemet, bemærker Jesper Jensen:
Man hører nogle gange, at cocktailparty-problemet er blevet løst. Det er endnu ikke tilfældet. Den menneskelige hjerne fungerer ekstremt godt i ukendte miljøer, og hvis miljø og stemmer er fuldstændig ukendte, hvilket ofte er tilfældet i virkelighedens verden, kan den eksisterende teknologi ikke matche hjernen. Men Mortens algoritme er et stort skridt i retning mod at gøre maskiner i stand til at fungere og hjælpe normalthørende og personer med hørehandicap i sådanne miljøer, siger Jesper Jensen.