Nyt projekt vil åbne døren til bakteriernes hemmelige verden

Verden gemmer på millioner af ukendte bakterier med uudnyttet potentiale. Nu har forskere fra Aalborg Universitet fået 15 mio. kr. til at sætte skub i kortlægningen af dem. Ved at kombinere nye målemetoder med avanceret maskinlæring og datavidenskab er håbet, at forskerne kan udvikle nye metoder, der muliggør kortlægning af alle bakterier i naturen.

Bakterier spiller en afgørende rolle i utallige processer – fra produktion af fødevarer, medicin og biogas, til direkte påvirkning af klimaet.

I dag kender vi arvematerialet (genom) fra ca. 50.000 forskellige arter af bakterier, men da der vurderes at være mellem 10 og 100 mio., er der stort potentiale i at kortlægge endnu flere. For kun hvis vi kender bakteriernes arvemateriale, kan vi udnytte dem til fulde.

Forskere fra Institut for Kemi og Biovidenskab og Institut for Datalogi på Aalborg Universitet har modtaget 15 mio kr. af VILLUM FONDEN til fortsættelsen af et projekt, der netop skal sætte skub i kortlægningen af de ukendte bakterier. Her kombinerer de deres ekspertise inden for biologi, grafdata og maskinlæring i håb om at revolutionere state-of-the-art på området.

Nyt udstyr kan finde bakteriers særlige karakteristika
I spidsen for arbejdet med mikrobiologien står professor Mads Albertsen, der i en årrække har arbejdet med at gensekventere og kortlægge bakterier i den danske natur. En af de helt store udfordringer ved DNA-sekventering er at finde ud af, hvilken bakterie et bestemt stykke DNA stammer fra. I projektet vil Mads Albertsen derfor implementere nyt måleudstyr, der kan identificere særlige karakteristika ved de enkelte genomer. Han forklarer:

– Der er et kæmpe uudnyttet potentiale i naturen, og vores hypotese er, at vi med det nye udstyr kan adskille DNA på nye måder og dermed gøre det nemmere at differentiere forskellige arter af bakterier. Men når vi begynder at bruge disse metoder, genererer vi så meget data, at vi har brug for avanceret datavidenskab til at trække al værdien ud af det.

Maskinlæring er forudsætningen
Derfor har Mads Albertsen allieret sig med professor Katja Hose og professor MSO Thomas Dyhre Nielsen fra Institut for Datalogi. De har begge stor erfaring med at håndtere massive datamængder.

Thomas Dyhre Nielsen forklarer, at maskinlæring er forudsætningen for, at forskerne på baggrund af de enorme mængder biologisk data kan identificere potentielle nye arter:

–  Vi skal udnytte biologernes oplysninger om, hvordan forskellige DNA-fragmenter er relateret, og det bruger vi til at lave en maskinlæringsmodel, der kan bla. kan gruppere arvematerialet i klynger. Det nye er, at vi vil lave endnu bedre og mere nuancerede grupperinger på baggrund af de nye karakteristika, som Mads og hans hold finder.

Udnytte massive datamængder til udforske de mørke pletter
I jagten på flere bakterier bliver en af grundstenene i projektet at kombinere viden om eksisterende bakterier med massive mængder ekstern data.

Foruden tid og sted kan det være informationer om, hvordan vejret har været, da en specifik jordprøve blev taget, karakteristikker af miljøet omkring prøvestedet eller informationer fra eksterne videns- og databaser, ontologier mm.

Her vil forskerne udnytte vidensgrafer og såkaldte datasøer, der gør det muligt at koble heterogene data og finde nye sammenhænge. Det er Katja Hoses speciale.

– Hvis vi har et kort over Danmark og ved, hvor specifikke bakterier med særlige karakteristika er fundet, kan vi udnytte den data til at forudsige, hvor man kan forvente at finde andre interessante opdagelser. Vi vil med andre ord udvikle metoder til at udforske ”de mørke pletter”.

Grundlaget for fremtidens forskning
På sigt håber forskerne, at deres nye metoder vil danne grundlag for en komplet database, der indeholder et genom per art. Et vigtigt element bliver at sikre, at det ikke kun er eksperter, der kan bruge og udnytte den genererede data.

– Vi skal kunne forklare, hvordan og hvorfor systemet kommer med bestemte svar – hvilken data er blevet brugt, hvor kommer det fra, og hvordan er det blevet håndteret. Hvis brugerne skal stole på et system, er det normalt ikke nok bare at stille en black box til rådighed. Derudover må vi ikke glemme, at data og viden udvikler sig over tid – og det skal systemet også tage højde for, siger Katja Hose.

Projektet løber i de næste fem år, og da forskerne allerede har samlet over 10.000 prøver fra hele Danmark i regi af projektet MicroFlora Danica, er skinnerne ifølge Mads Albertsen lagt:

– Nu skal vi sætte turbo på udviklingen af nye metoder der vil bringe os meget tættere på en komplet genom-database, der er grundlaget for næsten al forskning, hvor bakterier er involveret.

Skriv din mening (Du skal være logget på Facebook)