Hoppa till innehåll
EN In english
Publicerad

En bild säger mer än tusen ord

Ingen dator kan mäta sig med människans förmåga att känna igen motiv i bilder. Men datorseendet utvecklas kontinuerligt med hjälp av avancerad matematik, Fredrik Kahls forskningsområde.

Föreställ dig att du en tidig morgon står på en av Lunds gator. Du tar upp din mobiltelefon och fotograferar ett av trafikljusen som övervakar det enda övergångstället som finns på just den här gatan. Bilden skickar du sen till Fredrik Kahl på Matematikcentrum vid Lunds tekniska högskola med textmeddelandet: ”Var exakt på gatan står jag?”. Efter en stund får du ett svar med en exakt beskrivning av var du står. Detta är en av tillämpningarna av Fredriks forskning, som syftar till att utveckla matematiska metoder som kan användas inom datorseende. Hans intresse för bildtolkning väcktes när han läste till civilingenjör med inriktning mot datateknik.

– Det startades en ny kurs i bildanalys som jag valde att läsa, berättar Fredrik. Och eftersom jag alltid har varit intresserad av geometriska problem var bildanalys ett område som passade mig.

Den kursen banade väg för Fredriks kommande karriär, som började med doktorandstudier inom bildanalys på matematiska institutionen vid Lunds universitet. Efter disputationen spenderade Fredrik några år utomlands, först vid Australian National University i Canberra och därefter på University of California, San Diego.

Måste bli hundra gånger duktigare

Tillbaka i Lund har han nu en forskargrupp som består av fyra doktorander och en senior forskare. I ett av doktorandprojekten har alla vinklar och vrår av en gata i Lund fotograferats. Med hjälp av dessa fotografier har en tredimensionell bild av gatan byggts upp. Med modellen kan Fredrik avgöra, utifrån ett digitalt foto av något objekt på gatan, var fotografen stod.

En annan tillämpning är bildtolkning, alltså att känna igen motiv i en digital bild. Motiven kan vara hästar, blommor, ansikten, bilar. En människa kan känna igen ungefär 30 000 kategorier av motiv.

– En dator kan idag känna igen fem till tio olika kategorier av motiv. Målet är att utöka den mängden till åtminstone tusen olika kategorier.

Ifall Fredrik lyckas kan bildtolkning användas till att söka efter bilder på Internet enligt samma princip som textsökning fungerar.

­– I en bildsamling skulle då datorn kunna ta fram alla bilder som föreställer exempelvis en påsklilja. Först genom att sortera ut alla bilder med blommor och sen avgöra vilka som är gula och har formen av en påsklilja.

Lär sig av erfarenhet

– Datorseende handlar mycket om att dra slutsatser om hur ett objekt ser ut i tre dimensioner genom att använda tvådimensionella digitala bilder av objektet.

Hos människor och djur sker detta omedvetet, och därför samarbetar Fredriks grupp med zoologer som försöker förklara hur det biologiska seendet fungerar. Om Fredrik har en hypotes om hur datorseende fungerar, kan den jämföras med hur biologiskt seende faktiskt fungerar.

– Vi vill att datorn ska kunna härma människans seende, så att den också kan tolka och förstå bilder automatiskt.

Ett viktigt verktyg för detta är inlärning. I stället för att med matematiska formler beskriva för datorn hur ett ansikte är uppbyggt med ögon, näsa och mun, får datorn lära sig att känna igen ett ansikte utifrån tidigare erfarenheter.

– Vi matar in en massa bilder på olika ansikten och därefter konstruerar vi formler så att datorn kan känna igen gemensamma drag för dessa ansikten, berättar Fredrik. Så när en ny bild av ett ansikte dyker upp kan datorn känna igen att här är en bild med typiska drag av ett ansikte, alltså måste detta vara ett ansikte.

Sålla bland data

Ett problem med bildanalys är att det rör sig om stora mängder data. Därför är optimering en viktig frågeställning för Fredrik.

– En bild består av miljontals pixlar, så det är viktigt att datorn bara analyserar de delar av bilden som är viktiga.

När bilderna på gatan i Lund tolkas, måste all onödig information sållas bort. Bilar, människor, hur vädret är och om det är dag eller natt är oviktigt.

– Vi vill att datorn ska känna igen och fokusera på de delar i bilden som inte ändrar sig, till exempel strukturen på husväggarna, sprickor i gatan eller gatuskyltar. Allt som är fast utgör typiska tecken och gör att platsen känns igen

Eureka på morgonkvisten

Fredrik jobbar i Lund, men han bor i Malmö. Närmare bestämt i närheten av den omtalade skyskrapan Turning Torso. Den tid som Fredrik inte spenderar på Lunds universitet ägnas bland annat åt läsning. Dock rider han inte på den svenska deckarvågen.

– Jag gillar inte deckare eller klassiker heller för den delen, säger Fredrik bestämt. Helst läser jag familjedramer med tragiska slut, som Tillrättalägganden av amerikanen Jonathan Franzén.

Fredrik spelar också squash, golf och tennis, samt umgås med vänner. Dessutom åker han ofta upp till västkusten för att hälsa på flickvännen Irina som bor och jobbar som läkare i Göteborg.

För att hålla motivationen och forskningsintresset uppe undviker Fredrik att engagera sig i för många kommittéer och annat på universitetet som tar mycket tid och energi. Dessutom försöker han inte handleda för många doktorander samtidigt, eftersom han vill kunna ägna sig åt egna projekt.

– Jag vill försöka att jobba med egna projekt ibland, men i praktiken blir det oftast så att idéer som föds i något av mina projekt i slutändan utvecklas till doktorandprojekt.

Även om en stor del av arbetsdagen går åt till praktisk handledning av doktorander, så spenderar Fredrik en hel del tid med att bara sitta och tänka för att försöka hitta lösningar på problem. Det händer dock ganska ofta att problemen får sin lösning på morgonen, precis när Fredrik slår upp ögonen. Och för att inte gå miste om potentiella guldkorn har han en forskningsbok där han antecknar sina idéer.

– Man vill ju inte tappa bort bra idéer, avslutar Fredrik och skrattar.

Text: Elisabet Vikeved