Robust och dataeffektiv maskininlärning för jordobservation
- Diarienummer
- FID24-0012
- Projektledare
- Pirinen, Aleksis
- Start- och slutdatum
- 250801-290731
- Beviljat belopp
- 3 250 000 kr
- Förvaltande organisation
- RISE Digitala System
- Forskningsområde
- Beräkningvetenskap och tillämpad matematik
Summary
Doktorandprojektet ML-Earth kommer utveckla nya robusta och dataeffektiva maskininlärningsmetoder (ML-metoder) för jordobservationsdata (JO-data). Vi kommer bland annat att utveckla metoder baserade på s.k. privilegierad inlärning, vilket gör det möjligt att använda ML-modeller givet endast lättillgängliga data, exempelvis satellitbilder, genom att modellerna tränas på en större men mindre lättillgänglig uppsättning data, t.ex. höjd- och jordtäckedata. Detta kommer resultera i modeller som är mer tillämpbara globalt, även i regioner som saknar vissa relevanta data och där nuvarande modeller är otillräckliga. Flera andra dataffektivitetstekniker kommer också utvecklas för dessa syften. ML-Earth pågår i 4 år, med internationellt samarbete (ESA) redan under det första året. Licentiat- och doktorsavhandlingar kommer försvaras i slutet av år 2 respektive år 4. Flera verkliga användarfall kommer undersökas i samarbete med olika aktörer och samarbetspartners (inklusive internationella) under den senare hälften av projektet. Vi förväntar oss att detta projekt kommer möjliggöra effektivare träning och implementering av ML-modeller under olika förhållanden som är relevanta för verkliga tillämpningar, både inom industri och offentliga sektor, vilket avsevärt ökar modellernas praktiska användbarhet. Forskningsfrågorna kommer adressera grundläggande problem inom ML för JO-data, och resultaten kommer publiceras i fackgranskade tidskrifter och konferenser.
Populärvetenskaplig beskrivning
Mängden jordobservationsdata (JO-data) – det vill säga ovanifrån tagen bilddata, t.ex. från satelliter eller drönare – har ökat markant under senare år, bl.a. till följd av en ökad insikt om dess många tillämpningsområden, särskilt inom klimat och miljö, men även mer brett inom exempelvis socioekonomiska analyser och prediktivt underhåll av infrastruktur. Potentialen hos JO-data har snappats upp inte minst inom en europeisk kontext (t.ex. genom EU:s flaggskeppsinitativ Destination Earth) och i Sverige (t.ex. genom plattformen Digital Earth Sweden). Parallellt med detta har det utvecklats många nya AI-metoder för denna datatyp och dess tillämpningar. Dessa metoder baseras oftast på djup maskininlärning, som handlar om att man ställer in (tränar) en AI-modell baserat på stora mängder data och annoteringar, så att modellen lär sig relevanta egenskaper hos datan och kan dra olika slutsatser. Annoteringar är av människor framtagna beskrivningar av datan. Det kan t.ex. handla om att experter markerar i satellitbilder var olika typer av skogar, våtmarker, kustområden med mera finns, så att en AI-modell kan lära sig känna igen olika ekosystem. Att ta fram annoteringar är ofta tidskrävande och dyrt, så det finns ett stort värde i att utveckla metoder som resulterar i träffsäkra AI-modeller men som kräver så lite annoterad data som möjligt. I detta 4-åriga doktorandprojekt, förkortat ML-Earth, är ett av huvudfokusen därför att utveckla nya annoteringseffektiva AI-metoder för JO-baserade analyser och prediktioner. Utöver annoteringar finns även andra typer av data som man kan nyttja för att en AI-modell ska “lära sig” så bra som möjligt. Projektet, som kommer genomföras tillsammans med nationella och internationella samarbetspartners, kommer resultera i nya metoder som gör det möjligt att använda AI-modeller baserat på lättillgänglig indata (t.ex. satellitdata), men som tränas upp baserat på en rikare mängd indata (t.ex. höjd- och marktäckekartor utöver satellitbilder). Detta kommer öka flexibiliteten och robustheten hos AI-modellerna markant, eftersom de kan användas med hög träffsäkerhet även där mindre indata finns att tillgå, exempelvis i delar av världen som till följd av t.ex. mindre ekonomiska resurser har sämre möjligheter att samla in tillräckligt med data. Med andra ord kommer projektet direkt bidra till en mer utbredd och rättvis tillgång till tillförlitliga AI-modeller för olika former av JO-analyser.