ML-Earth: Robust and data-efficient machine learning for EO
- Reference number
- FID24-0012
- Project leader
- Pirinen, Aleksis
- Start and end dates
- 250801-290731
- Amount granted
- 3 250 000 SEK
- Administrative organization
- RISE Digitala System
- Research area
- Computational Sciences and Applied Mathematics
Summary
The ML-Earth doctoral project will develop novel robust and data-efficient machine learning (ML) approaches for Earth observation (EO) data. Several data-efficiency techniques (e.g. weakly and self-supervised learning) will be developed to significantly improve the robustness and accuracy of models under different data availability regimes. We will also develop privileged learning approaches to enable model deployment based on readily available inputs, e.g. satellite imagery, while training on a larger but less readily available set of inputs, e.g. height and soil cover maps. This will result in models that are more widely applicable across the globe, even in more data-scarce regions where contemporary models are inadequate. ML-Earth runs for 4 years, with an international collaboration (ESA) already during the first year. Licentiate and doctoral theses will be defended at the end of year 2 and 4, respectively. Several real-world use-cases will be explored with several stakeholders and collaborators (including international ones) during the latter half of ML-Earth. We expect this project to enable more efficient training and deployment of ML models under various circumstances that are relevant in real-world use cases, in both industry and the public sector, which significantly increases the practical usefulness of such models. The research questions will address fundamental problems within ML for EO, and findings will be published in peer-reviewed journals and conferences.
Popular science description
Mängden jordobservationsdata (JO-data) – det vill säga ovanifrån tagen bilddata, t.ex. från satelliter eller drönare – har ökat markant under senare år, bl.a. till följd av en ökad insikt om dess många tillämpningsområden, särskilt inom klimat och miljö, men även mer brett inom exempelvis socioekonomiska analyser och prediktivt underhåll av infrastruktur. Potentialen hos JO-data har snappats upp inte minst inom en europeisk kontext (t.ex. genom EU:s flaggskeppsinitativ Destination Earth) och i Sverige (t.ex. genom plattformen Digital Earth Sweden). Parallellt med detta har det utvecklats många nya AI-metoder för denna datatyp och dess tillämpningar. Dessa metoder baseras oftast på djup maskininlärning, som handlar om att man ställer in (tränar) en AI-modell baserat på stora mängder data och annoteringar, så att modellen lär sig relevanta egenskaper hos datan och kan dra olika slutsatser. Annoteringar är av människor framtagna beskrivningar av datan. Det kan t.ex. handla om att experter markerar i satellitbilder var olika typer av skogar, våtmarker, kustområden med mera finns, så att en AI-modell kan lära sig känna igen olika ekosystem. Att ta fram annoteringar är ofta tidskrävande och dyrt, så det finns ett stort värde i att utveckla metoder som resulterar i träffsäkra AI-modeller men som kräver så lite annoterad data som möjligt. I detta 4-åriga doktorandprojekt, förkortat ML-Earth, är ett av huvudfokusen därför att utveckla nya annoteringseffektiva AI-metoder för JO-baserade analyser och prediktioner. Utöver annoteringar finns även andra typer av data som man kan nyttja för att en AI-modell ska “lära sig” så bra som möjligt. Projektet, som kommer genomföras tillsammans med nationella och internationella samarbetspartners, kommer resultera i nya metoder som gör det möjligt att använda AI-modeller baserat på lättillgänglig indata (t.ex. satellitdata), men som tränas upp baserat på en rikare mängd indata (t.ex. höjd- och marktäckekartor utöver satellitbilder). Detta kommer öka flexibiliteten och robustheten hos AI-modellerna markant, eftersom de kan användas med hög träffsäkerhet även där mindre indata finns att tillgå, exempelvis i delar av världen som till följd av t.ex. mindre ekonomiska resurser har sämre möjligheter att samla in tillräckligt med data. Med andra ord kommer projektet direkt bidra till en mer utbredd och rättvis tillgång till tillförlitliga AI-modeller för olika former av JO-analyser.