Hoppa till innehåll
EN In english

Automatisk tolkning av multimodalt mediainnehåll

Diarienummer
ID19-0055
Start- och slutdatum
200101-241231
Beviljat belopp
2 500 000 kr
Förvaltande organisation
Umeå University
Forskningsområde
Beräkningvetenskap och tillämpad matematik

Summary

Processautomatisering i Digital Media gagnas av artificiell intelligens som har en semantisk, eller mänsklig, förståelse av media. En del av utmaningen är att mediainnehållet vanligtvis är mulitmodalt i det att det kombinerar text, bilder och ljud. Att automatiskt lära sig tolka är en ny utmaning inom maskininlärning. I det här projektet utvecklar vi algoritmer som översätter multimodalt innehåll till semantiska representationer i form av grafer som är användbara för fortsatt algoritms bearbetning. Projektet ledes av Prof. Frank Drewes, vid Umeå Universitet, tillsammans med AI & ML teamet på Codemill AB, representerade av företagets Dr. Mona Forsman. Drewes är en internationell expert på graf-baserade beräkningar; Codemill levererar produkter och tjänster till mediaindustrin, och räknar företag som BBC, the Guardian, ProSieben, och Disney, bland sina kunder. Den centrala idén är att kombinera det bästa från områdena finita automater och representationsinlärning. Det första området bidrar med transparens, diskret kategorisering, och kontextfria mönster; det andra med kompakt representation och enkel härledning från data. Projektets resultat kommer att vara till nytta för, bland annat, automatisk handel av digitalt annonsutrymme, mediala rekommendationssystem, och för extraktion av kunskapsgrafer.

Populärvetenskaplig beskrivning

För att automatisera hanteringen av digital media måste datorer kunna tolka innehållet, som ofta är multimodalt i det att det kombinerar, text, bild, och ljud. Lösningen kan vara en kombination av klassiska datalogiska tekniker, tillsammans med nya koncept som representationsinlärning och neurala nätverk. I det här projektet kombinerar och utvecklar vi dessa tekniker för att analysera och behandla sammansatta mediaobjekt, t.ex. en websida med text och bilder, eller en video med bild- och ljudspår. Den resulterande teknologin erbjuder maskinellt stöd för många uppgifter som annars skulle kräva manuell hantering, vilket kommer att öka hastigheten och kapaciteten hos de övergripande arbetsflödena. Ett intressant tillämpningsområde är extraktion av kunskapsgrafer från data, ett annat automatisk matchning av annonser med relevanta sammanhang. Projektet leds av Prof. Frank Drewes, vid Umeå Universitet, tillsammans med AI & ML teamet på Codemill AB, representerade av Dr. Mona Forsman. Drewes är en internationell expert på graf-baserade beräkningar; Codemill levererar produkter och tjänster till mediaindustrin, och räknar företag som BBC, the Guardian, ProSieben, och Disney, bland sina kunder.