Go to content
SV På svenska

Automatic Understanding of Multimodal Media Content

Reference number
ID19-0055
Project leader
Drewes, Frank
Start and end dates
200101-241231
Amount granted
2 500 000 SEK
Administrative organization
Umeå University
Research area
Computational Sciences and Applied Mathematics

Summary

Process automation in digital media leverages Artificial Intelligence systems that have a semantic, or human-like, understanding of content. The content is multimodal, combining text, images and sound, and understanding them in combination poses new challenges requiring new Machine Learning techniques. In the proposed project, we develop algorithms that translate multimodal content into graph-based semantic representations that are suitable for continued algorithmic processing. The project consortium consists of Prof. Frank Drewes at Umeå University, together with the Artificial Intelligence & Machine Learning team at Codemill AB, represented by dr Mona Forsman. Drewes is an internationally recognized expert on graph processing; Codemill delivers products and services for the media supply chain, and cater to customers such as the BBC, the Guardian, ProSieben, and Disney. The central idea of the project is to combine the best that automata theory and representation learning have to offer: transparency, discrete categorisation, and context-free patterns on the side of the former; compact representation and easy derivation from data on the side of the later. The project results will be useful for, among other things, automatic trading of digital ad space, media recommender systems, and knowledge graph extraction.

Popular science description

För att automatisera hanteringen av digital media måste datorer kunna tolka innehållet, som ofta är multimodalt i det att det kombinerar, text, bild, och ljud. Lösningen kan vara en kombination av klassiska datalogiska tekniker, tillsammans med nya koncept som representationsinlärning och neurala nätverk. I det här projektet kombinerar och utvecklar vi dessa tekniker för att analysera och behandla sammansatta mediaobjekt, t.ex. en websida med text och bilder, eller en video med bild- och ljudspår. Den resulterande teknologin erbjuder maskinellt stöd för många uppgifter som annars skulle kräva manuell hantering, vilket kommer att öka hastigheten och kapaciteten hos de övergripande arbetsflödena. Ett intressant tillämpningsområde är extraktion av kunskapsgrafer från data, ett annat automatisk matchning av annonser med relevanta sammanhang. Projektet leds av Prof. Frank Drewes, vid Umeå Universitet, tillsammans med AI & ML teamet på Codemill AB, representerade av Dr. Mona Forsman. Drewes är en internationell expert på graf-baserade beräkningar; Codemill levererar produkter och tjänster till mediaindustrin, och räknar företag som BBC, the Guardian, ProSieben, och Disney, bland sina kunder.