Scaling up Human-in-the-Loop Machine Learning
- Reference number
- SM24-0054
- Project leader
- Leite, Iolanda
- Start and end dates
- 250101-260630
- Amount granted
- 1 207 570 SEK
- Administrative organization
- KTH - Royal Institute of Technology
- Research area
- Information, Communication and Systems Technology
Summary
Despite the increasing popularity of human-in-the-loop machine learning algorithms in many areas of AI, including robotics, they still have constraints that limit their application in commercial products. These limitations include the large amounts of human input required for model convergence and the disconnect between feedback tasks and real user preferences. This project aims to develop novel methods to improve human-in-the-loop machine learning by making human feedback more scalable, seamless, and engaging, with the ultimate goal of developing more human-aligned systems. The project will be structured into three phases. In phase one, the practical implementation and scalability of existing algorithms for optimizing human feedback will be analyzed within use cases of the video game industry. In phase two, novel interfaces for eliciting implicit human feedback within the learning task will be investigated. In phase three, long-term user feedback will be investigated as a way to explore the personalization of AI systems. This work can positively impact the effectiveness of human-in-the-loop learning algorithms not only in gaming and robotics but also in other areas where human-in-the-loop learning is becoming increasingly popular, such as conversational agents, therefore supporting Sweden’s AI agenda and innovation vision. This mobility also presents an opportunity to build strong connections between KTH and EA, leading to future collaborations and patent applications.
Popular science description
Många av de senaste framstegen inom AI är ganska imponerande, men det finns också fall där de misslyckas, och det är inte hållbart att alltid ha experter i processen. Medan AI-system som lär sig direkt från icke-experter får ökad uppmärksamhet inom fält som robotik, möter de fortfarande utmaningar som hindrar deras tillämpning i kommersiella produkter. Till exempel krävs stora mängder mänskligt input för att effektivt träna dessa system, och det finns en klyfta mellan hur vi för närvarande ger feedback och vad som verkligen speglar våra preferenser. Detta projekt syftar till att överbrygga denna klyfta genom att skala upp hur AI lär sig från människor. Vi avser att skapa metoder som gör mänsklig feedback inte bara mer effektiv utan även mer intuitiv och engagerande, vilket i slutändan leder till AI-system som bättre överensstämmer med våra behov och värderingar. Vi kommer att ta oss an detta mål i tre faser. Först kommer vi att använda datorspel, ofta komplexa miljöer som fokuserar på mänskliga interaktioner och spelas av miljontals människor, för att utvärdera hur nuvarande forskningsalgoritmer för att optimera mänsklig feedback kan tillämpas i större skala. Nästa steg är att utforska nya gränssnitt för att samla in mänsklig feedback implicit, och sömlöst integrera det i användarupplevelsen. Slutligen kommer vi att undersöka hur långsiktiga interaktioner med användare kan bana väg för verkligt personliga AI-system. Effekten av detta arbete kan sträcka sig långt utanför spel och robotik och gynna alla områden där "human-in-the-loop" inlärning blir allt mer relevant, såsom konversations-AI. Genom att driva denna teknik framåt bidrar vi till Sveriges AI-agenda och dess vision för innovation. Dessutom syftar detta projekt till att stärka samarbetet mellan KTH och Electronic Arts, vilket öppnar dörrar för framtida samarbeten och banbrytande framsteg inom området.