Health Bank avidentifiering och dess praktiska användning
- Diarienummer
- SM20-0008
- Start- och slutdatum
- 210101-221231
- Beviljat belopp
- 1 110 405 kr
- Förvaltande organisation
- Stockholm University
- Forskningsområde
- Informations-, kommunikations- och systemteknik
Summary
Målet med denna mobilitet från en akademisk miljö inom data- och systemvetenskap till en hälsovårdsmiljö inom en region i Sverige är att leda till praktisk användning av metoder för avidentifiering av klinisk fritext skriven på svenska. Detta kommer i sin tur möjliggöra att patienters identitet inte kommer att röjas, och data som beskriver symptom och diagnoser och utfall av behandlingen mm, kan användas på ett säkert sätt för medicinsk forskning, för tex Covid-19. Samtidigt kommer krav och utmaningar från hälsovården på system för avidentifiering och röjandekontroll föras tillbaka till akademin för att studeras. Arbetet kommer att genomföras genom att programvara för avidentifiering, HB Deid, installeras på servrar på Centrum för Hälsodata på Region Stockholm, som sköter utlämnade av data till forskning, och dels på de interna IT-systemen för Karda, på Karolinska Universitetssjukhuset. HB Deid kommer att exekveras på klinisk text där och resultatet evalueras. Workshops kommer hållas för personal på Region Stockholm där metoderna för avidentifiering kommer att beskrivas och resultaten av utvärderingen kommer diskuteras, nya krav på prestanda och format på data kommer tas fram och dokumenteras. De förväntade resultaten kommer att höja kompetensen om avidentifiering hos personal på Region Stockholm, samtidigt som deras krav på ett praktiskt fungerade avidentifieringsystem kan samlas in och föras tillbaka till akademin för att lösas där i forskningsmiljön.
Populärvetenskaplig beskrivning
Idag produceras en stor mängd medicinska patientjournaler på svenska inom sjukvården. Dessa journaler innehåller värdefull information såsom diagnos, behandling och utfall av en stor mängd sjukdomar. Patientjournalerna är skrivna av en stor mängd kunnig personal och används för att dokumentera vården, tyvärr så återanvänds sällan denna fria text dels för att den svår att bearbeta för datorer och dels eftersom den innehåller känslig information som kan identifiera enskilda individer. I detta strategiska mobilitetsprojekt ska programvara (HB Deid) som utvecklats inom akademin för att avidentiera personuppgifter i fritext som personnamn, adresser, platser, telefonnummer men även datum och sjukvårdsenheter tillämpas på IT-system inom sjukvården speciellt inom Region Stockholm. Avidentifiering av text skriven på svenska kräver system som klarar av svenska språket, därför har det inte varit möjligt att utnyttja programvara som utvecklats för andra språk. HB Deid bygger dels på Artificiell Intelligens genom att den har tränats på manuellt uppmarkerade patientjournaler men den använder sig också av manuellt skrivna regler för att identifiera regelbundna begrepp som telefonnummer och personnummer. När HB Deid identifierat ett begrepp i en patientjournal tex ett förnamn, så kan den välja att maska förnamnet, byta ut det mot ett annat förnamn eller att markera upp att här har det funnits ett förnamn. Projektet syftar till att tillgängliggöra klinisk fritext skriven på svenska dels för att kunna utveckla nya språkteknologiska verktyg för denna typ av text och dels för medicinsk forskning, utan att riskera att avslöja identiteten på patienter. Den avidentifierade fria texten kan då användas i kombination med det strukturerade information i patientjournalen för att kunna hitta effektiva tidiga behandlingar av tex Covid 19, tidiga symptom på tex cancer, biverkningar av läkemedel och andra undvikbara händelser som vårdrelaterade infektioner.