Go to content
SV På svenska

Health Bank deidentification tool and its practical use

Reference number
SM20-0008
Start and end dates
210101-221231
Amount granted
1 110 405 SEK
Administrative organization
Stockholm University
Research area
Information, Communication and Systems Technology

Summary

The goal of this mobility from an academic environment in computer and systems science to a healthcare environment within a region in Sweden is to enable the practical use of methods for de-identification of clinical free text written in Swedish. This in turn will avoid that the identity of patients will be revealed, and data describing symptoms, diagnosis and the outcome of the treatment may be used safely for medical research e.g. Covid-19, in turn requirements and challenges from the healthcare on systems for de-identification and disclosure control will be brought back to the academy to study. The work will be carried out by installing the de-identification software, HB Deid, on servers at Centrum för Hälsodata at Region Stockholm, which delivers data for research, and at the internal IT systems for Karda, at Karolinska University Hospital. HB Deid will be executed on clinical text there and the results evaluated. Workshops will be held for personnel at the Region Stockholm where methods for de-identification will be described and the results of the evaluation will be discussed, new requirements for the performance of the system and data formats will be documented. The expected results will increase the knowledge in de-identification methods for the personell at Region Stockholm, at the same time their requirements for a practically functioning de-identification system will be gathered and brought back to the academy to be solved there in a research environment.

Popular science description

Idag produceras en stor mängd medicinska patientjournaler på svenska inom sjukvården. Dessa journaler innehåller värdefull information såsom diagnos, behandling och utfall av en stor mängd sjukdomar. Patientjournalerna är skrivna av en stor mängd kunnig personal och används för att dokumentera vården, tyvärr så återanvänds sällan denna fria text dels för att den svår att bearbeta för datorer och dels eftersom den innehåller känslig information som kan identifiera enskilda individer. I detta strategiska mobilitetsprojekt ska programvara (HB Deid) som utvecklats inom akademin för att avidentiera personuppgifter i fritext som personnamn, adresser, platser, telefonnummer men även datum och sjukvårdsenheter tillämpas på IT-system inom sjukvården speciellt inom Region Stockholm. Avidentifiering av text skriven på svenska kräver system som klarar av svenska språket, därför har det inte varit möjligt att utnyttja programvara som utvecklats för andra språk. HB Deid bygger dels på Artificiell Intelligens genom att den har tränats på manuellt uppmarkerade patientjournaler men den använder sig också av manuellt skrivna regler för att identifiera regelbundna begrepp som telefonnummer och personnummer. När HB Deid identifierat ett begrepp i en patientjournal tex ett förnamn, så kan den välja att maska förnamnet, byta ut det mot ett annat förnamn eller att markera upp att här har det funnits ett förnamn. Projektet syftar till att tillgängliggöra klinisk fritext skriven på svenska dels för att kunna utveckla nya språkteknologiska verktyg för denna typ av text och dels för medicinsk forskning, utan att riskera att avslöja identiteten på patienter. Den avidentifierade fria texten kan då användas i kombination med det strukturerade information i patientjournalen för att kunna hitta effektiva tidiga behandlingar av tex Covid 19, tidiga symptom på tex cancer, biverkningar av läkemedel och andra undvikbara händelser som vårdrelaterade infektioner.