Shaip jest teraz częścią ekosystemu Ubiquity: Ten sam zespół, teraz z rozszerzonymi zasobami, który może obsługiwać klientów na dużą skalę. |
Usuń nieustrukturyzowane dane dotyczące opieki zdrowotnej

Pełnoprawny przewodnik: usuwanie nieustrukturyzowanych danych opieki zdrowotnej

Analiza ustrukturyzowanych danych może pomóc w lepszej diagnostyce i opiece nad pacjentem. Jednak analiza nieustrukturyzowanych danych może napędzać rewolucyjne przełomy i odkrycia medyczne.

To jest sedno tematu, który będziemy dziś omawiać. Bardzo interesujące jest obserwowanie, że tak wiele radykalnych postępów w przestrzeni technologii opieki zdrowotnej miało miejsce przy zaledwie 10-20% użytecznych danych opieki zdrowotnej.

Statystyki pokazują, że ponad 90% danych w tym spektrum jest niestrukturalnych, co oznacza, że ​​dane są mniej użyteczne i trudniejsze do zrozumienia, zinterpretowania i zastosowania. Od danych analogowych, takich jak recepta lekarska, po dane cyfrowe w postaci obrazowania medycznego i danych audiowizualnych, niestrukturalne dane są różnego rodzaju.

Takie ogromne fragmenty niestrukturyzowanych danych są domem dla niesamowitych spostrzeżeń, które mogą przyspieszyć postęp w opiece zdrowotnej o dziesięciolecia. Niezależnie od tego, czy chodzi o pomoc w odkrywaniu leków na krytyczne, zagrażające życiu choroby autoimmunologiczne, czy o dane, które mogą pomóc firmom ubezpieczeniowym w zakresie opieki zdrowotnej w ocenie ryzyka, niestrukturyzowane dane mogą utorować drogę nieznanym możliwościom.

Gdy takie ambicje są realizowane, interpretowalność i interoperacyjność danych opieki zdrowotnej stają się kluczowe. Dzięki rygorystycznym wytycznym i egzekwowaniu zgodność z przepisami takie jak RODO i HIPAA, nieuniknione staje się anonimizacja danych opieki zdrowotnej.

O demistyfikacji pisaliśmy już w obszernym artykule ustrukturyzowane dane dotyczące opieki zdrowotnej oraz niestrukturyzowane dane dotyczące opieki zdrowotnej. Jest poświęcony temu (przeczytaj obszerny) artykuł anonimizacja danych opieki zdrowotnej również. Zachęcamy do przeczytania ich w celu uzyskania całościowych informacji, ponieważ będziemy mieć ten artykuł w specjalnym wydaniu na ten temat deidentyfikacja niestrukturalnych danych

Wyzwania związane z deidentyfikacją nieustrukturyzowanych danych

Jak sama nazwa wskazuje, niestrukturyzowane dane nie są uporządkowane. Są rozproszone pod względem formatów, typów plików, rozmiarów, kontekstu i innych. Sam fakt, że niestrukturyzowane dane występują w formie audio, tekstu, obrazowania medycznego, wpisów analogowych i innych, sprawia, że ​​zrozumienie identyfikatorów informacji osobistych (PII), które są niezbędne w deidentyfikacja niestrukturalnych danych.

Aby dać Ci pogląd na podstawowe wyzwania, oto krótka lista:

Wyzwania związane z deidentyfikacją nieustrukturyzowanych danych

  • Rozumienie kontekstowe – gdzie interesariuszowi AI trudno jest zrozumieć konkretny kontekst stojący za konkretną częścią lub aspektem niestrukturyzowanych danych. Na przykład zrozumienie, czy nazwa jest nazwą firmy, nazwą osoby czy nazwą produktu, może powodować dylemat, czy powinna zostać zanonimizowana.  
  • Dane nietekstowe – gdzie identyfikacja sygnałów dźwiękowych lub wizualnych dotyczących nazw lub danych osobowych może być zadaniem trudnym, ponieważ interesariusz może musieć przesiedzieć wiele godzin nad materiałami filmowymi lub nagraniami, próbując zamaskować kluczowe aspekty. 
  • Dwuznaczność – dotyczy to w szczególności danych analogowych, takich jak recepta lekarska lub wpis szpitalny w rejestrze. Od pisma ręcznego po ograniczenia ekspresji w języku naturalnym, może to sprawić, że de-identyfikacja danych stanie się złożonym zadaniem. 

Najlepsze praktyki w zakresie deidentyfikacji danych niestrukturalnych

Proces usuwania danych osobowych z danych niestrukturalnych znacznie różni się od ustrukturyzowane dane, deidentyfikacja ale nie jest to niemożliwe. Poprzez systematyczne i kontekstowe podejście, potencjał niestrukturalnych danych może być płynnie wykorzystany. Przyjrzyjmy się różnym sposobom, w jakie można to osiągnąć. 

Najlepsze praktyki w zakresie usuwania danych niestrukturalnych i ich identyfikacji

Redakcja obrazu: Dotyczy to danych obrazowania medycznego i obejmuje usuwanie identyfikatorów pacjentów oraz rozmywanie odniesień anatomicznych i części obrazów. Są one zastępowane znakami specjalnymi, aby nadal zachować funkcjonalność diagnostyczną i użyteczność danych obrazowania. 

Dopasowanie wzoru: Niektóre z najczęstszych danych osobowych, takie jak imiona, dane kontaktowe i adresy, można wykryć i usunąć dzięki analizie wstępnie zdefiniowanych wzorców. 

Prywatność różnicowa lub zaburzenie danych: Obejmuje to włączenie kontrolowanego szumu w celu ukrycia danych lub atrybutów, które można powiązać z daną osobą. Ta idealna metoda nie tylko zapewnia deidentyfikację danych, ale także zachowanie statystycznych właściwości zbioru danych do analiz. 

Anonimizacja danych: Jest to jeden z najbardziej niezawodnych i skutecznych sposobów usuwania PII z niestrukturyzowanych danych. Można to wdrożyć na jeden z dwóch sposobów:

  • Nadzorowana nauka – gdzie model jest trenowany w celu klasyfikowania tekstu lub danych jako PII lub nie-PII
  • Uczenie się bez nadzoru – gdzie model jest szkolony w celu autonomicznego uczenia się wykrywania wzorców w celu identyfikacji PII

Metoda ta zapewnia ochronę prywatność pacjenta jednocześnie zachowując ludzką interwencję w najbardziej redundantnych aspektach zadania. Interesariusze i dostawcy danych opieki zdrowotnej wdrażający techniki ML w celu deidentyfikacji nieustrukturyzowanych danych mogą po prostu mieć proces zapewnienia jakości wspomagany przez człowieka, aby zapewnić uczciwość, trafność i dokładność wyników. 

Maskowanie danych: Maskowanie danych to cyfrowa gra słów mająca na celu usunięcie elementów pozwalających na identyfikację danych dotyczących opieki zdrowotnej. Polega ona na tym, że konkretne identyfikatory stają się ogólne lub niejasne za pomocą specjalistycznych technik, takich jak:

  • Tokenizacja – polegający na zastąpieniu PII znakami lub tokenami
  • Uogólnienie – poprzez zastąpienie konkretnych wartości PII wartościami ogólnymi/niejasnymi
  • Tasowanie – mieszając dane osobowe, aby uczynić je niejednoznacznymi

Jednak ta metoda ma pewne ograniczenie, ponieważ dzięki zaawansowanemu modelowi lub podejściu dane mogą zostać ponownie zidentyfikowane

Outsourcing do graczy rynkowych

Jedyne właściwe podejście do zapewnienia procesu deidentyfikacja niestrukturalnych danych jest szczelny, niezawodny i zgodny z wytycznymi HIPAA, polega na zleceniu zadań niezawodnemu dostawcy usług, takiemu jak SzaipDzięki najnowocześniejszym modelom i sztywnym protokołom zapewnienia jakości zapewniamy nadzór ludzki nad prywatnością danych jest łagodzony w każdym czasie.

Będąc od lat przedsiębiorstwem dominującym na rynku, rozumiemy krytyczność Twoich projektów. Skontaktuj się z nami już dziś, aby zoptymalizować swoje ambicje w zakresie opieki zdrowotnej dzięki danym medycznym odtajnionym przez Shaip.

Podziel społecznej