Wyobraźmy sobie scenariusz, w którym naukowcy opracowują nowy lek. Do testów potrzebują obszernych danych pacjentów, istnieją jednak poważne obawy dotyczące prywatności i dostępności danych.
W tym przypadku rozwiązaniem są dane syntetyczne. Zapewnia realistyczne, ale całkowicie sztuczne zbiory danych, które naśladują właściwości statystyczne rzeczywistych danych pacjentów. Takie podejście umożliwia kompleksowe badania bez narażania poufności pacjenta.
Donald Rubin był pionierem koncepcji danych syntetycznych na początku lat 90-tych. Wygenerował anonimowy zbiór danych obejmujący odpowiedzi ze spisu ludności USA, odzwierciedlający właściwości statystyczne rzeczywistych danych ze spisu ludności. To oznaczało utworzenie jednego z pierwszych syntetycznych zbiorów danych która jest ściśle zgodna ze statystykami ludności wynikającymi ze spisu ludności.
Zastosowanie danych syntetycznych szybko nabiera tempa. Accenture uznaje to za kluczowy trend w naukach o życiu i MedTech. Podobnie, Prognozy Gartnera że do 2024 r. dane syntetyczne będą stanowić 60% wykorzystania danych.
W tym artykule porozmawiamy o danych syntetycznych w opiece zdrowotnej. Zbadamy jego definicję, sposób jego generowania i możliwe zastosowania.
Czym są dane syntetyczne w opiece zdrowotnej?
Oryginalne dane:
Identyfikator pacjenta: 987654321
Wiek: 35
Płeć: Mężczyzna
Wyścig: Biały
Pochodzenie: Latynosi
Historia medyczna: Nadciśnienie, cukrzyca
Aktualne lekarstwa: Lizynopryl, metformina
Wyniki laboratoryjne: Ciśnienie krwi 140/90 mmHg, poziom cukru we krwi 200 mg/dL
Diagnoza: Cukrzyca typu 2
Dane syntetyczne:
Identyfikator pacjenta: 123456789
Wiek: 38
Płeć: Kobieta
Wyścig: Czarny
Pochodzenie: Nie-Latynosi
Historia medyczna: Astma, depresja
Aktualne lekarstwa: Albuterol, fluoksetyna
Wyniki laboratoryjne: Ciśnienie krwi 120/80 mmHg, poziom cukru we krwi 100 mg/dL
Diagnoza: Astma
Dane syntetyczne w opiece zdrowotnej oznacza sztucznie wygenerowane dane, które symulują rzeczywiste dane dotyczące zdrowia pacjenta. Tego typu dane tworzone są za pomocą algorytmów i modeli statystycznych. Został zaprojektowany tak, aby odzwierciedlał złożone wzorce i cechy rzeczywistych danych dotyczących opieki zdrowotnej. Nie odnosi się jednak do żadnych rzeczywistych osób, chroniąc w ten sposób prywatność pacjentów.
Tworzenie danych syntetycznych polega na analizie rzeczywistych zbiorów danych pacjentów w celu zrozumienia ich właściwości statystycznych. Następnie na podstawie tych spostrzeżeń generowane są nowe punkty danych. Naśladują one statystyczne zachowanie oryginalnych danych, ale nie replikują konkretnych informacji o żadnej osobie.
Dane syntetyczne stają się coraz ważniejsze w opiece zdrowotnej. Równoważy wykorzystanie potencjału dużych zbiorów danych i poszanowanie poufności pacjenta.
[Przeczytaj także: 22 bezpłatne i otwarte zbiory danych dotyczących opieki zdrowotnej do uczenia maszynowego]
Aktualny stan danych w opiece zdrowotnej
Opieka zdrowotna nieustannie boryka się z problemem wyważenia korzyści związanych z danymi z obawami dotyczącymi prywatności pacjentów. Uzyskiwanie danych dotyczących opieki zdrowotnej do celów komercyjnych lub akademickich jest szczególnie trudne i kosztowne.
Na przykład uzyskanie zgody na wykorzystanie danych systemu opieki zdrowotnej może zająć do dwóch lat. Dostęp do danych na poziomie pacjenta często wiąże się z kosztami liczonymi w setkach tysięcy, jeśli nie więcej, w zależności od skali projektu. Przeszkody te w znaczący sposób utrudniają postęp w tej dziedzinie.
Sektor opieki zdrowotnej znajduje się na wczesnym etapie opracowywania i stosowania danych. Szereg czynników, w tym obawy dotyczące prywatności, brak ustandaryzowanych formatów danych i istnienie silosów danych, utrudnia innowacje i postęp. Jednak ten scenariusz szybko się zmienia, szczególnie wraz z rozwojem technologii generatywnej sztucznej inteligencji.
Pomimo tych przeszkód wykorzystanie danych w opiece zdrowotnej rośnie. Platformy takie jak Snowflake i AWS ścigają się, aby zaoferować narzędzia wykorzystujące potencjał tych danych. Rozwój przetwarzania w chmurze ułatwia bardziej zaawansowaną analizę danych i przyspiesza rozwój produktów.
W tym kontekście dane syntetyczne okazują się obiecującym rozwiązaniem problemów związanych z dostępnością danych w opiece zdrowotnej.
Jak dane syntetyczne są wykorzystywane w opiece zdrowotnej?
Syntetyczne dane to obecna rewolucja w opiece zdrowotnej, pozwalająca organizacjom na innowacje przy jednoczesnym poszanowaniu granic wyznaczonych przez bezpieczeństwo i prywatność. Ponieważ przypominają dane ze świata rzeczywistego, syntetyczne zestawy danych umożliwiają badaczom, klinicystom i deweloperom forsowanie innowacji bez przeszkód ze strony poufności pacjenta.
Oto kilka prostych przykładów z życia wziętych, które pokazują, w jaki sposób dane syntetyczne zmieniają opiekę zdrowotną:
1. Testowanie nowych metod leczenia bez narażania prywatności
Wyobraź sobie zespół badaczy opracowujących leczenie cukrzycy. Zamiast uzyskiwać dostęp do poufnych danych pacjentów, wykorzystują oni syntetyczne dane, które naśladują cechy prawdziwych pacjentów, takie jak wiek, poziom cukru we krwi i historię medyczną. Mogą oni opracowywać hipotezy i udoskonalać je w protokoły dotyczące dostosowywania leczenia, zachowując jednocześnie poufność danych pacjenta.
2. Szkolenie AI w celu szybszej diagnozy
Pomyśl o narzędziu uczenia maszynowego zaprojektowanym do wykrywania raka płuc na podstawie zdjęć rentgenowskich. Syntetyczne obrazy medyczne mogą obejmować wiele scenariuszy — układanie kształtów, rozmiarów i lokalizacji guzów w dowolny zabawny sposób może pomóc maszynie nauczyć się dokładnie identyfikować przypadek z niestabilnym nawrotem raka. Ułatwia to diagnozę, całkowicie omijając obawy etyczne związane z wykorzystaniem rzeczywistych skanów pacjentów.
3. Ćwiczenie operacji w wirtualnej rzeczywistości
Wielu studentów medycyny wymaga rzeczywistej praktyki, zanim będą mogli leczyć prawdziwych pacjentów. Syntetyczne dane tworzą całą interaktywną transpozycję, w której wirtualny pacjent oparty na danych jest symulowany z różnymi historiami medycznymi i stanami, co pozwala studentom wielokrotnie i bardzo bezpiecznie doświadczać operacji lub procedur diagnostycznych.
4. Umożliwianie planowania zdrowia publicznego
Symulowanie przebiegu chorób takich jak COVID-19 czy grypa przy użyciu danych syntetycznych jest istotne, ponieważ pozwala badaczom z ośrodków epicentrum modelować rozprzestrzenianie się wirusa na poziomie epidemii na obszarach miejskich w porównaniu z obszarami wiejskimi, a jednocześnie szacować i testować strategie szczepień, unikając w ten sposób nieznajomości wrażliwych danych populacyjnych.
5. Bezpieczne testowanie urządzeń medycznych
Rozważmy firmę opracowującą nowe urządzenie do noszenia, aby monitorować tętno. Syntetyczne zestawy danych imitujące różne kardiopatie pozwalają firmom testować swoje urządzenia w wielu scenariuszach przed wejściem do gospodarki.
Jak powinny być tworzone syntetyczne dane dla opieki zdrowotnej
Tworzenie syntetycznych danych w opiece zdrowotnej jest rzeczywiście długim procesem, który wyznacza cienką granicę między wiedzą techniczną a solidnym zrozumieniem systemów opieki zdrowotnej. Aby uprościć pojęcia, tak właśnie można ogólnie interpretować tworzenie syntetycznych danych w placówkach opieki zdrowotnej.
1. Zrozum prawdziwe dane
Organizacje ochrony zdrowia badają rzeczywiste dane pacjentów, zaczynając od dokumentacji szpitalnej, wyników badań laboratoryjnych lub szczegółów badań klinicznych. Na przykład szpital może analizować dane demograficzne pacjentów, historię leczenia i wyniki, aby uzyskać pewien wgląd w podstawowe trendy lub wzorce.
2. Zatrzymanie ujawniania danych pacjentów poprzez usunięcie danych osobowych
Po tym, dla dobra prywatności, zbiór danych nie zawiera już danych osobowych (PII) - nazwisk, adresów ani numerów ubezpieczenia społecznego. Możesz to powiązać z procesem anonimizacji niektórych notatek medycznych, które, jeśli zostaną wydrukowane teraz, nie będą mogły zostać powiązane z konkretną osobą.
3. Identyfikacja kluczowych wzorców
Analityk danych analizuje oczyszczony zestaw danych i odkrywa wzorce i powiązania stanowiące kolejny ważny element składowy udanych badań. Na przykład może odkryć, że pewne leki są powszechnie stosowane przez osoby starsze z cukrzycą lub że pewne grupy wiekowe mają tendencję do występowania pewnych objawów.
4. Budowanie modeli przy użyciu wzorców
Po ustaleniu tych wzorców, spostrzeżenia pozwalają na budowę modeli matematycznych, które naśladują statystyczne powiązania znalezione w rzeczywistych danych. Na przykład, jeśli 30% pacjentów w zestawie danych ma wysokie ciśnienie krwi, możemy przypuszczać, że dane syntetyczne będą mniej więcej odzwierciedlać te stany w podobnych proporcjach.
6. Walidacja danych syntetycznych
Następnie syntetyczny zbiór danych jest porównywany z oryginalnymi danymi, aby zachować te same statystyki definiujące właściwości i relacje. Na przykład, jeśli w oryginalnym zbiorze danych istnieje zależna korelacja między otyłością a chorobą serca, to samo powinno istnieć w tym syntetycznym zbiorze danych.
7. Testowanie w warunkach rzeczywistych
Na koniec syntetyczne dane są pobierane do testowania w różnych scenariuszach, aby stwierdzić, że można ich używać do zamierzonych celów. Obejmują one wykorzystanie ich do umożliwienia badaczom trenowania modelu AI do diagnozowania chorób lub symulowania zmian zasobów operacyjnych na oddziale ratunkowym związanych z sezonem grypy.
Jak weryfikować dane syntetyczne dla opieki zdrowotnej
Decydenci w organizacjach muszą zbadać ważność danych syntetycznych przed ich zastosowaniem w opiece zdrowotnej. Ten paradygmat dotyczy wszelkich danych wykorzystywanych w ramach protokołów poufności. Poniżej przedstawiono sposoby oceny ważności danych syntetycznych:
- Porównanie z danymi rzeczywistymi:Dane syntetyczne są porównywane z danymi rzeczywistymi, aby potwierdzić, że główne trendy, które definiują, np. związek między wiekiem a chorobą, są właściwie odzwierciedlone. Na przykład, jeśli 20 procent prawdziwych pacjentów ma cukrzycę, to podobny odsetek powinien ujawnić się u pacjentów syntetycznych.
- Przeprowadzanie testów statystycznych: Testy statystyczne pozwalają sprawdzić, czy dane syntetyczne są zgodne z oryginałem pod względem rozkładów i korelacji, potwierdzając w ten sposób, że są one racjonalne i wiarygodne na potrzeby analizy.
- Walidacja na rzeczywistych zadaniach: Zadania ze świata rzeczywistego, takie jak ćwiczenia szkoleniowe na modelach sztucznej inteligencji, posłużyłyby do porównania, czy wyniki uzyskane w wyniku szkolenia na danych syntetycznych przyniosłyby również wyniki podobne do tych uzyskanych w wyniku szkolenia na rzeczywistych danych.
- Recenzja eksperta: Syntetyczne zbiory danych są weryfikowane przez lekarzy i ekspertów w dziedzinie opieki zdrowotnej pod kątem autentycznych atrybutów, takich jak standardowe historie pacjentów i metody leczenia, które muszą być spełnione w realistycznym badaniu naukowym.
- Obowiązujące środki kontroli prywatności: Ocena ta pozwoli zagwarantować, że syntetycznych danych nie da się powiązać z prawdziwymi pacjentami, a prywatność prawdziwych pacjentów zostanie zachowana, a zbiór danych nie ulegnie utracie użyteczności.
[Przeczytaj także: Dlaczego zbiory danych opieki zdrowotnej są ważne w kształtowaniu przyszłości medycznej sztucznej inteligencji]
Potencjał danych syntetycznych w opiece zdrowotnej i farmacji

Integracja danych syntetycznych w opiece zdrowotnej i farmacji otwiera świat możliwości. To innowacyjne podejście zmienia różne aspekty branży. Zdolność danych syntetycznych do odzwierciedlania zbiorów danych ze świata rzeczywistego przy jednoczesnym zachowaniu prywatności rewolucjonizuje wiele sektorów.
Zwiększ dostępność danych, zachowując prywatność
Jedną z najważniejszych przeszkód w opiece zdrowotnej i farmacji jest dostęp do ogromnych danych przy jednoczesnym przestrzeganiu przepisów dotyczących prywatności. Dane syntetyczne oferują przełomowe rozwiązanie. Zapewnia zbiory danych, które zachowują charakterystykę statystyczną rzeczywistych danych, bez ujawniania prywatnych informacji. Postęp ten pozwala na szersze badania i szkolenie modeli uczenia maszynowego. Sprzyja postępowi w leczeniu i opracowywaniu leków.
Lepsza opieka nad pacjentem dzięki analizie predykcyjnej
Dane syntetyczne mogą znacznie poprawić opiekę nad pacjentem. Modele uczenia maszynowego wyszkolone na danych syntetycznych pomagają pracownikom służby zdrowia przewidywać reakcję pacjentów na leczenie. Postęp ten prowadzi do bardziej spersonalizowanych i skutecznych strategii opieki. Medycyna precyzyjna staje się bardziej osiągalna w celu zwiększenia skuteczności leczenia i wyników pacjentów.
Optymalizacja kosztów dzięki zaawansowanemu wykorzystaniu danych
Zastosowanie danych syntetycznych w opiece zdrowotnej i farmacji prowadzi również do znacznych redukcji kosztów. Minimalizuje ryzyko i koszty związane z naruszeniami danych. Ponadto ulepszone możliwości predykcyjne modeli uczenia maszynowego pomagają optymalizować zasoby. Wydajność ta przekłada się na zmniejszenie kosztów opieki zdrowotnej i usprawnienie operacji.
Testowanie i walidacja
Dane syntetyczne umożliwiają bezpieczne i praktyczne testowanie nowych technologii, w tym systemów elektronicznej dokumentacji medycznej i narzędzi diagnostycznych. Świadczeniodawcy mogą rygorystycznie oceniać innowacje przy użyciu danych syntetycznych, nie narażając prywatności ani bezpieczeństwa danych pacjentów. Zapewnia, że nowe rozwiązania będą wydajne i niezawodne, zanim zostaną wdrożone w rzeczywistych scenariuszach.
Wspieranie wspólnych innowacji w opiece zdrowotnej
Dane syntetyczne otwierają nowe drzwi do współpracy w badaniach związanych z opieką zdrowotną i farmaceutyką. Organizacje mogą udostępniać partnerom syntetyczne zbiory danych. Umożliwia wspólne badania bez narażania prywatności pacjentów. Takie podejście toruje drogę innowacyjnym partnerstwom. Współpraca ta przyspiesza przełomy w medycynie i tworzy bardziej dynamiczne środowisko badawcze.
Wyzwania związane z danymi syntetycznymi
Chociaż dane syntetyczne mają ogromny potencjał, niosą ze sobą również wyzwania, którym należy stawić czoła.
Zapewnienie dokładności i reprezentatywności danych
Syntetyczne zbiory danych muszą ściśle odzwierciedlać właściwości statystyczne danych ze świata rzeczywistego. Jednak osiągnięcie tego poziomu dokładności jest złożone i często wymaga wyrafinowanych algorytmów. Jeśli nie zostanie wykonane prawidłowo, może to prowadzić do mylnych spostrzeżeń i fałszywych wniosków.
Zarządzanie stronniczością i różnorodnością danych
Ponieważ syntetyczne zbiory danych są generowane na podstawie istniejących danych, wszelkie nieodłączne błędy w oryginalnych danych mogą zostać odtworzone. Zapewnienie różnorodności i wyeliminowanie uprzedzeń ma kluczowe znaczenie, aby dane syntetyczne były wiarygodne i uniwersalne.
Równowaga pomiędzy prywatnością i użytecznością
Chociaż dane syntetyczne są chwalone za zdolność do ochrony prywatności, znalezienie właściwej równowagi między prywatnością danych a użytecznością jest zadaniem delikatnym. Należy zadbać o to, aby syntetyczne dane, mimo że są anonimowe, zachowały wystarczająco dużo szczegółów i specyficzności, aby umożliwić sensowną analizę.
Względy etyczne i prawne
Kwestie dotyczące zgody i etycznego wykorzystania danych syntetycznych, zwłaszcza pochodzących z wrażliwych informacji zdrowotnych, pozostają obszarami aktywnej dyskusji i regulacji.
Prywatność i bezpieczeństwo danych syntetycznych w opiece zdrowotnej
Podczas gdy wiadomo, że syntetyczne dane chronią prywatność pacjentów poprzez podstację prawdziwych danych ze sztuczną, choć realistyczną alternatywą, dylematy dotyczące prywatności i bezpieczeństwa są nadal liczne. Jednym z głównych zagrożeń jest ponowna identyfikacja, w wyniku której syntetyczne dane nieumyślnie ujawniają wzorce, które mogłyby pomóc w rozszyfrowaniu prawdziwych pacjentów objętych badaniem. Zgodność z zasadami i przepisami stanowi dodatkowy poziom przeszkody w łagodzeniu takich problemów — rozważania podczas pracy z syntetycznymi danymi: HIPAA i GDPR.
Aby zaradzić tym obawom, organizacje opieki zdrowotnej muszą przyjąć bardziej solidne techniki ochrony prywatności, takie jak różnicowa prywatność i bezpieczne algorytmy, aby zapobiec takiemu wykorzystaniu. Jeśli tacy ewoluujący i złożeni menedżerowie ryzyka zostaną wprowadzeni w działania zapobiegawcze, syntetyczne dane będą nadal innowacyjne, jednocześnie szanując wszelkie zasady poufności wokół pacjenta i zdrowy rozsądek etyczny.
Wniosek
Dane syntetyczne zmieniają opiekę zdrowotną i farmaceutykę, równoważąc prywatność z praktycznym zastosowaniem. Choć stoi przed wyzwaniami, jego zdolność do poprawy badań, opieki nad pacjentem i współpracy jest znacząca. To sprawia, że dane syntetyczne są kluczową innowacją dla przyszłości opieki zdrowotnej.