Studium przypadku: Licencjonowanie zbiorów danych medycznych
Transformacja opieki pediatrycznej i ginekologiczno-położniczej poprzez precyzyjne gromadzenie i adnotację danych
Wykorzystanie potencjału danych medycznych: kompleksowe gromadzenie danych, anonimizacja, ICD-10 CM i adnotacje na potrzeby szkolenia doskonałych modeli sztucznej inteligencji.
Przegląd projektu
Shaip nawiązał współpracę z wiodącą firmą AI w zakresie opieki zdrowotnej, aby gromadzić i opisywać wysokiej jakości, odidentyfikowane zestawy danych medycznych do szkolenia zaawansowanych modeli NLP. Projekt koncentrował się na specjalnościach pediatrycznych i ginekologiczno-położniczych, dostarczając dokumentację ambulatoryjną opatrzoną kodami ICD-10 CM za pośrednictwem solidnego frameworka API.
Zbiór danych został ustrukturyzowany w sposób ułatwiający szkolenie sztucznej inteligencji w zakresie rzeczywistej dokumentacji medycznej, zwiększając tym samym możliwości modelu w zakresie rozumienia narracji klinicznych.
Kluczowe statystyki
stron 750 / ~300 dokumentacji ambulatoryjnej
375 stron Pediatria
375 stron położnictwa i ginekologii
Adnotacje do kodu medycznego ICD-10 CM 2023
Zakres projektu
| Typ zbioru danych | Specjalność | objętość | Przechwycone metadane | Komentarz |
|---|---|---|---|---|
| Notatki medyczne | Pediatria | 375 stron (~150 rekordów) |
Nazwa pliku, specjalność, Typ dokumentu, Klasa pacjenta (ambulatoryjny) |
Zawiera sekcje Oceny/Planu |
| ginekologia położnicza | 375 stron (~150 rekordów) | |||
| Adnotacje | ICD-10 CM (2023) | Pełny zestaw danych | Mapowanie kodu za pomocą API | Walidacja kodu przez programistów wykracza poza zakres |
Wyzwania
Projekt wiązał się z kilkoma istotnymi wyzwaniami, które wymagały skrupulatnego planowania i realizacji:
1. Zbieranie danych specyficznych dla danej specjalności
Pozyskiwanie wysokiej jakości dokumentacji ambulatoryjnej wyłącznie ze specjalności pediatrycznych i ginekologiczno-położniczych było wyzwaniem. Każdy dokument musiał zawierać kluczowe sekcje kliniczne, takie jak Ocena i Plan, aby wspierać dokładne adnotacje.
2. Kompleksowa deidentyfikacja PHI
Zapewnienie całkowitego usunięcia wszystkich danych osobowych (PII) przy jednoczesnym zachowaniu kontekstu medycznego było niezbędne dla zgodności z HIPAA. Wymagało to szczegółowych przeglądów w celu zapobiegania naruszeniom prywatności.
3. Kompleksowa adnotacja CM ICD-10
Stosowanie precyzyjnych kodów ICD-10 CM (2023) za pośrednictwem API było skomplikowane ze względu na zróżnicowane style narracji i terminologię medyczną. Spójność i dokładność kodowania były kluczowe dla zapewnienia niezawodnego szkolenia modelu AI.
4. Dokładność i spójność metadanych
Przechwytywanie i walidacja metadanych, takich jak specjalizacja, typ dokumentu i klasa pacjenta bez rozbieżności, były kluczowe. Wszelkie niezgodności mogły mieć wpływ na szkolenie modelu i użyteczność danych.
5. Ścisłe filtrowanie pacjentów ambulatoryjnych
Zapewnienie, że cała dokumentacja dotyczy wyłącznie pacjentów ambulatoryjnych, zwiększyło poziom skomplikowania, ponieważ wiele dokumentów klinicznych może zawierać mieszane klasy pacjentów lub niekompletne sekcje.
6. Standardy zapewnienia jakości i dokładności
Osiągnięcie 90% progu dokładności wymagało przeprowadzenia wieloetapowych przeglądów w celu wyeliminowania duplikatów, sprawdzenia zgodności ze specjalnościami i zapewnienia anonimizacji — z uwzględnieniem konieczności przeróbek w razie potrzeby.
Rozwiązanie
Kompleksowe licencjonowanie danych i adnotacje
- Licencjonowana dokumentacja ambulatoryjna pediatryczna i ginekologiczno-położnicza
- Zapewniono uwzględnienie sekcji krytycznych: Główna skarga, Historia, ROS, Ocena, Plan
- Adnotacja ICD-10 CM oparta na API (wersja z 2023 r.)
De-identyfikacja i zgodność
- Zastąpiono PHI symbolami zastępczymi (IMIĘ_OSOBY, DATA, LOKALIZACJA itd.)
- Zapewniono zgodność ze standardami ochrony prywatności danych w opiece zdrowotnej
Tagowanie metadanych
- Przechwycono szczegółowe metadane dla każdego pliku:
-
- Nazwa pliku
- Specjalizacja (pediatria lub położnictwo-ginekologia)
- Typ dokumentu (śledzenie, H&P, konsultacja)
- Klasa pacjenta (tylko ambulatoryjna)
Kontrola jakości
- Rygorystyczne oceny jakości obejmujące:
- Brak duplikatów rekordów
- Walidacja dopasowania specjalistycznego
- Kontrola tylko ambulatoryjna
- Sprawdzenie spójności metadanych
- Wymiana lub korekta rekordów o dokładności poniżej 90%
Wynik
Shaip dostarczył klientowi ustrukturyzowany, opatrzony komentarzami zbiór danych zawierający notatki medyczne, które umożliwiły mu:
- Szkolenie modeli AI w celu dokładnego przewidywania kodu CM ICD-10
- Zwiększ możliwości przetwarzania języka naturalnego w rzeczywistych scenariuszach opieki zdrowotnej
- Zachowaj zgodność ze standardami prywatności i przepisami
- Skaluj modele sztucznej inteligencji w opiece zdrowotnej w obszarach pediatrii i położnictwa i ginekologii
Ustrukturyzowane podejście Shaipa do gromadzenia i adnotacji zbiorów danych przerosło nasze oczekiwania. Dokładność, deidentyfikacja i precyzja metadanych znacznie wzmocniły nasz proces szkolenia modelu AI.