Adnotacja danych – NER

Adnotacja do rozpoznawania jednostek nazwanych (NER) dla klinicznego NLP

Adnotacja Nera

Dane kliniczne z dobrze opisanymi komentarzami i złotym standardem do szkolenia/rozwoju klinicznego NLP w celu zbudowania kolejnej wersji API Healthcare

W ciągu ostatnich lat coraz bardziej doceniano znaczenie klinicznego przetwarzania języka naturalnego (NLP), co doprowadziło do postępów transformacyjnych. Kliniczne NLP pozwala komputerom zrozumieć bogate znaczenie, jakie kryje się za pisemną analizą pacjenta przeprowadzoną przez lekarza. Kliniczne NLP może mieć wiele zastosowań, począwszy od analizy stanu zdrowia populacji, poprzez poprawę dokumentacji klinicznej, rozpoznawanie mowy, dopasowywanie do badań klinicznych itp.

Aby opracować i wytrenować dowolne kliniczne modele NLP, potrzebujesz dokładnych, bezstronnych i dobrze opatrzonych adnotacjami zbiorów danych w ogromnych ilościach. Złoty Standard i różnorodne dane pomagają zwiększyć precyzję i zapamiętywanie silników NLP.

objętość

Liczba dokumentów z adnotacjami
10
Liczba stron z adnotacjami
10 +
Czas trwania projektu
< 1 miesięcy

Wyzwania

Klient nie mógł się doczekać szkolenia i rozwoju platformy przetwarzania języka naturalnego (NLP) o nowe typy jednostek, a także zidentyfikowania relacji między różnymi typami. Co więcej, oceniali dostawców, którzy oferowali wysoką dokładność, przestrzegali lokalnych przepisów i posiadali wiedzę medyczną wymaganą do opisywania dużego zbioru danych.

Zadanie polegało na oklejeniu i opatrzeniu adnotacjami do 20,000 15,000 oznaczonych zapisów, w tym do 5,000 1 oznaczonych zapisów zawierających dane z elektronicznej dokumentacji medycznej pacjentów szpitalnych i ambulatoryjnych oraz do 2 oznaczonych zapisów z transkrypcji zapisów medycznych, równomiernie rozmieszczonych według (XNUMX) pochodzenia geograficznego i ( XNUMX) dostępne specjalizacje lekarskie.

Podsumowując wyzwania:

  • Organizuj heterogeniczne dane kliniczne w celu szkolenia platformy NLP
  • Zidentyfikuj powiązania pomiędzy różnymi podmiotami w celu uzyskania kluczowych informacji
  • Umiejętność i wiedza specjalistyczna w zakresie etykietowania/opisywania szerokiego zestawu złożonych dokumentów klinicznych
  • Utrzymywanie kosztów pod kontrolą w celu oznakowania/dodania adnotacji dużej ilości danych w celu szkolenia klinicznego NLP w określonych ramach czasowych
  • Dodawaj adnotacje do zbioru danych klinicznych, który składa się w 75% z zapisów EHR i w 25% z nagrań.
  • Deidentyfikacja danych w momencie dostawy

Inne wyzwania w rozumieniu języka naturalnego

Dwuznaczność

Słowa są unikalne, ale mogą mieć różne znaczenia w zależności od kontekstu, co powoduje niejednoznaczność na poziomie leksykalnym, syntaktycznym i semantycznym.

Synonimia

Tę samą ideę możemy wyrazić różnymi terminami, które są również synonimami: duży i duży oznaczają to samo przy opisie przedmiotu.

Koreferencja

Proces znajdowania wszystkich wyrażeń odnoszących się do tego samego bytu w tekście nazywa się rozstrzyganiem współodniesień.

Osobowość, intencje, emocje

W zależności od osobowości mówiącego, jego intencje i emocje mogą być różnie wyrażane w odniesieniu do tej samej idei.

Rozwiązanie

Dostępna jest duża ilość danych i wiedzy medycznej w formie dokumentów medycznych, ale głównie w formacie nieustrukturyzowanym. Dzięki adnotacji podmiotu medycznego / adnotacji rozpoznawania nazwy podmiotu (NER) Shaip był w stanie przekształcić nieustrukturyzowane dane w ustrukturyzowany format, dodając adnotacje do przydatnych informacji z różnych typów dokumentacji klinicznej. Po zidentyfikowaniu podmiotów zmapowano także relacje między nimi w celu zidentyfikowania kluczowych informacji.

Zakres prac: Adnotacja dotycząca wzmianki o podmiocie opieki zdrowotnej

9 typów jednostek

  • Stan medyczny
  • Zabieg medyczny
  • Struktura anatomiczna
  • Medycyna
  • Urządzenie medyczne
  • Pomiar ciała
  • Substance Abuse
  • Dane laboratoryjne
  • Funkcja ciała

17 modyfikatory

  • Modyfikatory leków: siła, jednostka, dawka, od, częstotliwość, trasa, czas trwania, status
  • Modyfikatory pomiaru ciała: wartość, jednostka, wynik
  • Modyfikatory procedury: Metoda
    • Modyfikator danych laboratoryjnych: Wartość laboratorium, Jednostka laboratoryjna, Wynik laboratorium
  • Dotkliwość
  • Wynik procedury

27 Relacje i status pacjenta

Wynik

Dane z adnotacjami zostaną wykorzystane do opracowania i szkolenia klinicznej Platformy NLP Klienta, która zostanie włączona do następnej wersji jego API Healthcare. Korzyści jakie osiągnął Klient to:

  • Dane oznaczone/opatrzone adnotacjami spełniają standardowe wytyczne Klienta dotyczące adnotacji danych.
  • Do szkolenia platformy NLP w celu uzyskania większej dokładności wykorzystano heterogeniczne zbiory danych.
  • W celu uzyskania kluczowych informacji medycznych zidentyfikowano powiązania pomiędzy różnymi jednostkami, tj. anatomiczną budową ciała <> wyrób medyczny, stan medyczny <> wyrób medyczny, stan medyczny <> lek, stan medyczny <> procedura.
  • Szeroki zestaw danych, które zostały oznaczone/opatrzone adnotacjami, został również pozbawiony danych umożliwiających identyfikację w momencie dostawy.

Nasza współpraca z Shaip znacząco rozwinęła nasz projekt w zakresie technologii otoczenia i konwersacyjnej sztucznej inteligencji w opiece zdrowotnej. Ich wiedza specjalistyczna w zakresie tworzenia i transkrypcji syntetycznych dialogów dotyczących opieki zdrowotnej zapewniła solidne podstawy, pokazując potencjał syntetycznych danych w pokonywaniu wyzwań regulacyjnych. Dzięki firmie Shaip pokonaliśmy te przeszkody i jesteśmy teraz o krok bliżej realizacji naszej wizji intuicyjnych rozwiązań w zakresie opieki zdrowotnej.

Złota pięciogwiazdkowa

Przyspiesz swoją konwersacyjną sztuczną inteligencję
rozwój aplikacji o 100%