Zbiory danych opieki zdrowotnej

Najlepsze zbiory danych typu open source dotyczące opieki zdrowotnej na potrzeby projektów uczenia maszynowego

  • Globalny system opieki zdrowotnej codziennie generuje ogromne ilości danych medycznych, które można wykorzystać w zastosowaniach uczenia maszynowego. We wszystkich branżach dane są uważane za cenny zasób, który umożliwia firmom zdobycie przewagi konkurencyjnej i nie inaczej jest w sektorze opieki zdrowotnej.

W tym artykule zwięźle omówiono przeszkody napotykane podczas przetwarzania danych medycznych i przedstawiono podsumowanie publicznie dostępnych zbiorów danych dotyczących opieki zdrowotnej.

Znaczenie zbiorów danych dotyczących opieki zdrowotnej

Znaczenie zbiorów danych dotyczących opieki zdrowotnej

Zbiory danych dotyczące opieki zdrowotnej to zbiory informacji o pacjencie, takich jak dokumentacja medyczna, diagnozy, leczenie, dane genetyczne i szczegóły stylu życia. Są one bardzo ważne w dzisiejszym świecie, w którym AI jest coraz częściej wykorzystywana. Dlatego:

Zrozumienie zdrowia pacjenta:

Zbiory danych dotyczące opieki zdrowotnej dają lekarzom pełny obraz stanu zdrowia pacjenta. Na przykład dane dotyczące historii medycznej pacjenta, przyjmowanych leków i stylu życia mogą pomóc w przewidywaniu, czy może rozwinąć się u niego choroba przewlekła. Dzięki temu lekarze mogą wkroczyć na miejsce wcześniej i przygotować plan leczenia specjalnie dla danego pacjenta.

Pomoc w badaniach medycznych:

Badając zbiory danych dotyczących opieki zdrowotnej, badacze medycyny mogą sprawdzić, w jaki sposób pacjenci chorzy na raka są leczeni i jak wracają do zdrowia. Mogą znaleźć metody leczenia, które najlepiej sprawdzają się w prawdziwym świecie. Na przykład, przeglądając próbki nowotworów w biobankach i historie leczenia pacjentów, badacze mogą dowiedzieć się, jak określone mutacje i białka nowotworowe reagują na różne metody leczenia. To podejście oparte na danych pomaga znaleźć trendy prowadzące do lepszych wyników leczenia pacjentów.

Lepsza diagnoza i leczenie:

Lekarze korzystają z narzędzi sztucznej inteligencji, aby przeglądać zbiory danych dotyczących opieki zdrowotnej i znajdować ważne wzorce. Pomaga im to lepiej diagnozować i leczyć choroby. W radiologii sztuczna inteligencja może znajdować problemy na skanach szybciej i dokładniej niż ludzie. Oznacza to, że lekarze mogą szybciej wykryć choroby i wcześniej rozpocząć odpowiednie leczenie. Adnotacja obrazu medycznego może prowadzić do szybszej i lepszej diagnozy, co poprawia zdrowie pacjenta.

Wspieranie inicjatyw w zakresie zdrowia publicznego:

Wyobraź sobie małe miasteczko, w którym eksperci ds. opieki zdrowotnej korzystali ze zbiorów danych, aby śledzić epidemię grypy. Przyjrzeli się wzorcom i znaleźli obszary, które zostały dotknięte. Dzięki tym danym rozpoczęli akcje ukierunkowanych szczepień i kampanie edukacyjne na temat zdrowia. To podejście oparte na danych pomogło powstrzymać grypę. Pokazuje, w jaki sposób zbiory danych dotyczących opieki zdrowotnej mogą aktywnie kierować inicjatywami w zakresie zdrowia publicznego i je ulepszać.

Medyczne zbiory danych typu open source do uczenia maszynowego

Otwarte zbiory danych są niezbędne, aby każdy model uczenia maszynowego działał dobrze. Uczenie maszynowe jest już wykorzystywane w naukach przyrodniczych, opiece zdrowotnej i medycynie i przynosi świetne rezultaty. Pomaga przewidywać choroby i rozumieć sposób ich rozprzestrzeniania się. Uczenie maszynowe dostarcza także pomysłów na to, w jaki sposób możemy właściwie opiekować się chorymi, starszymi i chorymi ludźmi w społeczności. Bez dobrych zbiorów danych te modele uczenia maszynowego nie byłyby możliwe.

Zdrowie ogólne i publiczne:

  • data.gov: Koncentruje się na danych dotyczących opieki zdrowotnej w USA, które można łatwo przeszukiwać przy użyciu wielu parametrów. Zbiory danych mają na celu poprawę dobrostanu osób mieszkających w USA; jednakże informacje te mogą również okazać się korzystne dla innych zestawów szkoleniowych w zakresie badań lub dodatkowych dziedzin zdrowia publicznego.
  • KIM: Oferuje zbiory danych skupione wokół globalnych priorytetów zdrowotnych. Platforma zawiera przyjazną dla użytkownika funkcję wyszukiwania i zapewnia cenne informacje wraz ze zbiorami danych, co pozwala na kompleksowe zrozumienie poruszanych tematów.
  • Re3Data: Oferuje dane obejmujące ponad 2,000 tematów badawczych podzielonych na kilka szerokich obszarów. Chociaż nie wszystkie zbiory danych są ogólnodostępne, platforma wyraźnie wskazuje strukturę i umożliwia łatwe wyszukiwanie na podstawie takich czynników, jak opłaty, wymagania członkowskie i ograniczenia dotyczące praw autorskich.
  • Baza danych śmiertelności ludzi oferuje dostęp do danych na temat współczynników umieralności, liczby ludności oraz różnych statystyk zdrowotnych i demograficznych dla 35 krajów.
  • CHDS: Zbiory danych z badań nad zdrowiem i rozwojem dziecka mają na celu zbadanie międzypokoleniowego przenoszenia chorób i zdrowia. Obejmuje zbiory danych do badania nie tylko ekspresji genomu, ale także wpływu czynników społecznych, środowiskowych i kulturowych na choroby i zdrowie.
  • Wyzwanie dotyczące aktywności molekularnej firmy Merck: Przedstawia zbiory danych zaprojektowane w celu promowania zastosowania uczenia maszynowego w odkrywaniu leków poprzez symulację potencjalnych interakcji między różnymi kombinacjami cząsteczek.
  • 1000 Genomów Projektu: Zawiera dane sekwencjonowania od 2,500 osób w 26 różnych populacjach, co czyni go jednym z największych dostępnych repozytoriów genomu. Dostęp do tej międzynarodowej współpracy można uzyskać za pośrednictwem platformy AWS. (Należy pamiętać, że na projekty dotyczące genomu dostępne są dotacje.)

Zbiory danych obrazu dla nauk przyrodniczych, opieki zdrowotnej i medycyny:

  • Otwórz Neuro: Jako bezpłatna i otwarta platforma OpenNeuro udostępnia szeroką gamę obrazów medycznych, w tym dane MRI, MEG, EEG, iEEG, ECoG, ASL i PET. Dzięki 563 zbiorom danych medycznych obejmującym 19,187 XNUMX uczestników stanowi nieocenione źródło informacji dla badaczy i pracowników służby zdrowia.
  • oaza: Ten zbiór danych, pochodzący z serii badań obrazowych Open Access (OASIS), ma na celu bezpłatne udostępnianie społeczeństwu danych neuroobrazowych z korzyścią dla społeczności naukowej. Obejmuje 1,098 pacjentów w 2,168 sesjach MR i 1,608 sesjach PET, oferując badaczom bogactwo informacji.
  • Inicjatywa Neuroobrazowania Choroby Alzheimera: Inicjatywa Neuroobrazowania Choroby Alzheimera (ADNI) prezentuje dane zebrane przez badaczy z całego świata, których zadaniem jest określenie postępu choroby Alzheimera. Zbiór danych obejmuje obszerny zbiór obrazów MRI i PET, informacje genetyczne, testy poznawcze oraz biomarkery płynu mózgowo-rdzeniowego i krwi, co ułatwia wieloaspektowe podejście do zrozumienia tej złożonej choroby.

Szpitalne zbiory danych:

  • Katalog danych dostawcy: Uzyskaj dostęp i pobierz kompleksowe zbiory danych dostawców w obszarach obejmujących stacje dializ, praktyki lekarskie, usługi opieki zdrowotnej w domu, opiekę hospicyjną, szpitale, rehabilitację szpitalną, szpitale opieki długoterminowej, domy opieki z usługami rehabilitacyjnymi, koszty wizyt lekarskich i katalogi dostawców.
  • Projekt dotyczący kosztów i wykorzystania opieki zdrowotnej (HCUP): Ta kompleksowa, ogólnokrajowa baza danych została utworzona w celu identyfikowania, śledzenia i analizowania krajowych trendów w korzystaniu z opieki zdrowotnej, dostępie, opłatach, jakości i wynikach. Każdy zbiór danych medycznych w ramach HCUP zawiera informacje na poziomie spotkania dotyczące wszystkich pobytów pacjentów, wizyt na oddziałach ratunkowych i operacji ambulatoryjnych w szpitalach w USA, zapewniając badaczom i decydentom bogactwo danych.
  • Baza danych intensywnej opieki MIMIC: Ten ogólnodostępny zbiór danych medycznych, opracowany przez MIT na potrzeby fizjologii obliczeniowej, zawiera pozbawione cech identyfikacyjnych dane dotyczące zdrowia ponad 40,000 XNUMX pacjentów wymagających intensywnej terapii. Zbiór danych MIMIC stanowi cenne źródło informacji dla badaczy zajmujących się opieką na oddziałach intensywnej terapii i opracowujących nowe metody obliczeniowe.

Zbiory danych dotyczące raka:

  • Obrazy medyczne CT: Zaprojektowany, aby ułatwić alternatywne metody badania trendów w danych obrazu CT, ten zestaw danych zawiera skany CT pacjentów chorych na raka, koncentrując się na takich czynnikach, jak kontrast, modalność i wiek pacjenta. Naukowcy mogą wykorzystać te dane do opracowania nowych technik obrazowania i analizowania wzorców w diagnostyce i leczeniu raka.
  • Międzynarodowa współpraca w zakresie raportowania nowotworów (ICCR): Zbiory danych medycznych w ramach ICCR zostały opracowane i udostępnione w celu promowania opartego na dowodach podejścia do zgłaszania nowotworów na całym świecie. Poprzez standaryzację sprawozdawczości dotyczącej nowotworów ICCR ma na celu poprawę jakości i porównywalności danych dotyczących nowotworów pomiędzy instytucjami i krajami.
  • Zapadalność na raka SEER: Dane dotyczące nowotworów dostarczane przez rząd Stanów Zjednoczonych są podzielone na segmenty przy użyciu podstawowych rozróżnień demograficznych, takich jak rasa, płeć i wiek. Zbiór danych SEER pozwala naukowcom badać zapadalność na nowotwory i wskaźniki przeżycia w różnych podgrupach populacji, dostarczając informacji dla inicjatyw w zakresie zdrowia publicznego i priorytetów badawczych.
  • Zestaw danych dotyczących raka płuc: Ten bezpłatny zbiór danych zawiera informacje na temat przypadków raka płuc od 1995 r. Naukowcy mogą wykorzystać te dane do badania długoterminowych trendów w zakresie zachorowalności na raka płuc, leczenia i wyników, a także do opracowywania nowych narzędzi diagnostycznych i prognostycznych.

Dodatkowe źródła danych dotyczących opieki zdrowotnej:

  • Kaggle: Wszechstronne repozytorium zbiorów danych – Kaggle pozostaje wyjątkową platformą dla szerokiej gamy zbiorów danych, nie ograniczając się do sektora opieki zdrowotnej. Idealny dla osób zajmujących się różnymi dziedzinami lub potrzebujących różnorodnych zbiorów danych do szkolenia modeli, Kaggle jest idealnym źródłem informacji.
  • Subreddit: Skarbnica prowadzona przez społeczność – odpowiednie dyskusje na subreddicie mogą być kopalnią złota dla otwartych zbiorów danych. W przypadku niszowych lub konkretnych zapytań, których nie dotyczą publiczne zbiory danych, odpowiedź może znać społeczność Reddit.

Przyspiesz swoje projekty AI w służbie zdrowia dzięki gotowym do użycia zestawom danych medycznych Premium firmy Shaip

Zbiór danych rozmów lekarza i pacjenta

W naszym zbiorze danych znajdują się pliki dźwiękowe rozmów lekarzy i pacjentów na temat ich zdrowia i planów leczenia. Akta obejmują 31 różnych specjalności medycznych.

Co jest zawarte?

  • 257,977 XNUMX godzin nagrań dźwiękowych dyktowanych przez lekarzy w celu szkolenia modeli mowy w służbie zdrowia
  • Dźwięk z różnych urządzeń, takich jak telefony, rejestratory cyfrowe, mikrofony do rozmów i smartfony
  • Dźwięk i transkrypcje z usuniętymi danymi osobowymi ze względu na przepisy dotyczące prywatności

Zestaw danych obrazu CT SCAN

Oferujemy najwyższej klasy zbiory danych obrazów tomografii komputerowej do celów badań i diagnostyki medycznej. Dysponujemy tysiącami wysokiej jakości zdjęć prawdziwych pacjentów, przetworzonych przy użyciu najnowocześniejszych technik. Nasze zbiory danych pomagają lekarzom i badaczom lepiej zrozumieć różne problemy zdrowotne, takie jak nowotwory, zaburzenia mózgu i choroby serca.

Dane wskazują, że najczęstszą tomografią komputerową wykonuje się klatkę piersiową (6000) i głowę (4350), przy czym znaczna liczba tomografii wykonywana jest również w przypadku brzucha, miednicy i innych części ciała. Tabela pokazuje również, że niektóre specjalistyczne badania, takie jak CT Covid HRCT i angio płuc, są wykonywane głównie w Indiach, Azji, Europie i innych krajach.

Zbiór danych elektronicznej dokumentacji zdrowotnej (EHR).

Elektroniczna dokumentacja zdrowia (EHR) to cyfrowa wersja historii medycznej pacjenta. Obejmują one takie informacje, jak diagnozy, leki, plany leczenia, daty szczepień, alergie, obrazy medyczne (takie jak tomografia komputerowa, rezonans magnetyczny i prześwietlenia rentgenowskie), badania laboratoryjne i inne.

Funkcje naszego gotowego do użycia zestawu danych EHR:

  • Ponad 5.1 miliona rekordów i plików audio lekarzy obejmujących 31 specjalizacji medycznych
  • Autentyczna dokumentacja medyczna idealna do szkolenia klinicznego NLP i innych modeli AI dokumentów
  • Metadane obejmujące zanonimizowany numer MRN, daty przyjęcia i wypisu, długość pobytu, płeć, klasa pacjenta, płatnik, klasa finansowa, stan, sposób wypisu, wiek, DRG, opis DRG, zwrot kosztów, AMLOS, GMLOS, ryzyko śmiertelności, ciężkość choroby, grouper i szpitalny kod pocztowy
  • Dokumentacja obejmująca wszystkie kategorie pacjentów: hospitalizowanych, ambulatoryjnych (klinicznych, rehabilitacyjnych, powtarzających się, chirurgicznych) i w nagłych przypadkach
  • Dokumenty zawierające dane osobowe (PII) zostały zredagowane zgodnie z wytycznymi HIPAA Safe Harbor

Zestaw danych obrazu MRI

Dostarczamy wysokiej jakości zbiory danych obrazów MRI w celu wsparcia badań medycznych i diagnozy. Nasza obszerna kolekcja obejmuje tysiące obrazów o wysokiej rozdzielczości od rzeczywistych pacjentów, wszystkie przetworzone przy użyciu najnowocześniejszych metod. Wykorzystując nasze zbiory danych, pracownicy służby zdrowia i badacze mogą pogłębić wiedzę na temat szerokiego zakresu schorzeń, co ostatecznie prowadzi do lepszych wyników leczenia pacjentów.

Zbiór danych obrazu MRI różnych części ciała, przy czym kręgosłup i mózg mają najwyższą liczbę po 5000 każdy. Dane są rozproszone w Indiach, Azji Środkowej i Europie oraz w regionach Azji Środkowej.

Zestaw danych obrazu rentgenowskiego

Najwyższej jakości zbiory danych obrazu rentgenowskiego do celów badań i diagnostyki medycznej. Dysponujemy tysiącami zdjęć prawdziwych pacjentów w wysokiej rozdzielczości, przetworzonych przy użyciu najnowocześniejszych technik. Dzięki Shaip możesz uzyskać dostęp do wiarygodnych danych medycznych, aby ulepszyć swoje badania i wyniki pacjentów.

Rozkład zbioru danych rentgenowskich w różnych częściach ciała, przy czym najwyższa liczba 1000 w klatce piersiowej występuje w Azji Środkowej. Kończyny dolne i górne mają łącznie po 850 sztuk i są rozmieszczone pomiędzy regionami Azji Środkowej oraz Azji Środkowej i Europy.

Podziel społecznej