Definicja
Gromadzenie danych przez sztuczną inteligencję (AI) to proces gromadzenia surowych danych – tekstu, dźwięku, obrazów, wideo lub zapisów strukturalnych – wykorzystywanych do trenowania, walidacji i testowania modeli uczenia maszynowego. Zapewnia on, że modele zawierają reprezentatywne przykłady rzeczywistego problemu.
Cel
Celem jest zbudowanie zbiorów danych, które umożliwią algorytmom efektywne uczenie się wzorców. Niezawodne gromadzenie danych zmniejsza stronniczość i poprawia dokładność modelu w różnych środowiskach i populacjach.
Znaczenie
- Jakość zebranych danych ma bezpośredni wpływ na wyniki modelu.
- Niewłaściwe gromadzenie danych może skutkować stronniczymi lub bezużytecznymi modelami.
- Różnorodne źródła zwiększają możliwość generalizacji i zmniejszają niesprawiedliwość.
- Należy przestrzegać norm etycznych i prawnych (np. RODO, HIPAA).
Jak to działa
- Określ typ potrzebnych danych na podstawie celów projektu.
- Zidentyfikuj źródła (czujniki, interfejsy API, ankiety, nagrania itp.).
- Zbieraj dane za odpowiednią zgodą i przy zachowaniu ochrony prywatności.
- Przechowuj dane z metadanymi w celu zapewnienia możliwości śledzenia i kontekstu.
- Przygotuj dane do późniejszej adnotacji, czyszczenia lub trenowania.
Przykłady (świat rzeczywisty)
- ImageNet: zbiór danych obrazowych na dużą skalę do badań nad przetwarzaniem obrazu komputerowego.
- Google Street View: dane zebrane na potrzeby map i wizualnej sztucznej inteligencji.
- Mozilla Common Voice: otwarty zbiór danych nagrań mowy na potrzeby ASR.
Odniesienia / Dalsza lektura
- Arkusze danych dla zestawów danych — Gebru i in., ACM FAccT.
- Przygotowanie danych dla systemów AI — NIST.
- ISO/IEC TR 20547-5: Architektura referencyjna dużych zbiorów danych — ISO.