Definicja
Dane syntetyczne to sztucznie generowane informacje, które naśladują dane ze świata rzeczywistego. Można je tworzyć za pomocą symulacji, sieci GAN lub innych metod generatywnych.
Cel
Celem jest uzupełnienie lub zastąpienie rzeczywistych danych, gdy jest ich niewiele, są wrażliwe lub ich zebranie jest kosztowne.
Znaczenie
- Chroni prywatność poprzez ograniczenie konieczności wykorzystywania danych osobowych.
- Umożliwia szkolenie w rzadkich lub skrajnych przypadkach.
- Dane te mogą nie mieć pełnej złożoności, jaką mają dane ze świata rzeczywistego.
- Coraz częściej stosowane w sztucznej inteligencji, gdzie bezpieczeństwo ma kluczowe znaczenie.
Jak to działa
- Zdefiniuj cechy danych, które mają zostać zreplikowane.
- Użyj modeli symulacyjnych lub generatywnych do tworzenia danych.
- Sprawdź poprawność danych syntetycznych w porównaniu z rzeczywistymi rozkładami.
- Wykorzystaj dane syntetyczne w procesach szkoleniowych.
- Monitoruj luki w realizmie.
Przykłady (świat rzeczywisty)
- Waymo: wykorzystuje syntetyczne sceny jazdy do szkolenia autonomicznego.
- NVIDIA Omniverse: generuje syntetyczne dane 3D na potrzeby robotyki.
- Opieka zdrowotna: syntetyczne dane o pacjentach na potrzeby badań.
Odniesienia / Dalsza lektura
- Specjalna publikacja NIST na temat danych syntetycznych.
- Goncalves i in. „Generowanie i ocena danych syntetycznych”. ACM Computing Surveys.
- Syntetyczny skarbiec danych (MIT).
- Czym są dane syntetyczne w sztucznej inteligencji