Definicja
Gotowe zbiory danych to wstępnie zebrane i publicznie lub komercyjnie dostępne zbiory danych, które można bezpośrednio wykorzystać do szkolenia lub oceny modeli sztucznej inteligencji.
Cel
Celem jest przyspieszenie prac badawczo-rozwojowych poprzez zapewnienie łatwo dostępnych danych bez konieczności kosztownego ich gromadzenia.
Znaczenie
- Oszczędza czas i zasoby zespołom zajmującym się sztuczną inteligencją.
- Umożliwia powtarzalność i porównywanie wyników.
- Może brakować specyfiki domeny dla niektórych zadań.
- Wymaga sprawdzenia stronniczości i ograniczeń licencyjnych.
Jak to działa
- Zidentyfikuj zbiór danych istotny dla zadania AI.
- Przejrzyj licencje i ograniczenia użytkowania.
- Pobierz lub kup zbiór danych.
- Przeprowadź wstępne przetwarzanie w celu zapewnienia zgodności.
- Szkolenie lub ocena modeli przy użyciu zestawu danych.
Przykłady (świat rzeczywisty)
- MNIST: zbiór danych zawierających ręcznie zapisane cyfry do celów porównawczych.
- ImageNet: zbiór danych na dużą skalę dla potrzeb przetwarzania obrazu komputerowego.
- Common Crawl: otwarty zbiór danych tekstowych dla przetwarzania języka naturalnego.