Skuteczny model uczenia maszynowego zaczyna się od wysokiej jakości danych treningowych. Jednak jednym z najczęstszych pytań, jakie zespoły zadają na początku projektu AI, jest: ile danych treningowych jest wystarczające?
Szczerze mówiąc, nie ma stałej liczby, która sprawdziłaby się w każdym projekcie. Ilość potrzebnych danych zależy od zadania, złożoności modelu, liczby klas, jakości danych, dokładności etykiet i standardu wydajności, który chcesz osiągnąć.
W praktyce najlepszym sposobem oszacowania wymagań dotyczących danych treningowych jest rozpoczęcie od reprezentatywnej próby, trenowanie na stopniowo rosnących podzbiorach i mierzenie momentu, w którym wydajność modelu zaczyna się stabilizować. Pomaga to zespołom podejmować świadome decyzje dotyczące kosztów, harmonogramu, nakładu pracy na adnotacje i oczekiwanych rezultatów.
W tym wpisie na blogu omówimy główne czynniki wpływające na objętość danych szkoleniowych, wyjaśnimy, jak szacować wymagania w praktyce i pokażemy, co zrobić, gdy potrzebujesz więcej danych, nie opóźniając realizacji planu rozwoju sztucznej inteligencji.
Dlaczego dane treningowe są ważne
Dane treningowe stanowią fundament każdego systemu uczenia maszynowego. Niezależnie od stopnia zaawansowania algorytmu, może on uczyć się tylko wzorców obecnych w danych użytych do jego trenowania. Jeśli dane są niekompletne, stronnicze, zaszumione lub zbyt ograniczone, model będzie miał trudności z generalizacją w świecie rzeczywistym.
Solidne dane szkoleniowe pomagają zespołom:
- poprawić dokładność modelu
- zmniejszyć uprzedzenia i martwe pola
- dokładniej oszacuj koszt i wykonalność projektu
- zmniejsz liczbę przeróbek podczas iteracji modelu
- budować bardziej niezawodne procesy walidacji i testowania
Właśnie dlatego gromadzenie, czyszczenie, etykietowanie i walidacja danych często pochłaniają najwięcej wysiłku w projektach AI. Jeśli dane są słabe, prognozy również będą słabe.
Nie ma uniwersalnej liczby — ale istnieje praktyczny sposób na jej oszacowanie
Wiele artykułów próbuje odpowiedzieć na to pytanie jedną liczbą. To jednak rzadko jest przydatne.
Model prostej klasyfikacji binarnej może działać dobrze w przypadku stosunkowo niewielkiego zbioru danych, podczas gdy proces dostrajania dużego modelu językowego lub system wizji komputerowej dla przypadków brzegowych może wymagać znacznie większej liczby przykładów. Lepszym pytaniem nie jest „jaka jest magiczna liczba?”, ale:
Jaka jest minimalna ilość wysokiej jakości, reprezentatywnych danych szkoleniowych potrzebna do osiągnięcia docelowej wydajności w tym przypadku użycia?
Praktycznym sposobem na odpowiedź na to pytanie jest zastosowanie krzywych uczenia się: trenuj model na coraz większych ilościach danych i obserwuj, jak bardzo wydajność poprawia się z każdym krokiem. Gdy poprawa zacznie się spłaszczać, uzyskasz znacznie wyraźniejszy sygnał, czy gromadzenie większej ilości danych jest warte inwestycji. To podejście jest powszechnie zalecane w praktycznych przepływach pracy w uczeniu maszynowym.
7 czynników decydujących o tym, ile danych treningowych potrzebujesz
1. Typ modelu: klasyczne uczenie maszynowe kontra głębokie uczenie
Rodzaj modelu ma ogromny wpływ na wymagania dotyczące danych. Klasyczne modele uczenia maszynowego, takie jak regresja logistyczna, drzewa decyzyjne czy metoda gradient boostingu, często sprawdzają się w przypadku mniejszych, ustrukturyzowanych zbiorów danych, zwłaszcza gdy cechy są dobrze zaprojektowane.
Modele głębokiego uczenia zazwyczaj wymagają większej ilości danych, ponieważ automatycznie uczą się cech i zawierają znacznie więcej parametrów. W przypadku zadań związanych z obrazami, dźwiękiem i językiem, modele głębokie zazwyczaj znacząco korzystają z dodatkowej objętości i różnorodności danych.
2. Uczenie nadzorowane i nienadzorowane
Uczenie nadzorowane wymaga danych z etykietami, których zebranie jest często trudniejsze i droższe. Jeśli Twój model wymaga od ludzi adnotacji obrazów, transkrypcji dźwięku, tagowania obiektów lub klasyfikowania dokumentów, wymagania dotyczące danych muszą uwzględniać zarówno ilość, jak i nakład pracy związany z etykietowaniem.
Uczenie bez nadzoru nie wymaga danych etykietowanych, ale nadal korzysta z dużych, reprezentatywnych zbiorów danych. Nawet bez etykiet model wymaga wystarczającego pokrycia, aby wykryć znaczące wzorce i strukturę.
3. Złożoność zadań i liczba klas
Proste zadanie klasyfikacji binarnej znacznie różni się od problemu obrazowania medycznego obejmującego wiele klas lub wielojęzycznego systemu rozpoznawania mowy.
W miarę jak wzrasta złożoność zadania, wymagania dotyczące danych szkoleniowych zwykle rosną, ponieważ model musi się nauczyć:
- więcej zajęć
- dokładniejsze rozróżnienia między kategoriami
- więcej przypadków skrajnych
- większa zmienność kontekstowa
Na przykład odróżnienie „kota” od „psa” jest o wiele łatwiejsze niż identyfikacja dziesiątek wizualnie podobnych wad produktów, niezależnie od warunków oświetlenia, kąta kamery i rodzaju tła.
4. Jakość danych i dokładność etykiet
Więcej danych nie zawsze oznacza lepiej, jeśli ich jakość jest słaba.
Mniejszy zbiór danych z dokładnymi etykietami, zrównoważoną reprezentacją i spójnym formatowaniem może przewyższyć większy, ale zaszumiony zbiór danych. Niska jakość etykiet, zduplikowane rekordy, słabe definicje klas, brakujące metadane i niespójne wytyczne dotyczące adnotacji obniżają wydajność modelu.
Zanim zespoły zaczną zbierać więcej danych, powinny zadać sobie następujące pytania:
- Czy etykiety są spójne?
- Czy uwzględniamy wszystkie najważniejsze scenariusze użytkowników?
- Czy dane są reprezentatywne dla warunków produkcji?
- Czy zbiory szkoleniowe, walidacyjne i testowe są właściwie oddzielone?
W przypadku wielu projektów poprawa jakości danych przynosi szybsze korzyści niż po prostu zwiększenie objętości danych.
5. Różnorodność, zasięg i równowaga klasowa
Model powinien uczyć się na podstawie rzeczywistej zmienności, z jaką będzie musiał się zmierzyć po wdrożeniu. Oznacza to, że zbiór danych powinien odzwierciedlać różne scenariusze, grupy użytkowników, typy urządzeń, akcenty, środowiska, formaty dokumentów, warunki wyświetlania obrazów i przypadki skrajne.
Jeśli jedna klasa lub segment jest niedoreprezentowany, model może wydawać się ogólnie trafny, ale zawodzić w kluczowych podgrupach. Dlatego różnorodność i równowaga klasowa są równie ważne, jak sama wielkość.
W wielu przypadkach pytanie nie brzmi „Czy mamy wystarczająco dużo danych?”, lecz „Czy mamy wystarczająco dużo właściwych danych?”
6. Transfer uczenia i wstępnie wytrenowane modele
Jeśli zaczynasz od wstępnie wytrenowanego modelu, możesz potrzebować znacznie mniej danych dotyczących konkretnego zadania niż w przypadku trenowania od podstaw.
Dotyczy to w szczególności:
- klasyfikacja obrazów z wykorzystaniem szkieletów wzrokowych
- Zadania NLP z wykorzystaniem modeli opartych na transformatorach
- modele mowy dostosowane do nowego akcentu lub domeny
- przepływy pracy adaptacji domeny
Transfer learning pozwala zespołom na ponowne wykorzystanie wiedzy zdobytej na dużych, istniejących zbiorach danych, co może znacząco zmniejszyć obciążenie adnotacjami. Oryginalny artykuł już to dobrze opisał; powinien pozostać, ale z bardziej przejrzystymi przykładami.
7. Strategia walidacji i docelowa wydajność
Ilość potrzebnych danych zależy również od jakości modelu.
Prototyp może działać z niewielkimi ilościami danych. Model produkcyjny w sektorze opieki zdrowotnej, finansowym, ubezpieczeniowym, motoryzacyjnym lub w środowiskach o wysokim poziomie zgodności będzie wymagał większego zasięgu, bardziej przejrzystych etykiet, lepszej walidacji i bardziej niezawodnej wydajności w różnych przypadkach brzegowych. Im wyższy dopuszczalny współczynnik błędu, tym bardziej solidny musi być zbiór danych.
Jak w praktyce szacować wymagania dotyczące danych szkoleniowych
Zamiast zgadywać, zastosuj ustrukturyzowany proces szacowania.
Krok 1: Zacznij od reprezentatywnego zbioru danych pilotażowych
Zbierz mniejszą, ale reprezentatywną próbkę przestrzeni problemowej. Uwzględnij ważne klasy, formaty, typy użytkowników i rzeczywiste warianty.
Krok 2: Prawidłowy podział danych
Utwórz oddzielne zbiory treningowe, walidacyjne i testowe. Upewnij się, że zbiór testowy odzwierciedla warunki produkcyjne i nigdy nie jest używany podczas treningu.
Krok 3: Trenuj na coraz większych próbkach
Przeszkol model, wykorzystując coraz większe części zbioru danych, np. 10%, 20%, 40%, 60%, 80% i 100%.
Krok 4: Zaplanuj krzywą uczenia się
Śledź wskaźniki wydajności, takie jak dokładność, wynik F1, odwołanie, precyzja lub specyficzne dla zadania wskaźniki jakości w miarę zwiększania się rozmiaru zbioru danych.
Krok 5: Szukaj płaskowyżu
Jeśli wydajność modelu gwałtownie się poprawi wraz z większą ilością danych, prawdopodobnie potrzebujesz więcej. Jeśli zmiany ulegną spłaszczeniu, wąskim gardłem może już nie być ilość, ale jakość etykiet, projekt funkcji, wybór modelu lub brak równowagi klas.
Krok 6: Przegląd wyników na poziomie segmentu
Sprawdź, jak model sprawdza się nie tylko w ujęciu ogólnym, ale także w ważnych klasach i przypadkach brzegowych. Model może osiągnąć plateau, a jednocześnie nadal wypadać słabo w segmentach mniejszościowych. Metoda ta pozwala interesariuszom na bardziej realistyczną ocenę ilości dodatkowych danych, które warto zebrać.
Jak sprawdzić, czy masz wystarczająco dużo danych treningowych
Prawdopodobnie masz wystarczająco dużo danych, gdy:
- wydajność modelu poprawia się tylko nieznacznie w miarę dodawania większej ilości danych
- wyniki walidacji są stabilne w wielu przebiegach lub fazach
- ważne klasy wypadają akceptowalnie, nie tylko klasa większościowa
- wydajność utrzymuje się na czystym, nienaruszonym zestawie testowym
- pozostałe błędy są spowodowane raczej przez szum etykiet lub niejednoznaczność niż brak przykładów
Prawdopodobnie potrzebujesz więcej danych, gdy:
- krzywa uczenia się wciąż rośnie
- rzadkie klasy wypadają słabo
- model nie sprawdza się w przypadku typowych zmian w świecie rzeczywistym
- wyniki znacznie różnią się między seriami
- wydajność testów spada gwałtownie w porównaniu z wydajnością walidacji
Jak zmniejszyć wymagania dotyczące danych szkoleniowych
Czasami wyzwaniem nie jest projektowanie modelu, ale niedobór danych, budżet lub czas wprowadzenia produktu na rynek. W takich przypadkach zespoły mogą zmniejszyć zależność od ogromnych wolumenów danych, stosując odpowiednie strategie.
Rozszerzanie danych
Augmentacja danych tworzy nowe przykłady treningowe na podstawie istniejących danych. W przypadku wizji komputerowej może to obejmować kadrowanie, obracanie, odbijanie lub regulację jasności. W przypadku przetwarzania języka naturalnego i mowy, augmentacja musi być bardziej ostrożna, ale kontrolowane transformacje nadal mogą być pomocne.
Prawidłowo stosowana augmentacja poprawia solidność i pomaga w lepszej generalizacji modeli. Niewłaściwie stosowana może wprowadzać szum lub nierealistyczne przykłady.
Przenieś naukę
Transfer learning pozwala dostosować istniejący model do nowego zadania zamiast trenowania od zera. Często jest to jeden z najskuteczniejszych sposobów na ograniczenie wymagań dotyczących danych treningowych.
Wstępnie przeszkolone modele
Wstępnie wytrenowane modele, takie jak modele NLP typu BERT lub ugruntowane modele wizji, mogą stanowić solidny punkt wyjścia. Zamiast uczyć się wszystkiego od podstaw, model zaczyna od przydatnej, wcześniejszej wiedzy.
Aktywne uczenie się
Jeśli etykietowanie jest kosztowne, aktywne uczenie się może pomóc w priorytetyzacji przykładów najbardziej informatywnych. Zwiększa to efektywność adnotacji i może zmniejszyć liczbę etykiet potrzebnych do osiągnięcia użytecznej wydajności.
Dane syntetyczne
Dane syntetyczne mogą być przydatne, gdy dane ze świata rzeczywistego są rzadkie, wrażliwe lub trudne do zebrania, szczególnie w takich obszarach jak opieka zdrowotna, finanse, systemy autonomiczne i symulacje skrajnych przypadków. Powinny one jednak uzupełniać – a nie bezkrytycznie zastępować – rzeczywiste, reprezentatywne dane.
Przykłady projektów uczenia maszynowego z wykorzystaniem minimalnych zestawów danych w świecie rzeczywistym
Choć może się wydawać niemożliwe, że niektóre ambitne projekty uczenia maszynowego można wykonać przy użyciu minimalnej ilości surowców, niektóre przypadki są zadziwiająco prawdziwe. Przygotuj się na zdumienie.
| Raport Kaggle | Zdrowie | Onkologia kliniczna |
| Badanie Kaggle ujawnia, że ponad 70% projektów uczenia maszynowego ukończono na podstawie mniej niż 10,000 XNUMX próbek. | Dysponując zaledwie 500 obrazami, zespół naukowców z MIT nauczył model wykrywać neuropatię cukrzycową na podstawie obrazów medycznych uzyskanych z tomografii oka. | Kontynuując przykład opieki zdrowotnej, zespołowi ze Stanford University udało się opracować model umożliwiający wykrywanie raka skóry przy użyciu zaledwie 1000 obrazów. |
Dokonywanie wykształconych domysłów

Nie ma magicznej liczby dotyczącej minimalnej wymaganej ilości danych, ale istnieje kilka praktycznych zasad, których można użyć, aby uzyskać liczbę wymierną.
Zasada 10
Jako praktyczna zasada, aby opracować wydajny model AI, liczba wymaganych zestawów danych uczących powinna być dziesięciokrotnie większa niż każdy parametr modelu, zwany również stopniami swobody. Reguły „10” mają na celu ograniczenie zmienności i zwiększenie różnorodności danych. W związku z tym ta zasada może pomóc w rozpoczęciu projektu, dając podstawowe pojęcie o wymaganej ilości zestawów danych.
głęboki Learning
Metody uczenia głębokiego pomagają w tworzeniu modeli wysokiej jakości, jeśli do systemu dostarczanych jest więcej danych. Ogólnie przyjmuje się, że posiadanie 5000 oznaczonych obrazów na kategorię powinno wystarczyć do stworzenia algorytmu głębokiego uczenia, który może działać na równi z ludźmi. Aby opracować wyjątkowo złożone modele, wymagane jest co najmniej 10 milionów etykietowanych elementów.
Wizja komputerowa
Jeśli używasz uczenia głębokiego do klasyfikacji obrazów, istnieje zgoda, że zestaw danych zawierający 1000 obrazów oznaczonych etykietami dla każdej klasy to uczciwa liczba.
Krzywe uczenia się
Krzywe uczenia się służą do demonstrowania wydajności algorytmu uczenia maszynowego w odniesieniu do ilości danych. Posiadając umiejętność modelowania na osi Y i zestaw danych szkoleniowych na osi X, można zrozumieć, w jaki sposób rozmiar danych wpływa na wynik projektu.
Koszt posiadania zbyt małej ilości danych
Gdy zespoły szkolą się na ograniczonych, wąskich lub stronniczych zbiorach danych, model może wydawać się obiecujący na etapie rozwoju, ale nie sprawdzić się w środowisku produkcyjnym.
Zbyt mała ilość danych może prowadzić do:
- nadmierne dopasowanie
- słabe uogólnienie
- niestabilne prognozy
- słabe wyniki w klasach mniejszościowych
- wyższe ryzyko stronniczości
- więcej czasu na iterację później
Innymi słowy, ograniczenia danych szkoleniowych często stają się ograniczeniami Twojego produktu.
Co zrobić, jeśli potrzebujesz więcej zbiorów danych

Gdy zidentyfikujesz lukę w danych, rozwiązaniem nie zawsze będzie „zebranie wszystkiego”. Lepszym podejściem jest strategiczne rozszerzenie zbioru danych.
1. Ostrożnie korzystaj z otwartych zbiorów danych
Otwarte zbiory danych mogą być pomocne w prototypowaniu lub testowaniu porównawczym, ale nie zawsze nadają się do użytku produkcyjnego. Zespoły powinny sprawdzić pochodzenie, zgody, jakość, trafność i zasięg przed ich wykorzystaniem.
2. Zbierz dane niestandardowe dla swojego przypadku użycia
Jeśli środowisko docelowe jest wysoce specyficzne, często najlepszym rozwiązaniem jest niestandardowe gromadzenie danych. Dotyczy to zwłaszcza przepływów pracy o dużej domenowości, takich jak sztuczna inteligencja w ochronie zdrowia, sztuczna inteligencja konwersacyjna, skrajne przypadki widzenia komputerowego i systemy wielojęzyczne.
3. Ulepsz istniejące dane za pomocą adnotacji
Wiele zespołów dysponuje już surowymi danymi, ale brakuje im struktury. Adnotacje, ponowne etykietowanie, oczyszczanie taksonomii i kontrola jakości pozwalają na szybsze odkrycie wartości niż gromadzenie zupełnie nowych zestawów danych.
4. Przywróć równowagę niedoreprezentowanych klas
Jeśli wydajność w określonych kategoriach jest słaba, skoncentruj się na zbieraniu i etykietowaniu tych luk o największym wpływie, zamiast równomiernie rozszerzać cały zbiór danych.
5. Dodaj dane syntetyczne lub rozszerzone, jeśli to właściwe
Gdy rzeczywiste dane są ograniczone lub wrażliwe, dane syntetyczne i rozszerzone mogą pomóc w poprawieniu zasięgu — należy je jednak starannie zweryfikować w oparciu o rozkład rzeczywistych danych.
6. Współpracuj ze specjalistycznym partnerem danych
Zespoły tworzące na dużą skalę rozwiązania sztucznej inteligencji do produkcji mogą zdecydować się na współpracę z dostawcą, który może gromadzić, licencjonować, opisywać, weryfikować i zarządzać wysokiej jakości danymi szkoleniowymi, co może znacząco ograniczyć ryzyko projektu i przyspieszyć wdrożenie.
Uwagi końcowe
Nie ma magicznej liczby dla danych treningowych w uczeniu maszynowym. Odpowiednia wartość zależy od przypadku użycia, typu modelu, jakości danych, zróżnicowania klas, strategii walidacji i docelowej wydajności.
Najbardziej efektywnym sposobem oszacowania zapotrzebowania na dane szkoleniowe jest rozpoczęcie od reprezentatywnej próby, zmierzenie wydajności za pomocą krzywych uczenia się i strategiczne rozszerzenie zbioru danych w oparciu o obszary, w których model nadal zawodzi.
W przypadku niektórych projektów wystarczający może być skromny, wysokiej jakości zbiór danych. W innych, zwłaszcza w środowiskach o wysokim ryzyku lub dużej zmienności, sukces zależy od dużych, starannie opracowanych i dobrze opisanych zbiorów danych.
Najważniejsze jest nie tylko posiadanie większej ilości danych, ale także właściwe dane.
Czy masz na myśli świetny projekt, ale czekasz na dostosowane do potrzeb zestawy danych, aby wytrenować Twoje modele lub masz problem z uzyskaniem właściwego wyniku z projektu? Oferujemy obszerne zestawy danych szkoleniowych dla różnych potrzeb projektowych. Wykorzystaj potencjał Szaip rozmawiając z jednym z naszych naukowcy danych dzisiaj i zrozumienie, w jaki sposób dostarczaliśmy klientom wysokiej jakości zestawy danych o wysokiej jakości w przeszłości.
Ile danych treningowych jest wystarczających do uczenia maszynowego?
Nie ma stałej liczby. Odpowiednia wartość zależy od zadania, złożoności modelu, jakości etykiet, równowagi klas i dokładności docelowej. Najbardziej wiarygodnym sposobem jej oszacowania jest trenowanie na rosnących podzbiorach i mierzenie poprawy wydajności.
Skąd mam wiedzieć, czy potrzebuję więcej danych treningowych?
Prawdopodobnie będziesz potrzebować więcej danych treningowych, jeśli wydajność modelu stale się poprawia wraz ze wzrostem rozmiaru danych, jeśli rzadkie klasy działają słabo lub jeśli wyniki są niestabilne w różnych przebiegach.
Czy transfer wiedzy może ograniczyć wymagania dotyczące danych szkoleniowych?
Tak. Transfer uczenia pozwala modelom na ponowne wykorzystanie wiedzy z wcześniej wyszkolonych systemów, co może znacząco zmniejszyć ilość potrzebnych danych oznaczonych dla konkretnego zadania.
Czy większa ilość danych zawsze jest lepsza dla uczenia maszynowego?
Niekoniecznie. Więcej danych niskiej jakości lub źle oznaczonych może negatywnie wpłynąć na wydajność. W wielu przypadkach poprawa jakości, równowagi i reprezentatywności danych jest bardziej wartościowa niż samo zwiększenie ich objętości.
Ile danych potrzebuję do głębokiego uczenia?
Modele głębokiego uczenia zazwyczaj wymagają więcej danych niż klasyczne modele uczenia maszynowego, zwłaszcza w przypadku zadań związanych z obrazami, mową i językiem. Jednak modele wstępnie wytrenowane i uczenie transferowe mogą zmniejszyć to zapotrzebowanie.


