Najbardziej zaufane usługi gromadzenia danych mowy dla Twojej sztucznej inteligencji

Trenuj swoje modele NLP, VA, prototypy TTS i nie tylko dzięki wysokiej jakości danych konwersacyjnych dzięki naszym usługom gromadzenia danych audio i mowy

Zbieranie danych dźwiękowych

Odkryj potoki danych audio bez wąskich gardeł

Wyróżnieni klienci

Profesjonalne usługi gromadzenia danych audio/głosowych

Dowolny temat. Dowolny scenariusz.

W Shaip specjalizujemy się w tworzeniu wysokiej jakości zbiorów danych mowy zaprojektowanych pod kątem różnorodnych wymagań AI/ML. Oferujemy szeroką gamę języków i rekordy w różnych ustawieniach, dzięki czemu nasze zbiory danych są kompleksowe i elastyczne. Okoncentrujesz się na dostarczaniu modelom największej ilości niestandardowych danych mowy w możliwie najkrótszym czasie. Z nami na pokładzie możesz spodziewać się: 

Kolekcja mowy
  • Wyselekcjonowane, wysokiej jakości wielojęzyczne dane audio/głosowe w celu poprawy dokładności
  • Najwyższy możliwy poziom specyficzności domeny dla tArgument zróżnicowany scenariusz ustawienie
  •  Skaluj swój model uczenia maszynowego, aby pasował do różnych grup demograficznych i branż
  • Środowiska nagrywania: Jakość studyjna, charakteryzujący się krystalicznie czystym dźwiękiem i minimalnym szumem tła, oraz Środowiska Naturalne, gdzie nagrania zawierają dźwięki otoczenia, aby naśladować sytuacje ze świata rzeczywistego.

100 +

Kraje

55K +

Dane dotyczące godzin rozmów

250 +

Projekty

60 +

Języki (ponad 100 dialektów)

8 / 16 / 44 / 48 kHz

Częstotliwość próbkowania

Nasza wiedza

Dopasuj dane audio do inteligentniejszych modeli NLP

Shaip oferuje kompleksowe usługi gromadzenia danych głosowych/dźwiękowych w ponad 100 językach, aby umożliwić technologiom głosowym zaspokojenie potrzeb zróżnicowanej grupy odbiorców na całym świecie. Możemy pracować nad projektami o dowolnym zakresie i wielkości; od licencjonowania istniejących gotowych zestawów danych dźwiękowych, przez zarządzanie niestandardowymi zbiorami danych dźwiękowych, po transkrypcję i adnotacje dźwiękowe. Bez względu na to, jak duży jest Twój projekt gromadzenia danych mowy, możemy dostosować usługi gromadzenia danych audio do Twoich potrzeb, aby zbudować wysokiej jakości zestawy danych NLP, które są ukierunkowane na dialekty, dźwięki i języki. Wybieraj z naszej szerokiej gamy zestawów danych mowy i zasobów gromadzenia danych dźwiękowych, aby korzystać z inteligentnych konfiguracji obsługujących głos.

Mowa monologowa

Monolog skryptowy i mowa spontaniczna

Koncentruje się na przetwarzaniu mowy pojedynczego mówcy. Wykorzystaj podpowiedzi skryptowe do wprowadzenia do jednokanałowych plików audio, zapewniając uchwycenie unikalnych wzorców mowy, tonów i niuansów charakterystycznych dla danej osoby.

Mowa dialogowa

Dialog Scenariusz i mowa spontaniczna

Dwuosobowa interakcja, replikacja rozmów i dialogów ze świata rzeczywistego z wielojęzyczną ekspozycją za pośrednictwem plików dwukanałowych i transkrybowanych zasobów.

Rozmowy wielostronne

Grupa / Muti-impreza
Rozmowy

Dyskusje wieloosobowe, wychwytywanie dynamiki grupy, nakładania się i zróżnicowanych tonów w celu dokładnego szkolenia modeli mowy.

Zbiór wypowiedzi typu „wake-word”.

Zbiór słów budzących / fraz kluczowych / wypowiedzi

Szkolić sztuczną inteligencję w zakresie identyfikowania kluczowych fraz lub wzbudzania słów lub wypowiedzi o podobnym znaczeniu przy użyciu różnorodnych, bogatych i autentycznych wypowiedzi w celu zaawansowanego przetwarzania i rozumienia języka naturalnego.

Mowa akustyczna

Dane akustyczne
Collection

Możemy profesjonalnie nagrywać dane dźwiękowe o studyjnej jakości, niezależnie od tego, czy pochodzą z restauracji, biur, domów, czy z różnych środowisk i języków, obejmując jednocześnie szerszy zakres akustyczny (kompleksowe zestawy danych dźwiękowych).

Automatyczne rozpoznawanie mowy

Automatyczne rozpoznawanie mowy (ASR)

Popraw dokładność swoich systemów automatycznego rozpoznawania mowy (ASR), mając dostęp do najnowocześniejszych, zróżnicowanych zestawów danych mowy/dźwięku z szerokiej gamy danych demograficznych.

Wypowiedź w języku naturalnym

Wielojęzyczne dane treningowe mowy/dźwięku

Nasi wykwalifikowani specjaliści językowi na całym świecie oferują wielojęzyczne dane audio/mowy w różnych językach i dialektach. Wysiłki te sprzyjają globalnej komunikacji i pokonują bariery językowe, przyczyniając się do bardziej włączających i skutecznych rozwiązań w zakresie sztucznej inteligencji.

Cyfrowi wirtualni asystenci

Text-to-Speech
(TTS)

Zbuduj wielojęzyczny model zamiany tekstu na mowę (TTS) z pomocą naszych globalnych pracowników, którzy pomogą Ci gromadzić dane mowy w ponad 150 językach i dialektach, aby ulepszyć modele sztucznej inteligencji, począwszy od elementów sterujących w samochodzie po chatboty i rozwiązania edukacyjne o wysokiej jakość danych dźwiękowych.

Nagrania z call center

Call Center
Rozmowy

Prawdziwa wymiana informacji między agentami a klientami, obsługująca wiele języków, takich jak hiszpański, niemiecki, amerykański angielski, bengalski, japoński, chiński i hindi.

Historie Sukcesu

Konwersacyjne zbiory danych AI zawierające ponad 3 tys. godzin danych w 8 językach

Chcąc zbudować wielojęzyczną platformę dla języków indyjskich, klient nawiązał współpracę z firmą Shaip w celu gromadzenia, segmentowania i transkrypcji dużych zbiorów danych w wielu językach indyjskich. Pomogłoby to w opracowaniu skutecznych modeli mowy, które mogłyby zasilać nową, innowacyjną platformę klienta.

Problem: Ponad 3,000 godzin danych audio zebranych w 8 językach indyjskich, posegmentowanych i przepisanych w celu opracowania automatycznego rozpoznawania mowy.

Rozwiązanie: Zapewniliśmy zbieranie danych, segmentację, transkrypcję oraz dostarczyliśmy pliki JSON z metadanymi. Na potrzeby projektu technologii mowy klienta zebraliśmy 3000 godzin danych dźwiękowych w 8 językach indyjskich.

Studium przypadku gromadzenia danych dotyczących mowy

Powody, dla których warto wybrać firmę Shaip jako godnego zaufania partnera w zakresie gromadzenia danych mowy

Ludzie

Ludzie

Dedykowane i przeszkolone zespoły:

  • Ponad 30,000 współpracowników w zakresie tworzenia danych, etykietowania i kontroli jakości Q
  • Uznany Zespół Zarządzania Projektami
  • Doświadczony zespół rozwoju produktu
  • Zespół ds. pozyskiwania i wdrażania puli talentów
Przetwarzanie

Przetwarzanie

Najwyższą wydajność procesu zapewniają:

  • Solidny proces 6 Sigma Stage-Gate
  • Dedykowany zespół 6 czarnych pasów Sigma – Właściciele kluczowych procesów i zgodność z jakością
  • Ciągłe doskonalenie i pętla sprzężenia zwrotnego
Platforma

Platforma

Opatentowana platforma oferuje korzyści:

  • Kompleksowa platforma internetowa
  • Nienaganna jakość
  • Szybsze TAT
  • Bezproblemowa dostawa

Gotowe zestawy mowy / audio

SzczegółyZbiór danych językaPróbna stawkaTyp zbioru danychCałkowita liczba godzin dźwiękuKrótki opisOpis zbioru danychKanał audioPlatforma nagrywaniaWER (%)Audio FormatFormat transkrypcjiPrzypadek użyciaIlość głośnikówCTA
PrzemówienieNowy Jork angielski_GC_8Nowy Jork angielskiNowy Jork angielskipl8 kHzRozmowa ogólna107Dane konwersacji ogólnych w języku angielskim w Nowym JorkuRozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) - 15-60 minut, PodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 118, Mężczyzna 114, Nieznane 0
PrzemówienieRosyjski_SM_48RosyjskiRosyjskiru-RU48 kHzScenariusz Monolog2,398Monolog skryptowy po rosyjskuNagrania jednowypowiedziowe, które zwykle mieszczą się w zakresie od 5 do 30 sekundMonoMobile App5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 1689 Mężczyzna 1937 Nieznany 214
PrzemówieniePendżabski_MAPunjabipendżabski (w przygotowaniu) Punjabi Dźwięk multimedialny40Pendżabski (w rurociągu) Media audioLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
PrzemówieniePendżabski_GCPunjabipendżabski (w przygotowaniu) PunjabiRozmowa ogólna100Pendżabski (w potoku) Ogólne dane konwersacjiNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,Stacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
Przemówieniependżabski_CC_8Punjabipendżabski (w przygotowaniu) PunjabiCentrum telefoniczne60Pendżabski (w przygotowaniu) Dane Call-CenterNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,Stacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
PrzemówieniePolska Polska_SM_48Polski (Polska)Polski (Polska)pl-PL48 kHzScenariusz Monolog1,482Polska Polska - Monolog scenariuszowyNagrania jednowypowiedziowe, które zwykle mieszczą się w zakresie od 5 do 30 sekundMonoMobile App5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 1324 Mężczyzna 701 Nieznany 24
Przemówieniejęzyk polski_MA_16PolskiPolskipl_PL16 kHzDźwięk multimedialny269Polskie media audioLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutMonoPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 173 Mężczyzna 354 Nieznany 6
PrzemówienieOriya_MAOriyaOriya (w przygotowaniu) lub_INDźwięk multimedialny40Oriya (In Pipeline) Medialne dane audioLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
PrzemówienieOriya_GCOriyaOriya (w przygotowaniu) lub_INRozmowa ogólna100Oriya (In Pipeline) Ogólne dane konwersacjiNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,Stacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
PrzemówienieOrija_CC_8OriyaOriya (w przygotowaniu) lub_INCentrum telefoniczne60Oriya (In Pipeline) Dane Call-CenterNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,Stacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
PrzemówienieNowa Zelandia_MA_16Nowa Zelandia angielski Nowa Zelandia angielski pl_NZ16 kHzDźwięk multimedialny400Nowa Zelandia Angielski Media audioLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutMonoPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 367, mężczyzna 678, nieznany 26
PrzemówienieNowa Zelandia_GC_8Nowa Zelandia angielski Nowa Zelandia angielski pl_NZ8 kHzRozmowa ogólna148Dane dotyczące rozmów ogólnych w języku angielskim w Nowej ZelandiiRozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) - 15-60 minut, PodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 167, mężczyzna 121, nieznany 4
PrzemówienieNowy Jork angielski_MA_16Nowy Jork angielskiNowy Jork angielskipl16 kHzDźwięk multimedialny140Dane audio New York English MediaLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutMonoPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 66, Mężczyzna 230, Nieznane 11
PrzemówienieSzkocki_GC_8szkocki (angielski akcent)szkocki (angielski akcent)pl_AB8 kHzRozmowa ogólna292Dane ze szkockiej rozmowy ogólnejRozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) - 15-60 minut, PodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 285, Mężczyzna 260, Nieznany 3
PrzemówienieNowy Jork angielski_CC_8Nowy Jork angielskiNowy Jork angielskipl8 kHzCentrum telefoniczne103Dane Call-center w języku angielskim w Nowym JorkuNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,PodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 610, Mężczyzna 532, Nieznane 0
PrzemówienieHolandia_SM_48holenderskiholenderskipl-PL48 kHzScenariusz Monolog1,205Holenderski monolog skryptowyNagrania jednowypowiedziowe, które zwykle mieszczą się w zakresie od 5 do 30 sekundMonoMobile App5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 1285 Mężczyzna 531 Nieznany 3
PrzemówienieMeksykanin_SM_48Hiszpański (Meksyk)Hiszpański (Meksyk)ES-MX48 kHzScenariusz Monolog1,492Meksykański hiszpański monolog scenariuszowyNagrania jednowypowiedziowe, które zwykle mieszczą się w zakresie od 5 do 30 sekundMonoMobile App5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 1016 Mężczyzna 1069 Nieznany 95
PrzemówienieMarathi_MAmarathiMarathi (w przygotowaniu) pan_INDźwięk multimedialny40Marathi (w potoku) Medialne dane audioLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
PrzemówienieMarathi_GCmarathiMarathi (w przygotowaniu) pan_INRozmowa ogólna100Marathi (w potoku) Ogólne dane konwersacjiNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,Stacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
PrzemówienieMarathi_CC_8marathiMarathi (w przygotowaniu) pan_INCentrum telefoniczne60Marathi (w przygotowaniu) Dane Call-CenterNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,Stacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
Przemówieniemalajalam_MAmalajalammalajalam (w przygotowaniu) ml_INDźwięk multimedialny40Malajalam (w rurociągu) Dane audio mediówLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
Przemówieniemalajalam_GCmalajalammalajalam (w przygotowaniu) ml_INRozmowa ogólna100Malajalam (w rurociągu) Ogólne dane konwersacjiNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,Stacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
Przemówieniemalajalam_CC_8malajalammalajalam (w przygotowaniu) ml_INCentrum telefoniczne60Malajalam (w rurociągu) Dane Call-CenterNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,Stacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
Przemówieniemalajski_MA_16malajskimalajskims_MY16 kHzDźwięk multimedialny344Malajskie dane audio mediówLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutMonoPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 236, Mężczyzna 626, Nieznany 47
Przemówieniemalajski_GC_8malajskimalajskims_MY8 kHzRozmowa ogólna266Dane z konwersacji ogólnej w języku malajskimRozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) — 15-60 minut, malajski w MalezjiPodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 316, Mężczyzna 176 , Nieznane 0
Przemówienietelugu_GC_8telugutelugute_IN8 kHzRozmowa ogólna553Ogólne dane konwersacji teluguRozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) - 15-60 minut, PodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 574, Mężczyzna 564, Nieznany 0
Przemówieniebrytyjski angielski_WW_16Angielski w Wielkiej BrytaniiAngielski w Wielkiej Brytaniipl_uk16 kHzObudź słowoGłośniki 200Wake Word w Wielkiej Brytanii w języku angielskimzbieranie danych dotyczących fraz kluczowych
  • głośniki 200
  • 4 unikalne frazy kluczowe na mówcę
  • Nagrania 25-30 powtarzanych fraz kluczowych na unikalną frazę kluczową
  • 25-30 plików audio na unikalną frazę kluczową
  • Łącznie 120 nagranych wypowiedzi na mówcę
Kanał 1Mobile App5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaPłeć: 50% mężczyzna, 50% kobieta, +/- 10%.
Przemówieniewalijski_GC_8walijski (angielski akcent)walijski (angielski akcent)pl_WL8 kHzRozmowa ogólna278Dane z konwersacji ogólnej w języku walijskimNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,PodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 270, Mężczyzna 324, Nieznane 0
Przemówieniewietnamski_MA_16wietnamskiwietnamskivi_VN16 kHzDźwięk multimedialny257Dane audio wietnamskich mediówLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutMonoPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 249, mężczyzna 200, nieznani 45
Przemówieniewietnamski_GC_8wietnamskiwietnamskivi_VN8 kHzRozmowa ogólna295Dane z wietnamskiej konwersacji ogólnejNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, północ (np. Hanoi), środkowa i południowa (np. Ho Chi Minh City).PodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 400, mężczyzna 380, nieznani 2
PrzemówienieTurecki Turcja_SM_48Turecki TurcjaTurecki Turcjatr-TR48 kHzScenariusz Monolog2,027Turecki TurcjaNagrania jednowypowiedziowe, które zwykle mieszczą się w zakresie od 5 do 30 sekundMonoMobile App5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 1561 Mężczyzna 1241 Nieznany 31
PrzemówienieTajski_MA_8tajskitajskith_TH16 kHzDźwięk multimedialny173Dźwięk w tajskich mediachLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutMonoPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 143, Mężczyzna 502, Nieznane 26
PrzemówienieTajski_GC_8tajskitajskith_TH8 kHzRozmowa ogólna183Tajska rozmowa ogólnaRozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) - 15-60 minut, Nieformalny rejestr używany między przyjaciółmiPodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 338, Mężczyzna 96, Nieznane 8
Przemówienietelugu_MAtelugutelugu (w przygotowaniu) te_INDźwięk multimedialny20Telugu (In Pipeline) Medialne dane audioLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
Przemówienietelugu_GCtelugutelugu (w przygotowaniu) te_INRozmowa ogólna50Telugu (w potoku) Ogólne dane konwersacjiNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,Stacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
Przemówienietelugu_CC_8telugutelugu (w przygotowaniu) te_INCentrum telefoniczne30Telugu (In Pipeline) Dane Call-CenterNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,Stacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
Przemówienietelugu_MA_16telugutelugute_IN16 kHzDźwięk multimedialny648Telugu Media dane audioLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutMonoPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 207, Mężczyzna 963, Nieznane 2
Przemówieniekoreański_SM_48koreańskikoreańskiko-KR48 kHzScenariusz Monolog1,955Koreański monolog skryptowyNagrania jednowypowiedziowe, które zwykle mieszczą się w zakresie od 5 do 30 sekundMonoMobile App5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 1195 Mężczyzna 1134 Nieznany 122
PrzemówienieTamil_MATamil tamilski (w przygotowaniu) ta_INDźwięk multimedialny40Tamil (In Pipeline) Medialne dane audioLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
PrzemówienieTamil_GCTamiltamilski (w przygotowaniu) ta_INRozmowa ogólna100Tamil (In Pipeline) Ogólne dane konwersacjiNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,Stacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
Przemówienietamilski_CC_8Tamiltamilski (w przygotowaniu) ta_INCentrum telefoniczne60Tamil (In Pipeline) Dane Call-CenterNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,Stacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
Przemówienieszwedzki_MA_16szwedzkiszwedzkisv_SE16 kHzDźwięk multimedialny278Dane audio szwedzkich mediówLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutMonoPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 195, mężczyzna 500, nieznany 21
Przemówienieszwedzki_CC_8szwedzkiszwedzkisv_SE8 kHzCentrum telefoniczne250Szwedzkie dane Call-CenterNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,PodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 1581, mężczyzna 727, nieznany 2
PrzemówienieSuahili_MA_16suahilisuahilisw_KE16 kHzDźwięk multimedialny265Dane audio w mediach suahiliLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutMonoPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 118, Mężczyzna 493, Nieznane 25
PrzemówienieSuahili_CC_8suahilisuahilisw_KE8 kHzCentrum telefoniczne230Dane z Call-Center w języku suahiliNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,PodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 611, Mężczyzna 833, Nieznane 0
PrzemówienieAngielski w RPA_MA_16Angielski południowoafrykańskiAngielski południowoafrykańskipl_ZA16 kHzDźwięk multimedialny251Dane audio południowoafrykańskich mediów w języku angielskimLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutMonoPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 235, Mężczyzna 432, Nieznane 36
Przemówieniepołudniowoafrykański angielski_CC_8Angielski południowoafrykańskiAngielski południowoafrykańskipl_ZA8 kHzCentrum telefoniczne261Dane Call-Center w języku angielskim w RPANieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,PodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 1274 , Mężczyzna 935 , Nieznany 1
PrzemówienieSingapur_MA_16Singapur angielskiSingapur angielskipl_PL16 kHzDźwięk multimedialny247Dane audio w SingapurzeLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutMonoPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 160, Mężczyzna 455, Nieznane 37
PrzemówienieSingapur_CC_8Singapur angielskiSingapur angielskipl_PL8 kHzCentrum telefoniczne218Singapurskie dane Call CenterNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,PodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 2139, Mężczyzna 884, Nieznany 21
PrzemówienieBoston_CC_8bostoński angielskibostoński angielskipl8 kHzCentrum telefoniczne177Dane z bostońskiego centrum obsługi telefonicznejNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,PodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta: 605, mężczyzna: 711 i nieznany: 0
PrzemówienieAngielski głębokie południe_CC_8Głębokie Południe angielskieGłębokie Południe angielskiepl8 kHzCentrum telefoniczne151Dane Call-center w języku angielskim Deep SouthNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,PodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 221 , Mężczyzna 1004 , Nieznany 7
PrzemówienieDuński_SM_48duńskiduńskida-DK48 kHzScenariusz Monolog2,579Duński monolog scenariuszowyNagrania jednowypowiedziowe, które zwykle mieszczą się w przedziale od 5 do 30 sekund, duński z DaniiMonoMobile App5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 1551 Mężczyzna 1233 Nieznany 42
PrzemówienieDuński_MA_16duńskiduńskida_DK16 kHzDźwięk multimedialny664Duńskie dane audio mediówLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutMonoPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta: 369, Mężczyzna: 864, Nieznany: 27
PrzemówienieDuński_GC_8duńskiduńskida_DK8 kHzRozmowa ogólna372Dane z konwersacji ogólnej w języku duńskimRozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) - 15-60 minut, PodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta: 311, Mężczyzna: 417, Nieznany: 0
PrzemówienieChiński tradycyjny_SM_48Chiński tradycyjnyChiński tradycyjnyzh-TW48 kHzScenariusz Monolog1,028Chiński tradycyjnyNagrania jednowypowiedziowe, które zwykle mieszczą się w zakresie od 5 do 30 sekundMonoMobile App5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 1069 Mężczyzna 262 Nieznany 3
PrzemówienieChiński uproszczony_SM_48Chiński uproszczonyChiński uproszczonyzh-CN48 kHzScenariusz Monolog2,762Chiński uproszczonyNagrania jednowypowiedziowe, które zwykle mieszczą się w zakresie od 5 do 30 sekundMonoMobile App5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 1920 Mężczyzna 1535 Nieznany 270
PrzemówienieChiński_MA_16Chiński angielskiChiński angielskipl16 kHzDźwięk multimedialny249Dane audio chińskich mediówLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutMonoPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta: 126, mężczyzna: 346 i nieznany: 6
PrzemówienieChiński_CC_8Chiński angielskiChiński angielskipl8 kHzCentrum telefoniczne169Dane chińskiego Call-centerNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,PodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta: 1790, mężczyzna: 523 i nieznany: 13
Przemówieniekanadyjski_SM_48Kanadyjski francuskiKanadyjski francuskiFR-CA48 kHzScenariusz Monolog1,222Kanadyjski francuskiNagrania jednowypowiedziowe, które zwykle mieszczą się w zakresie od 5 do 30 sekundMonoMobile App5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 974 Mężczyzna 631 Nieznany 1
PrzemówienieBoston_MA_16bostoński angielskibostoński angielskipl16 kHzDźwięk multimedialny93Dane dźwiękowe Boston MediaLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutMonoPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta: 43, mężczyzna: 181 i nieznany: 2
PrzemówienieBoston_GC_8bostoński angielskibostoński angielskipl8 kHzRozmowa ogólna32Dane z rozmowy ogólnej w BostonieRozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) - 15-60 minut, PodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta: 53, mężczyzna: 83 i nieznany: 0
PrzemówienieAngielski głębokie południe_GC_8Głębokie Południe angielskieGłębokie Południe angielskiepl8 kHzRozmowa ogólna56Ogólne dane konwersacji w języku angielskim na głębokim południuRozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) - 15-60 minut, PodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 99, Mężczyzna 31, Nieznany 0
Przemówieniebengalski_MAbengalskibengalski (w przygotowaniu) bn_INDźwięk multimedialny40Bengalski (w potoku) Medialne dane audioLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
Przemówieniebengalski_GCbengalskibengalski (w przygotowaniu) bn_INRozmowa ogólna100Bengalski (w potoku) Ogólne dane konwersacjiNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,Stacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
Przemówieniebengalski_CC_8bengalskibengalski (w przygotowaniu) bn_INCentrum telefoniczne60Bengalski (w przygotowaniu) Dane Call-CenterNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,Stacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
PrzemówienieAsamski_MAAsamskiAsamski (w przygotowaniu) jak wDźwięk multimedialny40Assamese (In Pipeline) Medialne dane audioLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
PrzemówienieAsamski_GCAsamskiAsamski (w przygotowaniu) jak wRozmowa ogólna100Assamese (In Pipeline) Ogólne dane konwersacjiNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,Stacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
Przemówienieasamski_CC_8AsamskiAsamski (w przygotowaniu) jak wCentrum telefoniczne60Assamese (w przygotowaniu) Dane Call-CenterNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,Stacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
Przemówieniearabski_SM_48ArabowieArabowiear-SA48 kHzScenariusz Monolog1,947Monolog napisany po arabskuNagrania jednowypowiedziowe, które zwykle mieszczą się w zakresie od 5 do 30 sekundMonoMobile App5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 838 Mężczyzna 1209 Nieznany 78
Przemówieniearabski_GC_8ArabowieArabowiear_AE8 kHzRozmowa ogólna292Ogólne dane dotyczące konwersacji w języku arabskimRozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) — 15-60 minut, arabski z krajów Zatoki PerskiejPodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta: 171, mężczyzna: 534 i nieznany: 1
PrzemówienieAfrykanerski_MA_16AfrikaansAfrikaansaf_ZA16 kHzDźwięk multimedialny658Pliki multimedialne w języku afrikaansLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutMonoPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta: 750, mężczyzna: 1278 i nieznany: 52
PrzemówienieAfrykanerski_GC_8AfrikaansAfrikaansaf_ZA8 kHzRozmowa ogólna368Ogólne dane konwersacji w języku afrikaansRozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) — 15-60 minut, język afrikaans używany w AfrycePodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta: 502, mężczyzna: 390 i nieznany: 2
Przemówieniepl_US_MA_16Afroamerykański język ludowyAfroamerykański język ludowypl16 kHzDźwięk multimedialny154Dane mediów wernakularnych AfroamerykanówLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutMonoPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta: 151, mężczyzna: 150 i nieznany: 10
PrzemówienieHINGLISH_MA_16HinglijskiHinglijskihg_IN16 kHzDźwięk multimedialny216HINGLISH Medialne dane audioLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutMonoPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 75, Mężczyzna 380, Nieznane 0
Przemówieniekoreański_MA_16koreańskikoreańskiko_KR16 kHzDźwięk multimedialny204Koreańskie dane audio w mediachLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutMonoPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 70 Mężczyzna 303, Nieznany 25
Przemówieniekoreański_CC_8koreańskikoreańskiko_KR8 kHzCentrum telefoniczne107Dane z koreańskiego Call-centerNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,PodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 1086, Mężczyzna 210, Nieznane 4
PrzemówienieKannada_MAkannadakannada (w potoku) kn_INDźwięk multimedialny40Kannada (In Pipeline) Medialne dane audioLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
PrzemówienieKannada_GCkannadakannada (w potoku) kn_INRozmowa ogólna100Kannada (w potoku) Ogólne dane konwersacjiNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,Stacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
PrzemówienieKannada_CC_8kannadakannada (w potoku) kn_INCentrum telefoniczne60Kannada (w potoku) Dane Call-CenterNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,Stacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
PrzemówienieJapoński_SM_48JaponkiJaponkija-JP48 kHzScenariusz Monolog2,335Japoński monolog skryptowyNagrania jednowypowiedziowe, które zwykle mieszczą się w zakresie od 5 do 30 sekundMonoMobile App5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 1460 Mężczyzna 1221 Nieznany 194
Przemówienieirlandzki_GC_8irlandzkiirlandzkipl_PL8 kHzRozmowa ogólna192Dane z irlandzkiej rozmowy ogólnejRozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) - 15-60 minut, PodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 213 , Mężczyzna 153 , Nieznany 0
Przemówienieindonezyjski_MA_16indonezyjskiindonezyjskiZrobiłem16 kHzDźwięk multimedialny643Indonezyjskie dane audio mediówLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutMonoPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 746, Mężczyzna 1507, Nieznane 129
Przemówienieindonezyjski_GC_8indonezyjskiindonezyjskiZrobiłem8 kHzRozmowa ogólna496Indonezyjskie dane z konwersacji ogólnejRozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) — 15-60 minut, Bahasa IndonesianPodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 524, Mężczyzna 454, Nieznane 2
PrzemówienieHiszpan_MA_16Hiszpanie angielskiHiszpanie angielskipl16 kHzDźwięk multimedialny155Hiszpańskie połączenia audio w mediachLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutMonoPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 140, Mężczyzna 219, Nieznane 5
PrzemówienieHiszpanie_CC_8Hiszpanie angielskiHiszpanie angielskipl8 kHzCentrum telefoniczne212Hiszpańskie dane z Call-centerNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,PodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 822, Mężczyzna 1262, Nieznane 0
Przemówieniepl_US_CC_8Afroamerykański język ludowyAfroamerykański język ludowypl8 kHzCentrum telefoniczne211Dane call-center w języku afroamerykańskimNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,PodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta: 612, mężczyzna: 1242 i nieznany: 12
PrzemówienieHINGLISH_CC_8HinglijskiHinglijskihg_IN8 kHzCentrum telefoniczne208HINGLISH Dane call centerNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,PodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 822, Mężczyzna 1262 , Nieznane 0
PrzemówienieHinduski_SM_48hinduskihinduskihi-IN48 kHzScenariusz Monolog2,867Monolog skryptowy w języku hindiNagrania jednowypowiedziowe, które zwykle mieszczą się w zakresie od 5 do 30 sekundMonoMobile App5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 1977 Mężczyzna 1864 Nieznany 147
PrzemówienieHinduski_MA_16hinduskihinduskicześć_IN16 kHzDźwięk multimedialny219Hindi Media dane audioLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutMonoPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 83, Mężczyzna 309, Nieznany 0
Przemówieniehebrajski_MA_16hebrajskihebrajskion_IL16 kHzDźwięk multimedialny427Hebrajskie dane audio mediówLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutMonoPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 361, Mężczyzna 513, Nieznany 13
PrzemówienieHebrajski_rozmowa ogólna_8hebrajskihebrajskion_IL8 kHzRozmowa ogólna399Ogólne dane konwersacji hebrajskiejRozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) — 15-60 minut, hebrajski w IzraeluPodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 414 , Mężczyzna 399 , Nieznany 1
PrzemówienieGudżarati_MAgujaratiGudżarati (w rurociągu) gu_INDźwięk multimedialny40Gudżarati (w rurociągu) Dane audio mediówLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
PrzemówienieGudżarati_GCgujaratiGudżarati (w rurociągu) gu_INRozmowa ogólna100Gudżarati (w potoku) Ogólne dane konwersacjiNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,Stacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
PrzemówienieGudżarati_CC_8gujaratiGudżarati (w rurociągu) gu_INCentrum telefoniczne60Gudżarati (w rurociągu) Dane Call-CenterNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,Stacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
PrzemówienieNiemiecki_IVR_8niemieckiniemieckide-De8 kHz IVR200Niemieckie dane IVRCzłowiek do maszyny. Przepływ typu IVR, w którym pojawia się zachęta TTS (np. „Jak mogę ci pomóc”), po której następuje spontaniczna reakcja człowiekaMonoStacjonarny. Wav .jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka Kobieta 10115 Mężczyzna 8750 Nieznany 0
PrzemówienieNiemiecki_CC_8niemieckiniemieckide-De8 kHzCentrum telefoniczne64Niemieckie dane Call-center Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,MonoStacjonarny. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 478 Mężczyzna 1440 Nieznany 0
PrzemówienieAngielski głębokie południe_MA_16Głębokie Południe angielskieGłębokie Południe angielskiepl16 kHzDźwięk multimedialny266Angielskie dane audio Deep South MediaLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutMonoPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 204, Mężczyzna 356, Nieznany 21

Usługi oferowane

Specjalistyczne zbieranie danych dźwiękowych to nie wszystko, co trzeba zrobić, jeśli chodzi o kompleksowe konfiguracje sztucznej inteligencji. W Shaip możesz nawet rozważyć następujące usługi, aby modele były bardziej rozpowszechnione niż zwykle:

Zbieranie danych tekstowych

Zbieranie danych tekstowych
Usługi

Prawdziwą wartością usług gromadzenia danych kognitywnych Shaip jest to, że dają one organizacjom klucz do odblokowania krytycznych informacji znajdujących się w danych nieustrukturyzowanych

Gromadzenie danych obrazu

Usługi gromadzenia danych obrazu

Upewnij się, że model wizji komputerowej dokładnie identyfikuje każdy obraz, aby bezproblemowo trenować modele AI nowej generacji w przyszłości

Zbieranie danych wideo

Usługi gromadzenia danych wideo

Teraz skup się na wizji komputerowej wraz z NLP, aby trenować swoje modele do perfekcyjnego identyfikowania obiektów, osób, środków odstraszających i innych elementów wizualnych

Skontaktuj się z nami

Chcesz zbudować własny zbiór danych dźwiękowych?

Połącz się z naszym wewnętrznym ekspertem od gromadzenia danych mowy, aby skonfigurować repozytorium audio, które najlepiej odpowiada Twoim wymaganiom

  • Rejestrując się, zgadzam się z Shaip Polityka prywatności i Regulamin i wyrazić zgodę na otrzymywanie komunikacji marketingowej B2B od Shaip.

Gromadzenie danych mowy dla modelu ML odnosi się do procesu gromadzenia nagrań dźwiękowych języka mówionego. Ta kolekcja pomaga w szkoleniu i udoskonalaniu algorytmów uczenia maszynowego, szczególnie tych skupiających się na rozumieniu i przetwarzaniu ludzkich głosów.

Chcąc zebrać dane audio na potrzeby automatycznego rozpoznawania mowy (ASR), należy zacząć od zdefiniowania konkretnych potrzeb projektu, w tym żądanego języka, akcentu i rodzaju mowy. Po ustawieniu tych parametrów upewnij się, że uzyskałeś wszystkie niezbędne uprawnienia w celu poszanowania prywatności użytkowników. Następnie użyj odpowiednich urządzeń nagrywających lub oprogramowania, aby przechwycić wyraźne próbki audio. Każde nagranie powinno być szczegółowo opatrzone transkrypcją lub innymi istotnymi metadanymi i systematycznie przechowywane, aby zapewnić łatwy dostęp.

Zbiór danych mowy w uczeniu maszynowym ma kluczowe znaczenie dla uczenia, testowania i sprawdzania poprawności modeli dostosowanych do rozpoznawania, transkrypcji i interpretacji języka mówionego. Takie zbiory danych torują drogę niezliczonym aplikacjom, od asystentów głosowych i usług transkrypcji po biometrię głosu.

Aby zebrać dokładne dane dotyczące różnych języków i akcentów, niezbędna jest współpraca z rodzimymi użytkownikami języka o pożądanym pochodzeniu językowym. Staraj się, aby próba była zróżnicowana i reprezentatywna, aby uwzględnić szerokie spektrum niuansów demograficznych. Aby zapewnić spójność dźwięku, należy stosować ustandaryzowany sprzęt nagrywający w jednolitym środowisku. Co ważne, do każdego fragmentu danych dodawaj szczegółowe transkrypcje i metadane, opisujące konkretny język i akcent.