Najbardziej zaufane usługi gromadzenia danych mowy dla Twojej sztucznej inteligencji

Trenuj swoje modele NLP, VA, prototypy TTS i nie tylko dzięki wysokiej jakości danych konwersacyjnych dzięki naszym usługom gromadzenia danych audio i mowy

Zbieranie danych dźwiękowych

Odkryj potoki danych audio bez wąskich gardeł.

Wyróżnieni klienci

Dlaczego zestaw danych do nauki mowy jest potrzebny do przetwarzania języka naturalnego?

Czy zauważyłeś, że Twój smartfon VA, tj. Siri, Bixby lub cokolwiek innego, wchodzi w interakcję? Sposób, w jaki odpowiadają na każde pytanie oraz analizują i prezentują wyniki zgodnie z Twoimi wymaganiami!

Cóż, o ile te VA nas intrygują, te inteligentne zasoby i programy muszą być stopniowo szkolone, aby móc reagować równie dokładnie. To jest powód, dla którego powinieneś rozważyć zlecenie zbierania danych mowy/dźwięku i głosu wyspecjalizowanym firmom zajmującym się zbieraniem danych, posiadającym profesjonalną wiedzę fachową.

Inwestowanie w gromadzenie danych dźwiękowych przygotowuje Twój rzekomy NLP do obsługi wielojęzycznej publiczności. Nie tylko to, zbieranie danych mowy dla NLP, gdy jest obsługiwane przez eksperta, uwzględnia nawet zbieranie w terenie, analizę semantyczną i transkrypcję audio. Dzięki profesjonalnym rozwiązaniom do gromadzenia danych mowy możesz:

  • Uzyskaj wysokiej jakości zestawy danych audio, aby poprawić dokładność
  • Docelowa konfiguracja zróżnicowanego scenariusza
  • Zbieraj wielojęzyczne dane treningowe AI
  • Skaluj swój model uczenia maszynowego, aby pasował do różnych grup demograficznych i branż

Profesjonalne usługi gromadzenia danych audio/głosowych dla NLP

Dowolny temat. Dowolny scenariusz.

Inteligentne systemy NLP nie są ogólne. W zależności od funkcjonalności programu, może być konieczne skupienie się na przestrzennych i wielojęzycznych usługach danych audio, które mogą być oferowane tylko przez renomowane firmy zajmujące się gromadzeniem danych głosowych/dźwiękowych. W tym miejscu Shaip wkracza w schemat rzeczy jako wysoce niezawodny dostawca usług transmisji danych, który jest dumny z tego, że wykonuje ciężkie prace dla twoich rzekomo inteligentnych sztucznej inteligencji.

W Shaip naszym głównym celem jest dostarczanie modelom możliwie największej ilości niestandardowych próbek mowy w jak najkrótszym czasie. Z nami na pokładzie możesz oczekiwać:

Kolekcja mowy
  • Wyselekcjonowane gromadzenie danych audio / głosowych dla NLP
  • Programy szyte na miarę, które reagują zgodnie z konkretnymi przypadkami użycia
  • Przygotowanie do eksploracji zbiorów danych audio
  • Specyficzne dla wzorca i zautomatyzowane przetwarzanie danych
  • Najwyższy możliwy poziom specyficzności domeny
  • Szybszy czas wprowadzania na rynek dzięki przyspieszonym modelom AI

Nasza wiedza specjalistyczna

Dopasuj dane audio, aby przygotować inteligentne modele NLP

Shaip oferuje kompleksowe usługi gromadzenia danych głosowych/dźwiękowych w ponad 100 językach, aby umożliwić technologiom głosowym zaspokojenie potrzeb zróżnicowanej grupy odbiorców na całym świecie. Możemy pracować nad projektami o dowolnym zakresie i wielkości; od licencjonowania istniejących gotowych zestawów danych dźwiękowych, przez zarządzanie niestandardowymi zbiorami danych dźwiękowych, po transkrypcję i adnotacje dźwiękowe. Bez względu na to, jak duży jest Twój projekt gromadzenia danych mowy, możemy dostosować usługi gromadzenia danych audio do Twoich potrzeb, aby zbudować wysokiej jakości zestawy danych NLP, które są ukierunkowane na dialekty, dźwięki i języki. Wybieraj z naszej szerokiej gamy zestawów danych mowy i zasobów gromadzenia danych dźwiękowych, aby korzystać z inteligentnych konfiguracji obsługujących głos.

Mowa monologowa

Kolekcja mowy monologowej

Obsługuj wymagania oparte na mowie dotyczące samodzielnego głośnika dla prototypów Text-to-Speed ​​i wymagań specyficznych dla transkrypcji za pomocą skryptów szybkiego podawania, za pośrednictwem plików jednokanałowych.

Mowa dialogowa

Mowa dialogowa
Collection

Skonfiguruj inteligentnych wirtualnych asystentów, chatboty dostosowane do prędkości i modele automatycznego rozpoznawania mowy z wielojęzyczną ekspozycją za pośrednictwem plików dwukanałowych i zasobów transkrybowanych.

Mowa akustyczna

Dane akustyczne
Collection

Dzięki naszej globalnej sieci współpracowników możemy profesjonalnie nagrywać dane dźwiękowe o studyjnej jakości, niezależnie od tego, czy są to restauracje, biura, domy, czy z różnych środowisk i języków, obejmując jednocześnie szerszy zakres akustyczny

Wypowiedź w języku naturalnym

Kolekcja wyrażeń w języku naturalnym

Trenuj inteligentne konfiguracje handlowe, aby identyfikować różnie wypowiadane przez klientów frazy o podobnym znaczeniu, aby sztuczna inteligencja stała się bardziej autonomiczna w czasie

Cyfrowi wirtualni asystenci

Cyfrowy / Wirtualny
Asystenci

Skoncentruj się na budowaniu swojego nadchodzącego Wirtualnego Asystenta, trenując modele z zastrzeżeniami ludzkiej mowy, wielojęzycznej ekspozycji, analizy kontekstowej i NLU.

Automatyczne rozpoznawanie mowy

Automatyczne rozpoznawanie mowy (ASR)

Popraw dokładność swoich systemów automatycznego rozpoznawania mowy (ASR), mając dostęp do najnowocześniejszych, zróżnicowanych zestawów danych mowy/dźwięku z szerokiej gamy danych demograficznych.

Wypowiedź w języku naturalnym

Wielojęzyczne dane treningowe mowy/dźwięku

Nasi wysoko wykwalifikowani specjaliści językowi na całym świecie oferują wielojęzyczne dane szkoleniowe audio/mowy w wielu językach i dialektach, w tym arabskim, duńskim, chińskim, afrikaans, singapurskim, nowozelandzkim, hebrajskim, indonezyjskim, irlandzkim, koreańskim, malajskim, polskim, szkockim, szwedzkim , francuski, niemiecki, wietnamski, tajski, włoski, hiszpański i inne.

Cyfrowi wirtualni asystenci

Text-to-Speech
(TTS)

Aby zapewnić użytkownikom lepsze wrażenia z korzystania z TTS, niezbędne jest opracowanie systemu tak, aby brzmiał naturalnie. Zbuduj wielojęzyczny model zamiany tekstu na mowę (TTS) z pomocą naszych globalnych pracowników, którzy pomogą Ci zbierać dane mowy w ponad 150 językach i dialektach, aby ulepszyć modele sztucznej inteligencji, od elementów sterujących w samochodzie po chatboty i rozwiązania edukacyjne o wysokiej wysokiej jakości dane audio.

Powody, dla których warto wybrać firmę Shaip jako godnego zaufania partnera w zakresie gromadzenia danych mowy

Ludzie

Ludzie

Dedykowane i przeszkolone zespoły:

  • Ponad 30,000 współpracowników w zakresie tworzenia danych, etykietowania i kontroli jakości Q
  • Uznany Zespół Zarządzania Projektami
  • Doświadczony zespół rozwoju produktu
  • Zespół ds. pozyskiwania i wdrażania puli talentów
Przetwarzanie

Przetwarzanie

Najwyższą wydajność procesu zapewniają:

  • Solidny proces 6 Sigma Stage-Gate
  • Dedykowany zespół 6 czarnych pasów Sigma – Właściciele kluczowych procesów i zgodność z jakością
  • Ciągłe doskonalenie i pętla sprzężenia zwrotnego
Platforma

Platforma

Opatentowana platforma oferuje korzyści:

  • Kompleksowa platforma internetowa
  • Nienaganna jakość
  • Szybsze TAT
  • Bezproblemowa dostawa

Język: zebrane zbiory danych audio

Gotowe zestawy mowy / audio

SzczegółyZbiór danych językaPróbna stawkaTyp zbioru danychCałkowita liczba godzin dźwiękuKrótki opisOpis zbioru danychKanał audioPlatforma nagrywaniaWER (%)Audio FormatFormat transkrypcjiPrzypadek użyciaIlość głośnikówCTA
Przemówieniepl_US_CC_8Afroamerykański język ludowyAfroamerykański język ludowypl8 kHzCentrum telefoniczne211Dane call-center w języku afroamerykańskimNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,PodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta: 612, mężczyzna: 1242 i nieznany: 12
Przemówieniepl_US_MA_16Afroamerykański język ludowyAfroamerykański język ludowypl16 kHzDźwięk multimedialny154Dane mediów wernakularnych AfroamerykanówLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutMonoPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta: 151, mężczyzna: 150 i nieznany: 10
PrzemówienieAfrykanerski_GC_8AfrikaansAfrikaansaf_ZA8 kHzRozmowa ogólna368Ogólne dane konwersacji w języku afrikaansRozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) — 15-60 minut, język afrikaans używany w AfrycePodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta: 502, mężczyzna: 390 i nieznany: 2
PrzemówienieAfrykanerski_MA_16AfrikaansAfrikaansaf_ZA16 kHzDźwięk multimedialny658Pliki multimedialne w języku afrikaansLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutMonoPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta: 750, mężczyzna: 1278 i nieznany: 52
Przemówieniearabski_GC_8arabskiarabskiar_AE8 kHzRozmowa ogólna292Ogólne dane dotyczące konwersacji w języku arabskimRozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) — 15-60 minut, arabski z krajów Zatoki PerskiejPodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta: 171, mężczyzna: 534 i nieznany: 1
Przemówieniearabski_SM_48arabskiarabskiar-SA48 kHzScenariusz Monolog1,947Monolog napisany po arabskuNagrania jednowypowiedziowe, które zwykle mieszczą się w zakresie od 5 do 30 sekundMonoMobile App5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 838 Mężczyzna 1209 Nieznany 78
Przemówienieasamski_CC_8AsamskiAsamski (w przygotowaniu) jak wCentrum telefoniczne60Assamese (w przygotowaniu) Dane Call-CenterNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,Stacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
PrzemówienieAsamski_GCAsamskiAsamski (w przygotowaniu) jak wRozmowa ogólna100Assamese (In Pipeline) Ogólne dane konwersacjiNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,Stacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
PrzemówienieAsamski_MAAsamskiAsamski (w przygotowaniu) jak wDźwięk multimedialny40Assamese (In Pipeline) Medialne dane audioLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
Przemówieniebengalski_CC_8bengalskibengalski (w przygotowaniu) bn_INCentrum telefoniczne60Bengalski (w przygotowaniu) Dane Call-CenterNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,Stacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
Przemówieniebengalski_GCbengalskibengalski (w przygotowaniu) bn_INRozmowa ogólna100Bengalski (w potoku) Ogólne dane konwersacjiNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,Stacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
Przemówieniebengalski_MAbengalskibengalski (w przygotowaniu) bn_INDźwięk multimedialny40Bengalski (w potoku) Medialne dane audioLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
PrzemówienieBoston_CC_8bostoński angielskibostoński angielskipl8 kHzCentrum telefoniczne177Dane z bostońskiego centrum obsługi telefonicznejNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,PodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta: 605, mężczyzna: 711 i nieznany: 0
PrzemówienieBoston_GC_8bostoński angielskibostoński angielskipl8 kHzRozmowa ogólna32Dane z rozmowy ogólnej w BostonieRozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) - 15-60 minut, PodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta: 53, mężczyzna: 83 i nieznany: 0
PrzemówienieBoston_MA_16bostoński angielskibostoński angielskipl16 kHzDźwięk multimedialny93Dane dźwiękowe Boston MediaLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutMonoPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta: 43, mężczyzna: 181 i nieznany: 2
Przemówieniekanadyjski_SM_48Kanadyjski francuskiKanadyjski francuskiFR-CA48 kHzScenariusz Monolog1,222Kanadyjski francuskiNagrania jednowypowiedziowe, które zwykle mieszczą się w zakresie od 5 do 30 sekundMonoMobile App5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 974 Mężczyzna 631 Nieznany 1
PrzemówienieChiński_CC_8Chiński angielskiChiński angielskipl8 kHzCentrum telefoniczne169Dane chińskiego Call-centerNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,PodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta: 1790, mężczyzna: 523 i nieznany: 13
PrzemówienieChiński_MA_16Chiński angielskiChiński angielskipl16 kHzDźwięk multimedialny249Dane audio chińskich mediówLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutMonoPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta: 126, mężczyzna: 346 i nieznany: 6
PrzemówienieChiński uproszczony_SM_48Chiński uproszczonyChiński uproszczonyzh-CN48 kHzScenariusz Monolog2,762Chiński uproszczonyNagrania jednowypowiedziowe, które zwykle mieszczą się w zakresie od 5 do 30 sekundMonoMobile App5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 1920 Mężczyzna 1535 Nieznany 270
PrzemówienieChiński tradycyjny_SM_48Chiński tradycyjnyChiński tradycyjnyzh-TW48 kHzScenariusz Monolog1,028Chiński tradycyjnyNagrania jednowypowiedziowe, które zwykle mieszczą się w zakresie od 5 do 30 sekundMonoMobile App5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 1069 Mężczyzna 262 Nieznany 3
PrzemówienieDuński_GC_8duńskiduńskida_DK8 kHzRozmowa ogólna372Dane z konwersacji ogólnej w języku duńskimRozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) - 15-60 minut, PodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta: 311, Mężczyzna: 417, Nieznany: 0
PrzemówienieDuński_MA_16duńskiduńskida_DK16 kHzDźwięk multimedialny664Duńskie dane audio mediówLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutMonoPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta: 369, Mężczyzna: 864, Nieznany: 27
PrzemówienieDuński_SM_48duńskiduńskida-DK48 kHzScenariusz Monolog2,579Duński monolog scenariuszowyNagrania jednowypowiedziowe, które zwykle mieszczą się w przedziale od 5 do 30 sekund, duński z DaniiMonoMobile App5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 1551 Mężczyzna 1233 Nieznany 42
PrzemówienieAngielski głębokie południe_CC_8Głębokie Południe angielskieGłębokie Południe angielskiepl8 kHzCentrum telefoniczne151Dane Call-center w języku angielskim Deep SouthNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,PodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 221 , Mężczyzna 1004 , Nieznany 7
PrzemówienieAngielski głębokie południe_GC_8Głębokie Południe angielskieGłębokie Południe angielskiepl8 kHzRozmowa ogólna56Ogólne dane konwersacji w języku angielskim na głębokim południuRozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) - 15-60 minut, PodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 99, Mężczyzna 31, Nieznany 0
PrzemówienieAngielski głębokie południe_MA_16Głębokie Południe angielskieGłębokie Południe angielskiepl16 kHzDźwięk multimedialny266Angielskie dane audio Deep South MediaLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutMonoPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 204, Mężczyzna 356, Nieznany 21
PrzemówienieNiemiecki_CC_8niemieckiniemieckide-De8 kHzCentrum telefoniczne64Niemieckie dane Call-center Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,MonoStacjonarny. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 478 Mężczyzna 1440 Nieznany 0
PrzemówienieNiemiecki_IVR_8niemieckiniemieckide-De8 kHz IVR200Niemieckie dane IVRCzłowiek do maszyny. Przepływ typu IVR, w którym pojawia się zachęta TTS (np. „Jak mogę ci pomóc”), po której następuje spontaniczna reakcja człowiekaMonoStacjonarny. Wav .jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka Kobieta 10115 Mężczyzna 8750 Nieznany 0
PrzemówienieGudżarati_CC_8gujaratiGudżarati (w rurociągu) gu_INCentrum telefoniczne60Gudżarati (w rurociągu) Dane Call-CenterNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,Stacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
PrzemówienieGudżarati_GCgujaratiGudżarati (w rurociągu) gu_INRozmowa ogólna100Gudżarati (w potoku) Ogólne dane konwersacjiNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,Stacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
PrzemówienieGudżarati_MAgujaratiGudżarati (w rurociągu) gu_INDźwięk multimedialny40Gudżarati (w rurociągu) Dane audio mediówLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
PrzemówienieHebrajski_rozmowa ogólna_8hebrajskihebrajskion_IL8 kHzRozmowa ogólna399Ogólne dane konwersacji hebrajskiejRozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) — 15-60 minut, hebrajski w IzraeluPodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 414 , Mężczyzna 399 , Nieznany 1
Przemówieniehebrajski_MA_16hebrajskihebrajskion_IL16 kHzDźwięk multimedialny427Hebrajskie dane audio mediówLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutMonoPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 361, Mężczyzna 513, Nieznany 13
PrzemówienieHinduski_MA_16hinduskihinduskicześć_IN16 kHzDźwięk multimedialny219Hindi Media dane audioLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutMonoPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 83, Mężczyzna 309, Nieznany 0
PrzemówienieHinduski_SM_48hinduskihinduskihi-IN48 kHzScenariusz Monolog2,867Monolog skryptowy w języku hindiNagrania jednowypowiedziowe, które zwykle mieszczą się w zakresie od 5 do 30 sekundMonoMobile App5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 1977 Mężczyzna 1864 Nieznany 147
PrzemówienieHINGLISH_CC_8HinglijskiHinglijskihg_IN8 kHzCentrum telefoniczne208HINGLISH Dane call centerNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,PodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 822, Mężczyzna 1262 , Nieznane 0
PrzemówienieHINGLISH_MA_16HinglijskiHinglijskihg_IN16 kHzDźwięk multimedialny216HINGLISH Medialne dane audioLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutMonoPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 75, Mężczyzna 380, Nieznane 0
PrzemówienieHiszpanie_CC_8Hiszpanie angielskiHiszpanie angielskipl8 kHzCentrum telefoniczne212Hiszpańskie dane z Call-centerNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,PodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 822, Mężczyzna 1262, Nieznane 0
PrzemówienieHiszpan_MA_16Hiszpanie angielskiHiszpanie angielskipl16 kHzDźwięk multimedialny155Hiszpańskie połączenia audio w mediachLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutMonoPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 140, Mężczyzna 219, Nieznane 5
Przemówienieindonezyjski_GC_8indonezyjskiindonezyjskiZrobiłem8 kHzRozmowa ogólna496Indonezyjskie dane z konwersacji ogólnejRozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) — 15-60 minut, Bahasa IndonesianPodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 524, Mężczyzna 454, Nieznane 2
Przemówienieindonezyjski_MA_16indonezyjskiindonezyjskiZrobiłem16 kHzDźwięk multimedialny643Indonezyjskie dane audio mediówLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutMonoPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 746, Mężczyzna 1507, Nieznane 129
Przemówienieirlandzki_GC_8irlandzkiirlandzkipl_PL8 kHzRozmowa ogólna192Dane z irlandzkiej rozmowy ogólnejRozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) - 15-60 minut, PodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 213 , Mężczyzna 153 , Nieznany 0
PrzemówienieJapoński_SM_48JaponkiJaponkija-JP48 kHzScenariusz Monolog2,335Japoński monolog skryptowyNagrania jednowypowiedziowe, które zwykle mieszczą się w zakresie od 5 do 30 sekundMonoMobile App5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 1460 Mężczyzna 1221 Nieznany 194
PrzemówienieKannada_CC_8kannadakannada (w potoku) kn_INCentrum telefoniczne60Kannada (w potoku) Dane Call-CenterNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,Stacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
PrzemówienieKannada_GCkannadakannada (w potoku) kn_INRozmowa ogólna100Kannada (w potoku) Ogólne dane konwersacjiNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,Stacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
PrzemówienieKannada_MAkannadakannada (w potoku) kn_INDźwięk multimedialny40Kannada (In Pipeline) Medialne dane audioLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
Przemówieniekoreański_CC_8koreańskikoreańskiko_KR8 kHzCentrum telefoniczne107Dane z koreańskiego Call-centerNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,PodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 1086, Mężczyzna 210, Nieznane 4
Przemówieniekoreański_MA_16koreańskikoreańskiko_KR16 kHzDźwięk multimedialny204Koreańskie dane audio w mediachLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutMonoPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 70 Mężczyzna 303, Nieznany 25
Przemówieniekoreański_SM_48koreańskikoreańskiko-KR48 kHzScenariusz Monolog1,955Koreański monolog skryptowyNagrania jednowypowiedziowe, które zwykle mieszczą się w zakresie od 5 do 30 sekundMonoMobile App5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 1195 Mężczyzna 1134 Nieznany 122
Przemówieniemalajski_GC_8malajskimalajskims_MY8 kHzRozmowa ogólna266Dane z konwersacji ogólnej w języku malajskimRozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) — 15-60 minut, malajski w MalezjiPodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 316, Mężczyzna 176 , Nieznane 0
Przemówieniemalajski_MA_16malajskimalajskims_MY16 kHzDźwięk multimedialny344Malajskie dane audio mediówLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutMonoPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 236, Mężczyzna 626, Nieznany 47
Przemówieniemalajalam_CC_8malajalammalajalam (w przygotowaniu) ml_INCentrum telefoniczne60Malajalam (w rurociągu) Dane Call-CenterNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,Stacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
Przemówieniemalajalam_GCmalajalammalajalam (w przygotowaniu) ml_INRozmowa ogólna100Malajalam (w rurociągu) Ogólne dane konwersacjiNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,Stacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
Przemówieniemalajalam_MAmalajalammalajalam (w przygotowaniu) ml_INDźwięk multimedialny40Malajalam (w rurociągu) Dane audio mediówLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
PrzemówienieMarathi_CC_8marathiMarathi (w przygotowaniu) pan_INCentrum telefoniczne60Marathi (w przygotowaniu) Dane Call-CenterNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,Stacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
PrzemówienieMarathi_GCmarathiMarathi (w przygotowaniu) pan_INRozmowa ogólna100Marathi (w potoku) Ogólne dane konwersacjiNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,Stacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
PrzemówienieMarathi_MAmarathiMarathi (w przygotowaniu) pan_INDźwięk multimedialny40Marathi (w potoku) Medialne dane audioLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
PrzemówienieMeksykanin_SM_48Hiszpański (Meksyk)Hiszpański (Meksyk)ES-MX48 kHzScenariusz Monolog1,492Meksykański hiszpański monolog scenariuszowyNagrania jednowypowiedziowe, które zwykle mieszczą się w zakresie od 5 do 30 sekundMonoMobile App5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 1016 Mężczyzna 1069 Nieznany 95
PrzemówienieHolandia_SM_48holenderskiholenderskipl-PL48 kHzScenariusz Monolog1,205Holenderski monolog skryptowyNagrania jednowypowiedziowe, które zwykle mieszczą się w zakresie od 5 do 30 sekundMonoMobile App5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 1285 Mężczyzna 531 Nieznany 3
PrzemówienieNowy Jork angielski_CC_8Nowy Jork angielskiNowy Jork angielskipl8 kHzCentrum telefoniczne103Dane Call-center w języku angielskim w Nowym JorkuNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,PodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 610, Mężczyzna 532, Nieznane 0
PrzemówienieNowy Jork angielski_GC_8Nowy Jork angielskiNowy Jork angielskipl8 kHzRozmowa ogólna107Dane konwersacji ogólnych w języku angielskim w Nowym JorkuRozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) - 15-60 minut, PodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 118, Mężczyzna 114, Nieznane 0
PrzemówienieNowy Jork angielski_MA_16Nowy Jork angielskiNowy Jork angielskipl16 kHzDźwięk multimedialny140Dane audio New York English MediaLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutMonoPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 66, Mężczyzna 230, Nieznane 11
PrzemówienieNowa Zelandia_GC_8Nowa Zelandia angielski Nowa Zelandia angielski pl_NZ8 kHzRozmowa ogólna148Dane dotyczące rozmów ogólnych w języku angielskim w Nowej ZelandiiRozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) - 15-60 minut, PodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 167, mężczyzna 121, nieznany 4
PrzemówienieNowa Zelandia_MA_16Nowa Zelandia angielski Nowa Zelandia angielski pl_NZ16 kHzDźwięk multimedialny400Nowa Zelandia Angielski Media audioLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutMonoPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 367, mężczyzna 678, nieznany 26
PrzemówienieOrija_CC_8OriyaOriya (w przygotowaniu) lub_INCentrum telefoniczne60Oriya (In Pipeline) Dane Call-CenterNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,Stacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
PrzemówienieOriya_GCOriyaOriya (w przygotowaniu) lub_INRozmowa ogólna100Oriya (In Pipeline) Ogólne dane konwersacjiNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,Stacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
PrzemówienieOriya_MAOriyaOriya (w przygotowaniu) lub_INDźwięk multimedialny40Oriya (In Pipeline) Medialne dane audioLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
Przemówieniejęzyk polski_MA_16PLNPLNpl_PL16 kHzDźwięk multimedialny269Polskie media audioLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutMonoPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 173 Mężczyzna 354 Nieznany 6
PrzemówieniePolska Polska_SM_48Polski (Polska)Polski (Polska)pl-PL48 kHzScenariusz Monolog1,482Polska Polska - Monolog scenariuszowyNagrania jednowypowiedziowe, które zwykle mieszczą się w zakresie od 5 do 30 sekundMonoMobile App5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 1324 Mężczyzna 701 Nieznany 24
Przemówieniependżabski_CC_8Punjabipendżabski (w przygotowaniu) PunjabiCentrum telefoniczne60Pendżabski (w przygotowaniu) Dane Call-CenterNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,Stacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
PrzemówieniePendżabski_GCPunjabipendżabski (w przygotowaniu) PunjabiRozmowa ogólna100Pendżabski (w potoku) Ogólne dane konwersacjiNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,Stacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
PrzemówieniePendżabski_MAPunjabipendżabski (w przygotowaniu) Punjabi Dźwięk multimedialny40Pendżabski (w rurociągu) Media audioLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
PrzemówienieRosyjski_SM_48rosyjskirosyjskiru-RU48 kHzScenariusz Monolog2,398Monolog skryptowy po rosyjskuNagrania jednowypowiedziowe, które zwykle mieszczą się w zakresie od 5 do 30 sekundMonoMobile App5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 1689 Mężczyzna 1937 Nieznany 214
PrzemówienieSzkocki_GC_8szkocki (angielski akcent)szkocki (angielski akcent)pl_AB8 kHzRozmowa ogólna292Dane ze szkockiej rozmowy ogólnejRozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) - 15-60 minut, PodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 285, Mężczyzna 260, Nieznany 3
PrzemówienieSingapur_CC_8Singapur angielskiSingapur angielskipl_PL8 kHzCentrum telefoniczne218Singapurskie dane Call CenterNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,PodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 2139, Mężczyzna 884, Nieznany 21
PrzemówienieSingapur_MA_16Singapur angielskiSingapur angielskipl_PL16 kHzDźwięk multimedialny247Dane audio w SingapurzeLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutMonoPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 160, Mężczyzna 455, Nieznane 37
Przemówieniepołudniowoafrykański angielski_CC_8Angielski południowoafrykańskiAngielski południowoafrykańskipl_ZA8 kHzCentrum telefoniczne261Dane Call-Center w języku angielskim w RPANieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,PodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 1274 , Mężczyzna 935 , Nieznany 1
PrzemówienieAngielski w RPA_MA_16Angielski południowoafrykańskiAngielski południowoafrykańskipl_ZA16 kHzDźwięk multimedialny251Dane audio południowoafrykańskich mediów w języku angielskimLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutMonoPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 235, Mężczyzna 432, Nieznane 36
PrzemówienieSuahili_CC_8suahilisuahilisw_KE8 kHzCentrum telefoniczne230Dane z Call-Center w języku suahiliNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,PodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 611, Mężczyzna 833, Nieznane 0
PrzemówienieSuahili_MA_16suahilisuahilisw_KE16 kHzDźwięk multimedialny265Dane audio w mediach suahiliLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutMonoPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 118, Mężczyzna 493, Nieznane 25
Przemówienieszwedzki_CC_8szwedzkiszwedzkisv_SE8 kHzCentrum telefoniczne250Szwedzkie dane Call-CenterNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,PodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 1581, mężczyzna 727, nieznany 2
Przemówienieszwedzki_MA_16szwedzkiszwedzkisv_SE16 kHzDźwięk multimedialny278Dane audio szwedzkich mediówLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutMonoPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 195, mężczyzna 500, nieznany 21
Przemówienietamilski_CC_8Tamiltamilski (w przygotowaniu) ta_INCentrum telefoniczne60Tamil (In Pipeline) Dane Call-CenterNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,Stacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
PrzemówienieTamil_GCTamiltamilski (w przygotowaniu) ta_INRozmowa ogólna100Tamil (In Pipeline) Ogólne dane konwersacjiNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,Stacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
PrzemówienieTamil_MATamil tamilski (w przygotowaniu) ta_INDźwięk multimedialny40Tamil (In Pipeline) Medialne dane audioLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
Przemówienietelugu_GC_8telugutelugute_IN8 kHzRozmowa ogólna553Ogólne dane konwersacji teluguRozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) - 15-60 minut, PodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 574, Mężczyzna 564, Nieznany 0
Przemówienietelugu_MA_16telugutelugute_IN16 kHzDźwięk multimedialny648Telugu Media dane audioLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutMonoPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 207, Mężczyzna 963, Nieznane 2
Przemówienietelugu_CC_8telugutelugu (w przygotowaniu) te_INCentrum telefoniczne30Telugu (In Pipeline) Dane Call-CenterNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,Stacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
Przemówienietelugu_GCtelugutelugu (w przygotowaniu) te_INRozmowa ogólna50Telugu (w potoku) Ogólne dane konwersacjiNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,Stacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
Przemówienietelugu_MAtelugutelugu (w przygotowaniu) te_INDźwięk multimedialny20Telugu (In Pipeline) Medialne dane audioLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
PrzemówienieTajski_GC_8tajskitajskith_TH8 kHzRozmowa ogólna183Tajska rozmowa ogólnaRozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) - 15-60 minut, Nieformalny rejestr używany między przyjaciółmiPodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 338, Mężczyzna 96, Nieznane 8
PrzemówienieTajski_MA_8tajskitajskith_TH16 kHzDźwięk multimedialny173Dźwięk w tajskich mediachLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutMonoPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 143, Mężczyzna 502, Nieznane 26
PrzemówienieTurecki Turcja_SM_48Turecki TurcjaTurecki Turcjatr-TR48 kHzScenariusz Monolog2,027Turecki TurcjaNagrania jednowypowiedziowe, które zwykle mieszczą się w zakresie od 5 do 30 sekundMonoMobile App5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 1561 Mężczyzna 1241 Nieznany 31
Przemówieniewietnamski_GC_8wietnamskiwietnamskivi_VN8 kHzRozmowa ogólna295Dane z wietnamskiej konwersacji ogólnejNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, północ (np. Hanoi), środkowa i południowa (np. Ho Chi Minh City).PodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 400, mężczyzna 380, nieznani 2
Przemówieniewietnamski_MA_16wietnamskiwietnamskivi_VN16 kHzDźwięk multimedialny257Dane audio wietnamskich mediówLicencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minutMonoPozyskiwanie sieciowe5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 249, mężczyzna 200, nieznani 45
Przemówieniewalijski_GC_8walijski (angielski akcent)walijski (angielski akcent)pl_WL8 kHzRozmowa ogólna278Dane z konwersacji ogólnej w języku walijskimNieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut,PodwójnyStacjonarny5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaKobieta 270, Mężczyzna 324, Nieznane 0
Przemówieniebrytyjski angielski_WW_16Angielski w Wielkiej BrytaniiAngielski w Wielkiej Brytaniipl_uk16 kHzObudź słowoGłośniki 200Wake Word w Wielkiej Brytanii w języku angielskimzbieranie danych dotyczących fraz kluczowych
  • głośniki 200
  • 4 unikalne frazy kluczowe na mówcę
  • Nagrania 25-30 powtarzanych fraz kluczowych na unikalną frazę kluczową
  • 25-30 plików audio na unikalną frazę kluczową
  • Łącznie 120 nagranych wypowiedzi na mówcę
Kanał 1Mobile App5.0. Wav.jsonASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie językaPłeć: 50% mężczyzna, 50% kobieta, +/- 10%.

Usługi oferowane

Specjalistyczne zbieranie danych dźwiękowych to nie wszystko, co trzeba zrobić, jeśli chodzi o kompleksowe konfiguracje sztucznej inteligencji. W Shaip możesz nawet rozważyć następujące usługi, aby modele były bardziej rozpowszechnione niż zwykle:

Zbieranie danych tekstowych

Zbieranie danych tekstowych
Usługi

Prawdziwą wartością usług gromadzenia danych kognitywnych Shaip jest to, że dają one organizacjom klucz do odblokowania krytycznych informacji znajdujących się w danych nieustrukturyzowanych

Zbieranie danych obrazu

Usługi gromadzenia danych obrazu

Upewnij się, że model wizji komputerowej dokładnie identyfikuje każdy obraz, aby bezproblemowo trenować modele AI nowej generacji w przyszłości

Zbieranie danych wideo

Usługi gromadzenia danych wideo

Teraz skup się na wizji komputerowej wraz z NLP, aby trenować swoje modele do perfekcyjnego identyfikowania obiektów, osób, środków odstraszających i innych elementów wizualnych

Skontaktuj się z nami

Chcesz zbudować własny zbiór danych dźwiękowych?

Połącz się z naszym wewnętrznym ekspertem od gromadzenia danych mowy, aby skonfigurować repozytorium audio, które najlepiej odpowiada Twoim wymaganiom

  • Rejestrując się, zgadzam się z Shaip Polityka prywatności i Regulamin i wyrazić zgodę na otrzymywanie komunikacji marketingowej B2B od Shaip.

Gromadzenie danych mowy dla modelu ML odnosi się do procesu gromadzenia nagrań dźwiękowych języka mówionego. Ta kolekcja pomaga w szkoleniu i udoskonalaniu algorytmów uczenia maszynowego, szczególnie tych skupiających się na rozumieniu i przetwarzaniu ludzkich głosów.

Chcąc zebrać dane audio na potrzeby automatycznego rozpoznawania mowy (ASR), należy zacząć od zdefiniowania konkretnych potrzeb projektu, w tym żądanego języka, akcentu i rodzaju mowy. Po ustawieniu tych parametrów upewnij się, że uzyskałeś wszystkie niezbędne uprawnienia w celu poszanowania prywatności użytkowników. Następnie użyj odpowiednich urządzeń nagrywających lub oprogramowania, aby przechwycić wyraźne próbki audio. Każde nagranie powinno być szczegółowo opatrzone transkrypcją lub innymi istotnymi metadanymi i systematycznie przechowywane, aby zapewnić łatwy dostęp.

Zbiór danych mowy w uczeniu maszynowym ma kluczowe znaczenie dla uczenia, testowania i sprawdzania poprawności modeli dostosowanych do rozpoznawania, transkrypcji i interpretacji języka mówionego. Takie zbiory danych torują drogę niezliczonym aplikacjom, od asystentów głosowych i usług transkrypcji po biometrię głosu.

Aby zebrać dokładne dane dotyczące różnych języków i akcentów, niezbędna jest współpraca z rodzimymi użytkownikami języka o pożądanym pochodzeniu językowym. Staraj się, aby próba była zróżnicowana i reprezentatywna, aby uwzględnić szerokie spektrum niuansów demograficznych. Aby zapewnić spójność dźwięku, należy stosować ustandaryzowany sprzęt nagrywający w jednolitym środowisku. Co ważne, do każdego fragmentu danych dodawaj szczegółowe transkrypcje i metadane, opisujące konkretny język i akcent.