Najbardziej zaufane usługi gromadzenia danych mowy dla Twojej sztucznej inteligencji
Trenuj swoje modele NLP, VA, prototypy TTS i nie tylko dzięki wysokiej jakości danych konwersacyjnych dzięki naszym usługom gromadzenia danych audio i mowy
Odkryj potoki danych audio bez wąskich gardeł.
Wyróżnieni klienci
Dlaczego zestaw danych do nauki mowy jest potrzebny do przetwarzania języka naturalnego?
Czy zauważyłeś, że Twój smartfon VA, tj. Siri, Bixby lub cokolwiek innego, wchodzi w interakcję? Sposób, w jaki odpowiadają na każde pytanie oraz analizują i prezentują wyniki zgodnie z Twoimi wymaganiami!
Cóż, o ile te VA nas intrygują, te inteligentne zasoby i programy muszą być stopniowo szkolone, aby móc reagować równie dokładnie. To jest powód, dla którego powinieneś rozważyć zlecenie zbierania danych mowy/dźwięku i głosu wyspecjalizowanym firmom zajmującym się zbieraniem danych, posiadającym profesjonalną wiedzę fachową.
Inwestowanie w gromadzenie danych dźwiękowych przygotowuje Twój rzekomy NLP do obsługi wielojęzycznej publiczności. Nie tylko to, zbieranie danych mowy dla NLP, gdy jest obsługiwane przez eksperta, uwzględnia nawet zbieranie w terenie, analizę semantyczną i transkrypcję audio. Dzięki profesjonalnym rozwiązaniom do gromadzenia danych mowy możesz:
- Uzyskaj wysokiej jakości zestawy danych audio, aby poprawić dokładność
- Docelowa konfiguracja zróżnicowanego scenariusza
- Zbieraj wielojęzyczne dane treningowe AI
- Skaluj swój model uczenia maszynowego, aby pasował do różnych grup demograficznych i branż
Profesjonalne usługi gromadzenia danych audio/głosowych dla NLP
Dowolny temat. Dowolny scenariusz.
Inteligentne systemy NLP nie są ogólne. W zależności od funkcjonalności programu, może być konieczne skupienie się na przestrzennych i wielojęzycznych usługach danych audio, które mogą być oferowane tylko przez renomowane firmy zajmujące się gromadzeniem danych głosowych/dźwiękowych. W tym miejscu Shaip wkracza w schemat rzeczy jako wysoce niezawodny dostawca usług transmisji danych, który jest dumny z tego, że wykonuje ciężkie prace dla twoich rzekomo inteligentnych sztucznej inteligencji.
W Shaip naszym głównym celem jest dostarczanie modelom możliwie największej ilości niestandardowych próbek mowy w jak najkrótszym czasie. Z nami na pokładzie możesz oczekiwać:
- Wyselekcjonowane gromadzenie danych audio / głosowych dla NLP
- Programy szyte na miarę, które reagują zgodnie z konkretnymi przypadkami użycia
- Przygotowanie do eksploracji zbiorów danych audio
- Specyficzne dla wzorca i zautomatyzowane przetwarzanie danych
- Najwyższy możliwy poziom specyficzności domeny
- Szybszy czas wprowadzania na rynek dzięki przyspieszonym modelom AI
Nasza wiedza specjalistyczna
Dopasuj dane audio, aby przygotować inteligentne modele NLP
Shaip oferuje kompleksowe usługi gromadzenia danych głosowych/dźwiękowych w ponad 100 językach, aby umożliwić technologiom głosowym zaspokojenie potrzeb zróżnicowanej grupy odbiorców na całym świecie. Możemy pracować nad projektami o dowolnym zakresie i wielkości; od licencjonowania istniejących gotowych zestawów danych dźwiękowych, przez zarządzanie niestandardowymi zbiorami danych dźwiękowych, po transkrypcję i adnotacje dźwiękowe. Bez względu na to, jak duży jest Twój projekt gromadzenia danych mowy, możemy dostosować usługi gromadzenia danych audio do Twoich potrzeb, aby zbudować wysokiej jakości zestawy danych NLP, które są ukierunkowane na dialekty, dźwięki i języki. Wybieraj z naszej szerokiej gamy zestawów danych mowy i zasobów gromadzenia danych dźwiękowych, aby korzystać z inteligentnych konfiguracji obsługujących głos.
Kolekcja mowy monologowej
Obsługuj wymagania oparte na mowie dotyczące samodzielnego głośnika dla prototypów Text-to-Speed i wymagań specyficznych dla transkrypcji za pomocą skryptów szybkiego podawania, za pośrednictwem plików jednokanałowych.
Mowa dialogowa
Collection
Skonfiguruj inteligentnych wirtualnych asystentów, chatboty dostosowane do prędkości i modele automatycznego rozpoznawania mowy z wielojęzyczną ekspozycją za pośrednictwem plików dwukanałowych i zasobów transkrybowanych.
Dane akustyczne
Collection
Dzięki naszej globalnej sieci współpracowników możemy profesjonalnie nagrywać dane dźwiękowe o studyjnej jakości, niezależnie od tego, czy są to restauracje, biura, domy, czy z różnych środowisk i języków, obejmując jednocześnie szerszy zakres akustyczny
Kolekcja wyrażeń w języku naturalnym
Trenuj inteligentne konfiguracje handlowe, aby identyfikować różnie wypowiadane przez klientów frazy o podobnym znaczeniu, aby sztuczna inteligencja stała się bardziej autonomiczna w czasie
Cyfrowy / Wirtualny
Asystenci
Skoncentruj się na budowaniu swojego nadchodzącego Wirtualnego Asystenta, trenując modele z zastrzeżeniami ludzkiej mowy, wielojęzycznej ekspozycji, analizy kontekstowej i NLU.
Automatyczne rozpoznawanie mowy (ASR)
Popraw dokładność swoich systemów automatycznego rozpoznawania mowy (ASR), mając dostęp do najnowocześniejszych, zróżnicowanych zestawów danych mowy/dźwięku z szerokiej gamy danych demograficznych.
Wielojęzyczne dane treningowe mowy/dźwięku
Nasi wysoko wykwalifikowani specjaliści językowi na całym świecie oferują wielojęzyczne dane szkoleniowe audio/mowy w wielu językach i dialektach, w tym arabskim, duńskim, chińskim, afrikaans, singapurskim, nowozelandzkim, hebrajskim, indonezyjskim, irlandzkim, koreańskim, malajskim, polskim, szkockim, szwedzkim , francuski, niemiecki, wietnamski, tajski, włoski, hiszpański i inne.
Text-to-Speech
(TTS)
Aby zapewnić użytkownikom lepsze wrażenia z korzystania z TTS, niezbędne jest opracowanie systemu tak, aby brzmiał naturalnie. Zbuduj wielojęzyczny model zamiany tekstu na mowę (TTS) z pomocą naszych globalnych pracowników, którzy pomogą Ci zbierać dane mowy w ponad 150 językach i dialektach, aby ulepszyć modele sztucznej inteligencji, od elementów sterujących w samochodzie po chatboty i rozwiązania edukacyjne o wysokiej wysokiej jakości dane audio.
Powody, dla których warto wybrać firmę Shaip jako godnego zaufania partnera w zakresie gromadzenia danych mowy
Ludzie
Dedykowane i przeszkolone zespoły:
- Ponad 30,000 współpracowników w zakresie tworzenia danych, etykietowania i kontroli jakości Q
- Uznany Zespół Zarządzania Projektami
- Doświadczony zespół rozwoju produktu
- Zespół ds. pozyskiwania i wdrażania puli talentów
Przetwarzanie
Najwyższą wydajność procesu zapewniają:
- Solidny proces 6 Sigma Stage-Gate
- Dedykowany zespół 6 czarnych pasów Sigma – Właściciele kluczowych procesów i zgodność z jakością
- Ciągłe doskonalenie i pętla sprzężenia zwrotnego
Platforma
Opatentowana platforma oferuje korzyści:
- Kompleksowa platforma internetowa
- Nienaganna jakość
- Szybsze TAT
- Bezproblemowa dostawa
Ludzie
Dedykowane i przeszkolone zespoły:
- Ponad 30,000 współpracowników w zakresie tworzenia danych, etykietowania i kontroli jakości Q
- Uznany Zespół Zarządzania Projektami
- Doświadczony zespół rozwoju produktu
- Zespół ds. pozyskiwania i wdrażania puli talentów
Przetwarzanie
Najwyższą wydajność procesu zapewniają:
- Solidny proces 6 Sigma Stage-Gate
- Dedykowany zespół 6 czarnych pasów Sigma – Właściciele kluczowych procesów i zgodność z jakością
- Ciągłe doskonalenie i pętla sprzężenia zwrotnego
Platforma
Opatentowana platforma oferuje korzyści:
- Kompleksowa platforma internetowa
- Nienaganna jakość
- Szybsze TAT
- Bezproblemowa dostawa
Język: zebrane zbiory danych audio
Gotowe zestawy mowy / audio
Szczegóły | Identyfikator Korpusu (Unikatowy) | słowo kluczowe | Zbiór danych języka | Kod języka | Próbna stawka | Typ zbioru danych | Całkowita liczba godzin dźwięku | Krótki opis | Opis zbioru danych | Kanał audio | Platforma nagrywania | WER (%) | Audio Format | Format transkrypcji | Przypadek użycia | Ilość głośników | CTA |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
pl_US_CC_8 | Afroamerykański język ludowy | Afroamerykański język ludowy | pl | 8 kHz | Centrum telefoniczne | 211 | Dane call-center w języku afroamerykańskim | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta: 612, mężczyzna: 1242 i nieznany: 12 | Kontakt | |
pl_US_MA_16 | Afroamerykański język ludowy | Afroamerykański język ludowy | pl | 16 kHz | Dźwięk multimedialny | 154 | Dane mediów wernakularnych Afroamerykanów | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Mono | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta: 151, mężczyzna: 150 i nieznany: 10 | Kontakt | |
Afrykanerski_GC_8 | Afrikaans | Afrikaans | af_ZA | 8 kHz | Rozmowa ogólna | 368 | Ogólne dane konwersacji w języku afrikaans | Rozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) — 15-60 minut, język afrikaans używany w Afryce | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta: 502, mężczyzna: 390 i nieznany: 2 | Kontakt | |
Afrykanerski_MA_16 | Afrikaans | Afrikaans | af_ZA | 16 kHz | Dźwięk multimedialny | 658 | Pliki multimedialne w języku afrikaans | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Mono | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta: 750, mężczyzna: 1278 i nieznany: 52 | Kontakt | |
arabski_GC_8 | arabski | arabski | ar_AE | 8 kHz | Rozmowa ogólna | 292 | Ogólne dane dotyczące konwersacji w języku arabskim | Rozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) — 15-60 minut, arabski z krajów Zatoki Perskiej | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta: 171, mężczyzna: 534 i nieznany: 1 | Kontakt | |
arabski_SM_48 | arabski | arabski | ar-SA | 48 kHz | Scenariusz Monolog | 1,947 | Monolog napisany po arabsku | Nagrania jednowypowiedziowe, które zwykle mieszczą się w zakresie od 5 do 30 sekund | Mono | Mobile App | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 838 Mężczyzna 1209 Nieznany 78 | Kontakt | |
asamski_CC_8 | Asamski | Asamski (w przygotowaniu) | jak w | Centrum telefoniczne | 60 | Assamese (w przygotowaniu) Dane Call-Center | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
Asamski_GC | Asamski | Asamski (w przygotowaniu) | jak w | Rozmowa ogólna | 100 | Assamese (In Pipeline) Ogólne dane konwersacji | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
Asamski_MA | Asamski | Asamski (w przygotowaniu) | jak w | Dźwięk multimedialny | 40 | Assamese (In Pipeline) Medialne dane audio | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
bengalski_CC_8 | bengalski | bengalski (w przygotowaniu) | bn_IN | Centrum telefoniczne | 60 | Bengalski (w przygotowaniu) Dane Call-Center | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
bengalski_GC | bengalski | bengalski (w przygotowaniu) | bn_IN | Rozmowa ogólna | 100 | Bengalski (w potoku) Ogólne dane konwersacji | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
bengalski_MA | bengalski | bengalski (w przygotowaniu) | bn_IN | Dźwięk multimedialny | 40 | Bengalski (w potoku) Medialne dane audio | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
Boston_CC_8 | bostoński angielski | bostoński angielski | pl | 8 kHz | Centrum telefoniczne | 177 | Dane z bostońskiego centrum obsługi telefonicznej | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta: 605, mężczyzna: 711 i nieznany: 0 | Kontakt | |
Boston_GC_8 | bostoński angielski | bostoński angielski | pl | 8 kHz | Rozmowa ogólna | 32 | Dane z rozmowy ogólnej w Bostonie | Rozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) - 15-60 minut, | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta: 53, mężczyzna: 83 i nieznany: 0 | Kontakt | |
Boston_MA_16 | bostoński angielski | bostoński angielski | pl | 16 kHz | Dźwięk multimedialny | 93 | Dane dźwiękowe Boston Media | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Mono | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta: 43, mężczyzna: 181 i nieznany: 2 | Kontakt | |
kanadyjski_SM_48 | Kanadyjski francuski | Kanadyjski francuski | FR-CA | 48 kHz | Scenariusz Monolog | 1,222 | Kanadyjski francuski | Nagrania jednowypowiedziowe, które zwykle mieszczą się w zakresie od 5 do 30 sekund | Mono | Mobile App | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 974 Mężczyzna 631 Nieznany 1 | Kontakt | |
Chiński_CC_8 | Chiński angielski | Chiński angielski | pl | 8 kHz | Centrum telefoniczne | 169 | Dane chińskiego Call-center | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta: 1790, mężczyzna: 523 i nieznany: 13 | Kontakt | |
Chiński_MA_16 | Chiński angielski | Chiński angielski | pl | 16 kHz | Dźwięk multimedialny | 249 | Dane audio chińskich mediów | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Mono | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta: 126, mężczyzna: 346 i nieznany: 6 | Kontakt | |
Chiński uproszczony_SM_48 | Chiński uproszczony | Chiński uproszczony | zh-CN | 48 kHz | Scenariusz Monolog | 2,762 | Chiński uproszczony | Nagrania jednowypowiedziowe, które zwykle mieszczą się w zakresie od 5 do 30 sekund | Mono | Mobile App | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 1920 Mężczyzna 1535 Nieznany 270 | Kontakt | |
Chiński tradycyjny_SM_48 | Chiński tradycyjny | Chiński tradycyjny | zh-TW | 48 kHz | Scenariusz Monolog | 1,028 | Chiński tradycyjny | Nagrania jednowypowiedziowe, które zwykle mieszczą się w zakresie od 5 do 30 sekund | Mono | Mobile App | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 1069 Mężczyzna 262 Nieznany 3 | Kontakt | |
Duński_GC_8 | duński | duński | da_DK | 8 kHz | Rozmowa ogólna | 372 | Dane z konwersacji ogólnej w języku duńskim | Rozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) - 15-60 minut, | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta: 311, Mężczyzna: 417, Nieznany: 0 | Kontakt | |
Duński_MA_16 | duński | duński | da_DK | 16 kHz | Dźwięk multimedialny | 664 | Duńskie dane audio mediów | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Mono | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta: 369, Mężczyzna: 864, Nieznany: 27 | Kontakt | |
Duński_SM_48 | duński | duński | da-DK | 48 kHz | Scenariusz Monolog | 2,579 | Duński monolog scenariuszowy | Nagrania jednowypowiedziowe, które zwykle mieszczą się w przedziale od 5 do 30 sekund, duński z Danii | Mono | Mobile App | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 1551 Mężczyzna 1233 Nieznany 42 | Kontakt | |
Angielski głębokie południe_CC_8 | Głębokie Południe angielskie | Głębokie Południe angielskie | pl | 8 kHz | Centrum telefoniczne | 151 | Dane Call-center w języku angielskim Deep South | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 221 , Mężczyzna 1004 , Nieznany 7 | Kontakt | |
Angielski głębokie południe_GC_8 | Głębokie Południe angielskie | Głębokie Południe angielskie | pl | 8 kHz | Rozmowa ogólna | 56 | Ogólne dane konwersacji w języku angielskim na głębokim południu | Rozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) - 15-60 minut, | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 99, Mężczyzna 31, Nieznany 0 | Kontakt | |
Angielski głębokie południe_MA_16 | Głębokie Południe angielskie | Głębokie Południe angielskie | pl | 16 kHz | Dźwięk multimedialny | 266 | Angielskie dane audio Deep South Media | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Mono | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 204, Mężczyzna 356, Nieznany 21 | Kontakt | |
Niemiecki_CC_8 | niemiecki | niemiecki | de-De | 8 kHz | Centrum telefoniczne | 64 | Niemieckie dane Call-center | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Mono | Stacjonarny | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 478 Mężczyzna 1440 Nieznany 0 | Kontakt | ||
Niemiecki_IVR_8 | niemiecki | niemiecki | de-De | 8 kHz | IVR | 200 | Niemieckie dane IVR | Człowiek do maszyny. Przepływ typu IVR, w którym pojawia się zachęta TTS (np. „Jak mogę ci pomóc”), po której następuje spontaniczna reakcja człowieka | Mono | Stacjonarny | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 10115 Mężczyzna 8750 Nieznany 0 | Kontakt | ||
Gudżarati_CC_8 | gujarati | Gudżarati (w rurociągu) | gu_IN | Centrum telefoniczne | 60 | Gudżarati (w rurociągu) Dane Call-Center | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
Gudżarati_GC | gujarati | Gudżarati (w rurociągu) | gu_IN | Rozmowa ogólna | 100 | Gudżarati (w potoku) Ogólne dane konwersacji | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
Gudżarati_MA | gujarati | Gudżarati (w rurociągu) | gu_IN | Dźwięk multimedialny | 40 | Gudżarati (w rurociągu) Dane audio mediów | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
Hebrajski_rozmowa ogólna_8 | hebrajski | hebrajski | on_IL | 8 kHz | Rozmowa ogólna | 399 | Ogólne dane konwersacji hebrajskiej | Rozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) — 15-60 minut, hebrajski w Izraelu | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 414 , Mężczyzna 399 , Nieznany 1 | Kontakt | |
hebrajski_MA_16 | hebrajski | hebrajski | on_IL | 16 kHz | Dźwięk multimedialny | 427 | Hebrajskie dane audio mediów | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Mono | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 361, Mężczyzna 513, Nieznany 13 | Kontakt | |
Hinduski_MA_16 | hinduski | hinduski | cześć_IN | 16 kHz | Dźwięk multimedialny | 219 | Hindi Media dane audio | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Mono | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 83, Mężczyzna 309, Nieznany 0 | Kontakt | |
Hinduski_SM_48 | hinduski | hinduski | hi-IN | 48 kHz | Scenariusz Monolog | 2,867 | Monolog skryptowy w języku hindi | Nagrania jednowypowiedziowe, które zwykle mieszczą się w zakresie od 5 do 30 sekund | Mono | Mobile App | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 1977 Mężczyzna 1864 Nieznany 147 | Kontakt | |
HINGLISH_CC_8 | Hinglijski | Hinglijski | hg_IN | 8 kHz | Centrum telefoniczne | 208 | HINGLISH Dane call center | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 822, Mężczyzna 1262 , Nieznane 0 | Kontakt | |
HINGLISH_MA_16 | Hinglijski | Hinglijski | hg_IN | 16 kHz | Dźwięk multimedialny | 216 | HINGLISH Medialne dane audio | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Mono | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 75, Mężczyzna 380, Nieznane 0 | Kontakt | |
Hiszpanie_CC_8 | Hiszpanie angielski | Hiszpanie angielski | pl | 8 kHz | Centrum telefoniczne | 212 | Hiszpańskie dane z Call-center | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 822, Mężczyzna 1262, Nieznane 0 | Kontakt | |
Hiszpan_MA_16 | Hiszpanie angielski | Hiszpanie angielski | pl | 16 kHz | Dźwięk multimedialny | 155 | Hiszpańskie połączenia audio w mediach | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Mono | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 140, Mężczyzna 219, Nieznane 5 | Kontakt | |
indonezyjski_GC_8 | indonezyjski | indonezyjski | Zrobiłem | 8 kHz | Rozmowa ogólna | 496 | Indonezyjskie dane z konwersacji ogólnej | Rozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) — 15-60 minut, Bahasa Indonesian | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 524, Mężczyzna 454, Nieznane 2 | Kontakt | |
indonezyjski_MA_16 | indonezyjski | indonezyjski | Zrobiłem | 16 kHz | Dźwięk multimedialny | 643 | Indonezyjskie dane audio mediów | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Mono | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 746, Mężczyzna 1507, Nieznane 129 | Kontakt | |
irlandzki_GC_8 | irlandzki | irlandzki | pl_PL | 8 kHz | Rozmowa ogólna | 192 | Dane z irlandzkiej rozmowy ogólnej | Rozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) - 15-60 minut, | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 213 , Mężczyzna 153 , Nieznany 0 | Kontakt | |
Japoński_SM_48 | Japonki | Japonki | ja-JP | 48 kHz | Scenariusz Monolog | 2,335 | Japoński monolog skryptowy | Nagrania jednowypowiedziowe, które zwykle mieszczą się w zakresie od 5 do 30 sekund | Mono | Mobile App | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 1460 Mężczyzna 1221 Nieznany 194 | Kontakt | |
Kannada_CC_8 | kannada | kannada (w potoku) | kn_IN | Centrum telefoniczne | 60 | Kannada (w potoku) Dane Call-Center | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
Kannada_GC | kannada | kannada (w potoku) | kn_IN | Rozmowa ogólna | 100 | Kannada (w potoku) Ogólne dane konwersacji | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
Kannada_MA | kannada | kannada (w potoku) | kn_IN | Dźwięk multimedialny | 40 | Kannada (In Pipeline) Medialne dane audio | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
koreański_CC_8 | koreański | koreański | ko_KR | 8 kHz | Centrum telefoniczne | 107 | Dane z koreańskiego Call-center | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 1086, Mężczyzna 210, Nieznane 4 | Kontakt | |
koreański_MA_16 | koreański | koreański | ko_KR | 16 kHz | Dźwięk multimedialny | 204 | Koreańskie dane audio w mediach | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Mono | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 70 Mężczyzna 303, Nieznany 25 | Kontakt | |
koreański_SM_48 | koreański | koreański | ko-KR | 48 kHz | Scenariusz Monolog | 1,955 | Koreański monolog skryptowy | Nagrania jednowypowiedziowe, które zwykle mieszczą się w zakresie od 5 do 30 sekund | Mono | Mobile App | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 1195 Mężczyzna 1134 Nieznany 122 | Kontakt | |
malajski_GC_8 | malajski | malajski | ms_MY | 8 kHz | Rozmowa ogólna | 266 | Dane z konwersacji ogólnej w języku malajskim | Rozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) — 15-60 minut, malajski w Malezji | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 316, Mężczyzna 176 , Nieznane 0 | Kontakt | |
malajski_MA_16 | malajski | malajski | ms_MY | 16 kHz | Dźwięk multimedialny | 344 | Malajskie dane audio mediów | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Mono | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 236, Mężczyzna 626, Nieznany 47 | Kontakt | |
malajalam_CC_8 | malajalam | malajalam (w przygotowaniu) | ml_IN | Centrum telefoniczne | 60 | Malajalam (w rurociągu) Dane Call-Center | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
malajalam_GC | malajalam | malajalam (w przygotowaniu) | ml_IN | Rozmowa ogólna | 100 | Malajalam (w rurociągu) Ogólne dane konwersacji | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
malajalam_MA | malajalam | malajalam (w przygotowaniu) | ml_IN | Dźwięk multimedialny | 40 | Malajalam (w rurociągu) Dane audio mediów | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
Marathi_CC_8 | marathi | Marathi (w przygotowaniu) | pan_IN | Centrum telefoniczne | 60 | Marathi (w przygotowaniu) Dane Call-Center | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
Marathi_GC | marathi | Marathi (w przygotowaniu) | pan_IN | Rozmowa ogólna | 100 | Marathi (w potoku) Ogólne dane konwersacji | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
Marathi_MA | marathi | Marathi (w przygotowaniu) | pan_IN | Dźwięk multimedialny | 40 | Marathi (w potoku) Medialne dane audio | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
Meksykanin_SM_48 | Hiszpański (Meksyk) | Hiszpański (Meksyk) | ES-MX | 48 kHz | Scenariusz Monolog | 1,492 | Meksykański hiszpański monolog scenariuszowy | Nagrania jednowypowiedziowe, które zwykle mieszczą się w zakresie od 5 do 30 sekund | Mono | Mobile App | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 1016 Mężczyzna 1069 Nieznany 95 | Kontakt | |
Holandia_SM_48 | holenderski | holenderski | pl-PL | 48 kHz | Scenariusz Monolog | 1,205 | Holenderski monolog skryptowy | Nagrania jednowypowiedziowe, które zwykle mieszczą się w zakresie od 5 do 30 sekund | Mono | Mobile App | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 1285 Mężczyzna 531 Nieznany 3 | Kontakt | |
Nowy Jork angielski_CC_8 | Nowy Jork angielski | Nowy Jork angielski | pl | 8 kHz | Centrum telefoniczne | 103 | Dane Call-center w języku angielskim w Nowym Jorku | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 610, Mężczyzna 532, Nieznane 0 | Kontakt | |
Nowy Jork angielski_GC_8 | Nowy Jork angielski | Nowy Jork angielski | pl | 8 kHz | Rozmowa ogólna | 107 | Dane konwersacji ogólnych w języku angielskim w Nowym Jorku | Rozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) - 15-60 minut, | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 118, Mężczyzna 114, Nieznane 0 | Kontakt | |
Nowy Jork angielski_MA_16 | Nowy Jork angielski | Nowy Jork angielski | pl | 16 kHz | Dźwięk multimedialny | 140 | Dane audio New York English Media | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Mono | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 66, Mężczyzna 230, Nieznane 11 | Kontakt | |
Nowa Zelandia_GC_8 | Nowa Zelandia angielski | Nowa Zelandia angielski | pl_NZ | 8 kHz | Rozmowa ogólna | 148 | Dane dotyczące rozmów ogólnych w języku angielskim w Nowej Zelandii | Rozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) - 15-60 minut, | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 167, mężczyzna 121, nieznany 4 | Kontakt | |
Nowa Zelandia_MA_16 | Nowa Zelandia angielski | Nowa Zelandia angielski | pl_NZ | 16 kHz | Dźwięk multimedialny | 400 | Nowa Zelandia Angielski Media audio | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Mono | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 367, mężczyzna 678, nieznany 26 | Kontakt | |
Orija_CC_8 | Oriya | Oriya (w przygotowaniu) | lub_IN | Centrum telefoniczne | 60 | Oriya (In Pipeline) Dane Call-Center | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
Oriya_GC | Oriya | Oriya (w przygotowaniu) | lub_IN | Rozmowa ogólna | 100 | Oriya (In Pipeline) Ogólne dane konwersacji | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
Oriya_MA | Oriya | Oriya (w przygotowaniu) | lub_IN | Dźwięk multimedialny | 40 | Oriya (In Pipeline) Medialne dane audio | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
język polski_MA_16 | PLN | PLN | pl_PL | 16 kHz | Dźwięk multimedialny | 269 | Polskie media audio | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Mono | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 173 Mężczyzna 354 Nieznany 6 | Kontakt | |
Polska Polska_SM_48 | Polski (Polska) | Polski (Polska) | pl-PL | 48 kHz | Scenariusz Monolog | 1,482 | Polska Polska - Monolog scenariuszowy | Nagrania jednowypowiedziowe, które zwykle mieszczą się w zakresie od 5 do 30 sekund | Mono | Mobile App | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 1324 Mężczyzna 701 Nieznany 24 | Kontakt | |
pendżabski_CC_8 | Punjabi | pendżabski (w przygotowaniu) | Punjabi | Centrum telefoniczne | 60 | Pendżabski (w przygotowaniu) Dane Call-Center | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
Pendżabski_GC | Punjabi | pendżabski (w przygotowaniu) | Punjabi | Rozmowa ogólna | 100 | Pendżabski (w potoku) Ogólne dane konwersacji | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
Pendżabski_MA | Punjabi | pendżabski (w przygotowaniu) | Punjabi | Dźwięk multimedialny | 40 | Pendżabski (w rurociągu) Media audio | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
Rosyjski_SM_48 | rosyjski | rosyjski | ru-RU | 48 kHz | Scenariusz Monolog | 2,398 | Monolog skryptowy po rosyjsku | Nagrania jednowypowiedziowe, które zwykle mieszczą się w zakresie od 5 do 30 sekund | Mono | Mobile App | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 1689 Mężczyzna 1937 Nieznany 214 | Kontakt | |
Szkocki_GC_8 | szkocki (angielski akcent) | szkocki (angielski akcent) | pl_AB | 8 kHz | Rozmowa ogólna | 292 | Dane ze szkockiej rozmowy ogólnej | Rozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) - 15-60 minut, | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 285, Mężczyzna 260, Nieznany 3 | Kontakt | |
Singapur_CC_8 | Singapur angielski | Singapur angielski | pl_PL | 8 kHz | Centrum telefoniczne | 218 | Singapurskie dane Call Center | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 2139, Mężczyzna 884, Nieznany 21 | Kontakt | |
Singapur_MA_16 | Singapur angielski | Singapur angielski | pl_PL | 16 kHz | Dźwięk multimedialny | 247 | Dane audio w Singapurze | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Mono | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 160, Mężczyzna 455, Nieznane 37 | Kontakt | |
południowoafrykański angielski_CC_8 | Angielski południowoafrykański | Angielski południowoafrykański | pl_ZA | 8 kHz | Centrum telefoniczne | 261 | Dane Call-Center w języku angielskim w RPA | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 1274 , Mężczyzna 935 , Nieznany 1 | Kontakt | |
Angielski w RPA_MA_16 | Angielski południowoafrykański | Angielski południowoafrykański | pl_ZA | 16 kHz | Dźwięk multimedialny | 251 | Dane audio południowoafrykańskich mediów w języku angielskim | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Mono | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 235, Mężczyzna 432, Nieznane 36 | Kontakt | |
Suahili_CC_8 | suahili | suahili | sw_KE | 8 kHz | Centrum telefoniczne | 230 | Dane z Call-Center w języku suahili | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 611, Mężczyzna 833, Nieznane 0 | Kontakt | |
Suahili_MA_16 | suahili | suahili | sw_KE | 16 kHz | Dźwięk multimedialny | 265 | Dane audio w mediach suahili | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Mono | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 118, Mężczyzna 493, Nieznane 25 | Kontakt | |
szwedzki_CC_8 | szwedzki | szwedzki | sv_SE | 8 kHz | Centrum telefoniczne | 250 | Szwedzkie dane Call-Center | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 1581, mężczyzna 727, nieznany 2 | Kontakt | |
szwedzki_MA_16 | szwedzki | szwedzki | sv_SE | 16 kHz | Dźwięk multimedialny | 278 | Dane audio szwedzkich mediów | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Mono | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 195, mężczyzna 500, nieznany 21 | Kontakt | |
tamilski_CC_8 | Tamil | tamilski (w przygotowaniu) | ta_IN | Centrum telefoniczne | 60 | Tamil (In Pipeline) Dane Call-Center | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
Tamil_GC | Tamil | tamilski (w przygotowaniu) | ta_IN | Rozmowa ogólna | 100 | Tamil (In Pipeline) Ogólne dane konwersacji | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
Tamil_MA | Tamil | tamilski (w przygotowaniu) | ta_IN | Dźwięk multimedialny | 40 | Tamil (In Pipeline) Medialne dane audio | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
telugu_GC_8 | telugu | telugu | te_IN | 8 kHz | Rozmowa ogólna | 553 | Ogólne dane konwersacji telugu | Rozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) - 15-60 minut, | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 574, Mężczyzna 564, Nieznany 0 | Kontakt | |
telugu_MA_16 | telugu | telugu | te_IN | 16 kHz | Dźwięk multimedialny | 648 | Telugu Media dane audio | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Mono | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 207, Mężczyzna 963, Nieznane 2 | Kontakt | |
telugu_CC_8 | telugu | telugu (w przygotowaniu) | te_IN | Centrum telefoniczne | 30 | Telugu (In Pipeline) Dane Call-Center | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
telugu_GC | telugu | telugu (w przygotowaniu) | te_IN | Rozmowa ogólna | 50 | Telugu (w potoku) Ogólne dane konwersacji | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
telugu_MA | telugu | telugu (w przygotowaniu) | te_IN | Dźwięk multimedialny | 20 | Telugu (In Pipeline) Medialne dane audio | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
Tajski_GC_8 | tajski | tajski | th_TH | 8 kHz | Rozmowa ogólna | 183 | Tajska rozmowa ogólna | Rozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) - 15-60 minut, Nieformalny rejestr używany między przyjaciółmi | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 338, Mężczyzna 96, Nieznane 8 | Kontakt | |
Tajski_MA_8 | tajski | tajski | th_TH | 16 kHz | Dźwięk multimedialny | 173 | Dźwięk w tajskich mediach | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Mono | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 143, Mężczyzna 502, Nieznane 26 | Kontakt | |
Turecki Turcja_SM_48 | Turecki Turcja | Turecki Turcja | tr-TR | 48 kHz | Scenariusz Monolog | 2,027 | Turecki Turcja | Nagrania jednowypowiedziowe, które zwykle mieszczą się w zakresie od 5 do 30 sekund | Mono | Mobile App | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 1561 Mężczyzna 1241 Nieznany 31 | Kontakt | |
wietnamski_GC_8 | wietnamski | wietnamski | vi_VN | 8 kHz | Rozmowa ogólna | 295 | Dane z wietnamskiej konwersacji ogólnej | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, północ (np. Hanoi), środkowa i południowa (np. Ho Chi Minh City). | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 400, mężczyzna 380, nieznani 2 | Kontakt | |
wietnamski_MA_16 | wietnamski | wietnamski | vi_VN | 16 kHz | Dźwięk multimedialny | 257 | Dane audio wietnamskich mediów | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Mono | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 249, mężczyzna 200, nieznani 45 | Kontakt | |
walijski_GC_8 | walijski (angielski akcent) | walijski (angielski akcent) | pl_WL | 8 kHz | Rozmowa ogólna | 278 | Dane z konwersacji ogólnej w języku walijskim | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 270, Mężczyzna 324, Nieznane 0 | Kontakt | |
brytyjski angielski_WW_16 | Angielski w Wielkiej Brytanii | Angielski w Wielkiej Brytanii | pl_uk | 16 kHz | Obudź słowo | Głośniki 200 | Wake Word w Wielkiej Brytanii w języku angielskim | zbieranie danych dotyczących fraz kluczowych
| Kanał 1 | Mobile App | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Płeć: 50% mężczyzna, 50% kobieta, +/- 10%. | Kontakt |
Usługi oferowane
Specjalistyczne zbieranie danych dźwiękowych to nie wszystko, co trzeba zrobić, jeśli chodzi o kompleksowe konfiguracje sztucznej inteligencji. W Shaip możesz nawet rozważyć następujące usługi, aby modele były bardziej rozpowszechnione niż zwykle:
Zbieranie danych tekstowych
Usługi
Prawdziwą wartością usług gromadzenia danych kognitywnych Shaip jest to, że dają one organizacjom klucz do odblokowania krytycznych informacji znajdujących się w danych nieustrukturyzowanych
Usługi gromadzenia danych obrazu
Upewnij się, że model wizji komputerowej dokładnie identyfikuje każdy obraz, aby bezproblemowo trenować modele AI nowej generacji w przyszłości
Usługi gromadzenia danych wideo
Teraz skup się na wizji komputerowej wraz z NLP, aby trenować swoje modele do perfekcyjnego identyfikowania obiektów, osób, środków odstraszających i innych elementów wizualnych
Zalecane zasoby
Oferując
Adnotacje dźwiękowe dla inteligentnych AI
Usługi adnotacji dźwiękowych były mocną stroną firmy Shaip od samego początku. Rozwijaj, trenuj i ulepszaj konwersacyjną sztuczną inteligencję, chatboty i silniki rozpoznawania mowy dzięki naszym najnowocześniejszym usługom adnotacji dźwiękowych.
Przewodnik kupującego
Przewodnik kupującego: kompletny przewodnik po konwersacyjnej sztucznej inteligencji
Chatbot, z którym rozmawiałeś, działa na zaawansowanym konwersacyjnym systemie sztucznej inteligencji, który jest szkolony, testowany i zbudowany przy użyciu mnóstwa zestawów danych rozpoznawania mowy.
Katalog danych
Gotowy katalog danych mowy i licencjonowanie
Istnieje wiele różnych typowych zastosowań danych mowy w projektach AI. Oferujemy ogromne ilości wysokiej jakości danych gotowych do rozpoznawania głosu.
Chcesz zbudować własny zbiór danych dźwiękowych?
Połącz się z naszym wewnętrznym ekspertem od gromadzenia danych mowy, aby skonfigurować repozytorium audio, które najlepiej odpowiada Twoim wymaganiom
Najczęściej zadawane pytania (FAQ)
Gromadzenie danych mowy dla modelu ML odnosi się do procesu gromadzenia nagrań dźwiękowych języka mówionego. Ta kolekcja pomaga w szkoleniu i udoskonalaniu algorytmów uczenia maszynowego, szczególnie tych skupiających się na rozumieniu i przetwarzaniu ludzkich głosów.
Chcąc zebrać dane audio na potrzeby automatycznego rozpoznawania mowy (ASR), należy zacząć od zdefiniowania konkretnych potrzeb projektu, w tym żądanego języka, akcentu i rodzaju mowy. Po ustawieniu tych parametrów upewnij się, że uzyskałeś wszystkie niezbędne uprawnienia w celu poszanowania prywatności użytkowników. Następnie użyj odpowiednich urządzeń nagrywających lub oprogramowania, aby przechwycić wyraźne próbki audio. Każde nagranie powinno być szczegółowo opatrzone transkrypcją lub innymi istotnymi metadanymi i systematycznie przechowywane, aby zapewnić łatwy dostęp.
Zbiór danych mowy w uczeniu maszynowym ma kluczowe znaczenie dla uczenia, testowania i sprawdzania poprawności modeli dostosowanych do rozpoznawania, transkrypcji i interpretacji języka mówionego. Takie zbiory danych torują drogę niezliczonym aplikacjom, od asystentów głosowych i usług transkrypcji po biometrię głosu.
Aby zebrać dokładne dane dotyczące różnych języków i akcentów, niezbędna jest współpraca z rodzimymi użytkownikami języka o pożądanym pochodzeniu językowym. Staraj się, aby próba była zróżnicowana i reprezentatywna, aby uwzględnić szerokie spektrum niuansów demograficznych. Aby zapewnić spójność dźwięku, należy stosować ustandaryzowany sprzęt nagrywający w jednolitym środowisku. Co ważne, do każdego fragmentu danych dodawaj szczegółowe transkrypcje i metadane, opisujące konkretny język i akcent.