Najbardziej zaufane usługi gromadzenia danych mowy dla Twojej sztucznej inteligencji
Trenuj swoje modele NLP, VA, prototypy TTS i nie tylko dzięki wysokiej jakości danych konwersacyjnych dzięki naszym usługom gromadzenia danych audio i mowy
Odkryj potoki danych audio bez wąskich gardeł
Wyróżnieni klienci
Profesjonalne usługi gromadzenia danych audio/głosowych
Dowolny temat. Dowolny scenariusz.
W Shaip specjalizujemy się w tworzeniu wysokiej jakości zbiorów danych mowy zaprojektowanych pod kątem różnorodnych wymagań AI/ML. Oferujemy szeroką gamę języków i rekordy w różnych ustawieniach, dzięki czemu nasze zbiory danych są kompleksowe i elastyczne. Okoncentrujesz się na dostarczaniu modelom największej ilości niestandardowych danych mowy w możliwie najkrótszym czasie. Z nami na pokładzie możesz spodziewać się:
- Wyselekcjonowane, wysokiej jakości wielojęzyczne dane audio/głosowe w celu poprawy dokładności
- Najwyższy możliwy poziom specyficzności domeny dla tArgument zróżnicowany scenariusz ustawienie
- Skaluj swój model uczenia maszynowego, aby pasował do różnych grup demograficznych i branż
- Środowiska nagrywania: Jakość studyjna, charakteryzujący się krystalicznie czystym dźwiękiem i minimalnym szumem tła, oraz Środowiska Naturalne, gdzie nagrania zawierają dźwięki otoczenia, aby naśladować sytuacje ze świata rzeczywistego.
100 +
55K +
Dane dotyczące godzin rozmów
250 +
Projekty
60 +
Języki (ponad 100 dialektów)
8 / 16 / 44 / 48 kHz
Częstotliwość próbkowania
Nasza wiedza
Dopasuj dane audio do inteligentniejszych modeli NLP
Shaip oferuje kompleksowe usługi gromadzenia danych głosowych/dźwiękowych w ponad 100 językach, aby umożliwić technologiom głosowym zaspokojenie potrzeb zróżnicowanej grupy odbiorców na całym świecie. Możemy pracować nad projektami o dowolnym zakresie i wielkości; od licencjonowania istniejących gotowych zestawów danych dźwiękowych, przez zarządzanie niestandardowymi zbiorami danych dźwiękowych, po transkrypcję i adnotacje dźwiękowe. Bez względu na to, jak duży jest Twój projekt gromadzenia danych mowy, możemy dostosować usługi gromadzenia danych audio do Twoich potrzeb, aby zbudować wysokiej jakości zestawy danych NLP, które są ukierunkowane na dialekty, dźwięki i języki. Wybieraj z naszej szerokiej gamy zestawów danych mowy i zasobów gromadzenia danych dźwiękowych, aby korzystać z inteligentnych konfiguracji obsługujących głos.
Monolog skryptowy i mowa spontaniczna
Koncentruje się na przetwarzaniu mowy pojedynczego mówcy. Wykorzystaj podpowiedzi skryptowe do wprowadzenia do jednokanałowych plików audio, zapewniając uchwycenie unikalnych wzorców mowy, tonów i niuansów charakterystycznych dla danej osoby.
Dialog Scenariusz i mowa spontaniczna
Dwuosobowa interakcja, replikacja rozmów i dialogów ze świata rzeczywistego z wielojęzyczną ekspozycją za pośrednictwem plików dwukanałowych i transkrybowanych zasobów.
Grupa / Muti-impreza
Rozmowy
Dyskusje wieloosobowe, wychwytywanie dynamiki grupy, nakładania się i zróżnicowanych tonów w celu dokładnego szkolenia modeli mowy.
Zbiór słów budzących / fraz kluczowych / wypowiedzi
Szkolić sztuczną inteligencję w zakresie identyfikowania kluczowych fraz lub wzbudzania słów lub wypowiedzi o podobnym znaczeniu przy użyciu różnorodnych, bogatych i autentycznych wypowiedzi w celu zaawansowanego przetwarzania i rozumienia języka naturalnego.
Dane akustyczne
Collection
Możemy profesjonalnie nagrywać dane dźwiękowe o studyjnej jakości, niezależnie od tego, czy pochodzą z restauracji, biur, domów, czy z różnych środowisk i języków, obejmując jednocześnie szerszy zakres akustyczny (kompleksowe zestawy danych dźwiękowych).
Automatyczne rozpoznawanie mowy (ASR)
Popraw dokładność swoich systemów automatycznego rozpoznawania mowy (ASR), mając dostęp do najnowocześniejszych, zróżnicowanych zestawów danych mowy/dźwięku z szerokiej gamy danych demograficznych.
Wielojęzyczne dane treningowe mowy/dźwięku
Nasi wykwalifikowani specjaliści językowi na całym świecie oferują wielojęzyczne dane audio/mowy w różnych językach i dialektach. Wysiłki te sprzyjają globalnej komunikacji i pokonują bariery językowe, przyczyniając się do bardziej włączających i skutecznych rozwiązań w zakresie sztucznej inteligencji.
Text-to-Speech
(TTS)
Zbuduj wielojęzyczny model zamiany tekstu na mowę (TTS) z pomocą naszych globalnych pracowników, którzy pomogą Ci gromadzić dane mowy w ponad 150 językach i dialektach, aby ulepszyć modele sztucznej inteligencji, począwszy od elementów sterujących w samochodzie po chatboty i rozwiązania edukacyjne o wysokiej jakość danych dźwiękowych.
Call Center
Rozmowy
Prawdziwa wymiana informacji między agentami a klientami, obsługująca wiele języków, takich jak hiszpański, niemiecki, amerykański angielski, bengalski, japoński, chiński i hindi.
Historie Sukcesu
Konwersacyjne zbiory danych AI zawierające ponad 3 tys. godzin danych w 8 językach
Chcąc zbudować wielojęzyczną platformę dla języków indyjskich, klient nawiązał współpracę z firmą Shaip w celu gromadzenia, segmentowania i transkrypcji dużych zbiorów danych w wielu językach indyjskich. Pomogłoby to w opracowaniu skutecznych modeli mowy, które mogłyby zasilać nową, innowacyjną platformę klienta.
Problem: Ponad 3,000 godzin danych audio zebranych w 8 językach indyjskich, posegmentowanych i przepisanych w celu opracowania automatycznego rozpoznawania mowy.
Rozwiązanie: Zapewniliśmy zbieranie danych, segmentację, transkrypcję oraz dostarczyliśmy pliki JSON z metadanymi. Na potrzeby projektu technologii mowy klienta zebraliśmy 3000 godzin danych dźwiękowych w 8 językach indyjskich.
Powody, dla których warto wybrać firmę Shaip jako godnego zaufania partnera w zakresie gromadzenia danych mowy
Ludzie
Dedykowane i przeszkolone zespoły:
- Ponad 30,000 współpracowników w zakresie tworzenia danych, etykietowania i kontroli jakości Q
- Uznany Zespół Zarządzania Projektami
- Doświadczony zespół rozwoju produktu
- Zespół ds. pozyskiwania i wdrażania puli talentów
Przetwarzanie
Najwyższą wydajność procesu zapewniają:
- Solidny proces 6 Sigma Stage-Gate
- Dedykowany zespół 6 czarnych pasów Sigma – Właściciele kluczowych procesów i zgodność z jakością
- Ciągłe doskonalenie i pętla sprzężenia zwrotnego
Platforma
Opatentowana platforma oferuje korzyści:
- Kompleksowa platforma internetowa
- Nienaganna jakość
- Szybsze TAT
- Bezproblemowa dostawa
Ludzie
Dedykowane i przeszkolone zespoły:
- Ponad 30,000 współpracowników w zakresie tworzenia danych, etykietowania i kontroli jakości Q
- Uznany Zespół Zarządzania Projektami
- Doświadczony zespół rozwoju produktu
- Zespół ds. pozyskiwania i wdrażania puli talentów
Przetwarzanie
Najwyższą wydajność procesu zapewniają:
- Solidny proces 6 Sigma Stage-Gate
- Dedykowany zespół 6 czarnych pasów Sigma – Właściciele kluczowych procesów i zgodność z jakością
- Ciągłe doskonalenie i pętla sprzężenia zwrotnego
Platforma
Opatentowana platforma oferuje korzyści:
- Kompleksowa platforma internetowa
- Nienaganna jakość
- Szybsze TAT
- Bezproblemowa dostawa
Gotowe zestawy mowy / audio
Szczegóły | Identyfikator Korpusu (Unikatowy) | słowo kluczowe | Zbiór danych języka | Kod języka | Próbna stawka | Typ zbioru danych | Całkowita liczba godzin dźwięku | Krótki opis | Opis zbioru danych | Kanał audio | Platforma nagrywania | WER (%) | Audio Format | Format transkrypcji | Przypadek użycia | Ilość głośników | CTA |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Nowy Jork angielski_GC_8 | Nowy Jork angielski | Nowy Jork angielski | pl | 8 kHz | Rozmowa ogólna | 107 | Dane konwersacji ogólnych w języku angielskim w Nowym Jorku | Rozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) - 15-60 minut, | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 118, Mężczyzna 114, Nieznane 0 | Kontakt | |
Rosyjski_SM_48 | Rosyjski | Rosyjski | ru-RU | 48 kHz | Scenariusz Monolog | 2,398 | Monolog skryptowy po rosyjsku | Nagrania jednowypowiedziowe, które zwykle mieszczą się w zakresie od 5 do 30 sekund | Mono | Mobile App | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 1689 Mężczyzna 1937 Nieznany 214 | Kontakt | |
Pendżabski_MA | Punjabi | pendżabski (w przygotowaniu) | Punjabi | Dźwięk multimedialny | 40 | Pendżabski (w rurociągu) Media audio | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
Pendżabski_GC | Punjabi | pendżabski (w przygotowaniu) | Punjabi | Rozmowa ogólna | 100 | Pendżabski (w potoku) Ogólne dane konwersacji | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
pendżabski_CC_8 | Punjabi | pendżabski (w przygotowaniu) | Punjabi | Centrum telefoniczne | 60 | Pendżabski (w przygotowaniu) Dane Call-Center | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
Polska Polska_SM_48 | Polski (Polska) | Polski (Polska) | pl-PL | 48 kHz | Scenariusz Monolog | 1,482 | Polska Polska - Monolog scenariuszowy | Nagrania jednowypowiedziowe, które zwykle mieszczą się w zakresie od 5 do 30 sekund | Mono | Mobile App | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 1324 Mężczyzna 701 Nieznany 24 | Kontakt | |
język polski_MA_16 | Polski | Polski | pl_PL | 16 kHz | Dźwięk multimedialny | 269 | Polskie media audio | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Mono | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 173 Mężczyzna 354 Nieznany 6 | Kontakt | |
Oriya_MA | Oriya | Oriya (w przygotowaniu) | lub_IN | Dźwięk multimedialny | 40 | Oriya (In Pipeline) Medialne dane audio | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
Oriya_GC | Oriya | Oriya (w przygotowaniu) | lub_IN | Rozmowa ogólna | 100 | Oriya (In Pipeline) Ogólne dane konwersacji | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
Orija_CC_8 | Oriya | Oriya (w przygotowaniu) | lub_IN | Centrum telefoniczne | 60 | Oriya (In Pipeline) Dane Call-Center | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
Nowa Zelandia_MA_16 | Nowa Zelandia angielski | Nowa Zelandia angielski | pl_NZ | 16 kHz | Dźwięk multimedialny | 400 | Nowa Zelandia Angielski Media audio | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Mono | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 367, mężczyzna 678, nieznany 26 | Kontakt | |
Nowa Zelandia_GC_8 | Nowa Zelandia angielski | Nowa Zelandia angielski | pl_NZ | 8 kHz | Rozmowa ogólna | 148 | Dane dotyczące rozmów ogólnych w języku angielskim w Nowej Zelandii | Rozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) - 15-60 minut, | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 167, mężczyzna 121, nieznany 4 | Kontakt | |
Nowy Jork angielski_MA_16 | Nowy Jork angielski | Nowy Jork angielski | pl | 16 kHz | Dźwięk multimedialny | 140 | Dane audio New York English Media | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Mono | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 66, Mężczyzna 230, Nieznane 11 | Kontakt | |
Szkocki_GC_8 | szkocki (angielski akcent) | szkocki (angielski akcent) | pl_AB | 8 kHz | Rozmowa ogólna | 292 | Dane ze szkockiej rozmowy ogólnej | Rozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) - 15-60 minut, | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 285, Mężczyzna 260, Nieznany 3 | Kontakt | |
Nowy Jork angielski_CC_8 | Nowy Jork angielski | Nowy Jork angielski | pl | 8 kHz | Centrum telefoniczne | 103 | Dane Call-center w języku angielskim w Nowym Jorku | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 610, Mężczyzna 532, Nieznane 0 | Kontakt | |
Holandia_SM_48 | holenderski | holenderski | pl-PL | 48 kHz | Scenariusz Monolog | 1,205 | Holenderski monolog skryptowy | Nagrania jednowypowiedziowe, które zwykle mieszczą się w zakresie od 5 do 30 sekund | Mono | Mobile App | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 1285 Mężczyzna 531 Nieznany 3 | Kontakt | |
Meksykanin_SM_48 | Hiszpański (Meksyk) | Hiszpański (Meksyk) | ES-MX | 48 kHz | Scenariusz Monolog | 1,492 | Meksykański hiszpański monolog scenariuszowy | Nagrania jednowypowiedziowe, które zwykle mieszczą się w zakresie od 5 do 30 sekund | Mono | Mobile App | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 1016 Mężczyzna 1069 Nieznany 95 | Kontakt | |
Marathi_MA | marathi | Marathi (w przygotowaniu) | pan_IN | Dźwięk multimedialny | 40 | Marathi (w potoku) Medialne dane audio | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
Marathi_GC | marathi | Marathi (w przygotowaniu) | pan_IN | Rozmowa ogólna | 100 | Marathi (w potoku) Ogólne dane konwersacji | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
Marathi_CC_8 | marathi | Marathi (w przygotowaniu) | pan_IN | Centrum telefoniczne | 60 | Marathi (w przygotowaniu) Dane Call-Center | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
malajalam_MA | malajalam | malajalam (w przygotowaniu) | ml_IN | Dźwięk multimedialny | 40 | Malajalam (w rurociągu) Dane audio mediów | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
malajalam_GC | malajalam | malajalam (w przygotowaniu) | ml_IN | Rozmowa ogólna | 100 | Malajalam (w rurociągu) Ogólne dane konwersacji | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
malajalam_CC_8 | malajalam | malajalam (w przygotowaniu) | ml_IN | Centrum telefoniczne | 60 | Malajalam (w rurociągu) Dane Call-Center | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
malajski_MA_16 | malajski | malajski | ms_MY | 16 kHz | Dźwięk multimedialny | 344 | Malajskie dane audio mediów | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Mono | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 236, Mężczyzna 626, Nieznany 47 | Kontakt | |
malajski_GC_8 | malajski | malajski | ms_MY | 8 kHz | Rozmowa ogólna | 266 | Dane z konwersacji ogólnej w języku malajskim | Rozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) — 15-60 minut, malajski w Malezji | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 316, Mężczyzna 176 , Nieznane 0 | Kontakt | |
telugu_GC_8 | telugu | telugu | te_IN | 8 kHz | Rozmowa ogólna | 553 | Ogólne dane konwersacji telugu | Rozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) - 15-60 minut, | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 574, Mężczyzna 564, Nieznany 0 | Kontakt | |
brytyjski angielski_WW_16 | Angielski w Wielkiej Brytanii | Angielski w Wielkiej Brytanii | pl_uk | 16 kHz | Obudź słowo | Głośniki 200 | Wake Word w Wielkiej Brytanii w języku angielskim | zbieranie danych dotyczących fraz kluczowych
| Kanał 1 | Mobile App | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Płeć: 50% mężczyzna, 50% kobieta, +/- 10%. | Kontakt | |
walijski_GC_8 | walijski (angielski akcent) | walijski (angielski akcent) | pl_WL | 8 kHz | Rozmowa ogólna | 278 | Dane z konwersacji ogólnej w języku walijskim | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 270, Mężczyzna 324, Nieznane 0 | Kontakt | |
wietnamski_MA_16 | wietnamski | wietnamski | vi_VN | 16 kHz | Dźwięk multimedialny | 257 | Dane audio wietnamskich mediów | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Mono | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 249, mężczyzna 200, nieznani 45 | Kontakt | |
wietnamski_GC_8 | wietnamski | wietnamski | vi_VN | 8 kHz | Rozmowa ogólna | 295 | Dane z wietnamskiej konwersacji ogólnej | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, północ (np. Hanoi), środkowa i południowa (np. Ho Chi Minh City). | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 400, mężczyzna 380, nieznani 2 | Kontakt | |
Turecki Turcja_SM_48 | Turecki Turcja | Turecki Turcja | tr-TR | 48 kHz | Scenariusz Monolog | 2,027 | Turecki Turcja | Nagrania jednowypowiedziowe, które zwykle mieszczą się w zakresie od 5 do 30 sekund | Mono | Mobile App | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 1561 Mężczyzna 1241 Nieznany 31 | Kontakt | |
Tajski_MA_8 | tajski | tajski | th_TH | 16 kHz | Dźwięk multimedialny | 173 | Dźwięk w tajskich mediach | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Mono | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 143, Mężczyzna 502, Nieznane 26 | Kontakt | |
Tajski_GC_8 | tajski | tajski | th_TH | 8 kHz | Rozmowa ogólna | 183 | Tajska rozmowa ogólna | Rozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) - 15-60 minut, Nieformalny rejestr używany między przyjaciółmi | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 338, Mężczyzna 96, Nieznane 8 | Kontakt | |
telugu_MA | telugu | telugu (w przygotowaniu) | te_IN | Dźwięk multimedialny | 20 | Telugu (In Pipeline) Medialne dane audio | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
telugu_GC | telugu | telugu (w przygotowaniu) | te_IN | Rozmowa ogólna | 50 | Telugu (w potoku) Ogólne dane konwersacji | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
telugu_CC_8 | telugu | telugu (w przygotowaniu) | te_IN | Centrum telefoniczne | 30 | Telugu (In Pipeline) Dane Call-Center | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
telugu_MA_16 | telugu | telugu | te_IN | 16 kHz | Dźwięk multimedialny | 648 | Telugu Media dane audio | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Mono | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 207, Mężczyzna 963, Nieznane 2 | Kontakt | |
koreański_SM_48 | koreański | koreański | ko-KR | 48 kHz | Scenariusz Monolog | 1,955 | Koreański monolog skryptowy | Nagrania jednowypowiedziowe, które zwykle mieszczą się w zakresie od 5 do 30 sekund | Mono | Mobile App | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 1195 Mężczyzna 1134 Nieznany 122 | Kontakt | |
Tamil_MA | Tamil | tamilski (w przygotowaniu) | ta_IN | Dźwięk multimedialny | 40 | Tamil (In Pipeline) Medialne dane audio | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
Tamil_GC | Tamil | tamilski (w przygotowaniu) | ta_IN | Rozmowa ogólna | 100 | Tamil (In Pipeline) Ogólne dane konwersacji | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
tamilski_CC_8 | Tamil | tamilski (w przygotowaniu) | ta_IN | Centrum telefoniczne | 60 | Tamil (In Pipeline) Dane Call-Center | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
szwedzki_MA_16 | szwedzki | szwedzki | sv_SE | 16 kHz | Dźwięk multimedialny | 278 | Dane audio szwedzkich mediów | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Mono | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 195, mężczyzna 500, nieznany 21 | Kontakt | |
szwedzki_CC_8 | szwedzki | szwedzki | sv_SE | 8 kHz | Centrum telefoniczne | 250 | Szwedzkie dane Call-Center | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 1581, mężczyzna 727, nieznany 2 | Kontakt | |
Suahili_MA_16 | suahili | suahili | sw_KE | 16 kHz | Dźwięk multimedialny | 265 | Dane audio w mediach suahili | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Mono | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 118, Mężczyzna 493, Nieznane 25 | Kontakt | |
Suahili_CC_8 | suahili | suahili | sw_KE | 8 kHz | Centrum telefoniczne | 230 | Dane z Call-Center w języku suahili | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 611, Mężczyzna 833, Nieznane 0 | Kontakt | |
Angielski w RPA_MA_16 | Angielski południowoafrykański | Angielski południowoafrykański | pl_ZA | 16 kHz | Dźwięk multimedialny | 251 | Dane audio południowoafrykańskich mediów w języku angielskim | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Mono | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 235, Mężczyzna 432, Nieznane 36 | Kontakt | |
południowoafrykański angielski_CC_8 | Angielski południowoafrykański | Angielski południowoafrykański | pl_ZA | 8 kHz | Centrum telefoniczne | 261 | Dane Call-Center w języku angielskim w RPA | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 1274 , Mężczyzna 935 , Nieznany 1 | Kontakt | |
Singapur_MA_16 | Singapur angielski | Singapur angielski | pl_PL | 16 kHz | Dźwięk multimedialny | 247 | Dane audio w Singapurze | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Mono | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 160, Mężczyzna 455, Nieznane 37 | Kontakt | |
Singapur_CC_8 | Singapur angielski | Singapur angielski | pl_PL | 8 kHz | Centrum telefoniczne | 218 | Singapurskie dane Call Center | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 2139, Mężczyzna 884, Nieznany 21 | Kontakt | |
Boston_CC_8 | bostoński angielski | bostoński angielski | pl | 8 kHz | Centrum telefoniczne | 177 | Dane z bostońskiego centrum obsługi telefonicznej | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta: 605, mężczyzna: 711 i nieznany: 0 | Kontakt | |
Angielski głębokie południe_CC_8 | Głębokie Południe angielskie | Głębokie Południe angielskie | pl | 8 kHz | Centrum telefoniczne | 151 | Dane Call-center w języku angielskim Deep South | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 221 , Mężczyzna 1004 , Nieznany 7 | Kontakt | |
Duński_SM_48 | duński | duński | da-DK | 48 kHz | Scenariusz Monolog | 2,579 | Duński monolog scenariuszowy | Nagrania jednowypowiedziowe, które zwykle mieszczą się w przedziale od 5 do 30 sekund, duński z Danii | Mono | Mobile App | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 1551 Mężczyzna 1233 Nieznany 42 | Kontakt | |
Duński_MA_16 | duński | duński | da_DK | 16 kHz | Dźwięk multimedialny | 664 | Duńskie dane audio mediów | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Mono | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta: 369, Mężczyzna: 864, Nieznany: 27 | Kontakt | |
Duński_GC_8 | duński | duński | da_DK | 8 kHz | Rozmowa ogólna | 372 | Dane z konwersacji ogólnej w języku duńskim | Rozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) - 15-60 minut, | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta: 311, Mężczyzna: 417, Nieznany: 0 | Kontakt | |
Chiński tradycyjny_SM_48 | Chiński tradycyjny | Chiński tradycyjny | zh-TW | 48 kHz | Scenariusz Monolog | 1,028 | Chiński tradycyjny | Nagrania jednowypowiedziowe, które zwykle mieszczą się w zakresie od 5 do 30 sekund | Mono | Mobile App | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 1069 Mężczyzna 262 Nieznany 3 | Kontakt | |
Chiński uproszczony_SM_48 | Chiński uproszczony | Chiński uproszczony | zh-CN | 48 kHz | Scenariusz Monolog | 2,762 | Chiński uproszczony | Nagrania jednowypowiedziowe, które zwykle mieszczą się w zakresie od 5 do 30 sekund | Mono | Mobile App | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 1920 Mężczyzna 1535 Nieznany 270 | Kontakt | |
Chiński_MA_16 | Chiński angielski | Chiński angielski | pl | 16 kHz | Dźwięk multimedialny | 249 | Dane audio chińskich mediów | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Mono | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta: 126, mężczyzna: 346 i nieznany: 6 | Kontakt | |
Chiński_CC_8 | Chiński angielski | Chiński angielski | pl | 8 kHz | Centrum telefoniczne | 169 | Dane chińskiego Call-center | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta: 1790, mężczyzna: 523 i nieznany: 13 | Kontakt | |
kanadyjski_SM_48 | Kanadyjski francuski | Kanadyjski francuski | FR-CA | 48 kHz | Scenariusz Monolog | 1,222 | Kanadyjski francuski | Nagrania jednowypowiedziowe, które zwykle mieszczą się w zakresie od 5 do 30 sekund | Mono | Mobile App | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 974 Mężczyzna 631 Nieznany 1 | Kontakt | |
Boston_MA_16 | bostoński angielski | bostoński angielski | pl | 16 kHz | Dźwięk multimedialny | 93 | Dane dźwiękowe Boston Media | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Mono | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta: 43, mężczyzna: 181 i nieznany: 2 | Kontakt | |
Boston_GC_8 | bostoński angielski | bostoński angielski | pl | 8 kHz | Rozmowa ogólna | 32 | Dane z rozmowy ogólnej w Bostonie | Rozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) - 15-60 minut, | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta: 53, mężczyzna: 83 i nieznany: 0 | Kontakt | |
Angielski głębokie południe_GC_8 | Głębokie Południe angielskie | Głębokie Południe angielskie | pl | 8 kHz | Rozmowa ogólna | 56 | Ogólne dane konwersacji w języku angielskim na głębokim południu | Rozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) - 15-60 minut, | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 99, Mężczyzna 31, Nieznany 0 | Kontakt | |
bengalski_MA | bengalski | bengalski (w przygotowaniu) | bn_IN | Dźwięk multimedialny | 40 | Bengalski (w potoku) Medialne dane audio | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
bengalski_GC | bengalski | bengalski (w przygotowaniu) | bn_IN | Rozmowa ogólna | 100 | Bengalski (w potoku) Ogólne dane konwersacji | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
bengalski_CC_8 | bengalski | bengalski (w przygotowaniu) | bn_IN | Centrum telefoniczne | 60 | Bengalski (w przygotowaniu) Dane Call-Center | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
Asamski_MA | Asamski | Asamski (w przygotowaniu) | jak w | Dźwięk multimedialny | 40 | Assamese (In Pipeline) Medialne dane audio | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
Asamski_GC | Asamski | Asamski (w przygotowaniu) | jak w | Rozmowa ogólna | 100 | Assamese (In Pipeline) Ogólne dane konwersacji | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
asamski_CC_8 | Asamski | Asamski (w przygotowaniu) | jak w | Centrum telefoniczne | 60 | Assamese (w przygotowaniu) Dane Call-Center | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
arabski_SM_48 | Arabowie | Arabowie | ar-SA | 48 kHz | Scenariusz Monolog | 1,947 | Monolog napisany po arabsku | Nagrania jednowypowiedziowe, które zwykle mieszczą się w zakresie od 5 do 30 sekund | Mono | Mobile App | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 838 Mężczyzna 1209 Nieznany 78 | Kontakt | |
arabski_GC_8 | Arabowie | Arabowie | ar_AE | 8 kHz | Rozmowa ogólna | 292 | Ogólne dane dotyczące konwersacji w języku arabskim | Rozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) — 15-60 minut, arabski z krajów Zatoki Perskiej | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta: 171, mężczyzna: 534 i nieznany: 1 | Kontakt | |
Afrykanerski_MA_16 | Afrikaans | Afrikaans | af_ZA | 16 kHz | Dźwięk multimedialny | 658 | Pliki multimedialne w języku afrikaans | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Mono | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta: 750, mężczyzna: 1278 i nieznany: 52 | Kontakt | |
Afrykanerski_GC_8 | Afrikaans | Afrikaans | af_ZA | 8 kHz | Rozmowa ogólna | 368 | Ogólne dane konwersacji w języku afrikaans | Rozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) — 15-60 minut, język afrikaans używany w Afryce | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta: 502, mężczyzna: 390 i nieznany: 2 | Kontakt | |
pl_US_MA_16 | Afroamerykański język ludowy | Afroamerykański język ludowy | pl | 16 kHz | Dźwięk multimedialny | 154 | Dane mediów wernakularnych Afroamerykanów | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Mono | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta: 151, mężczyzna: 150 i nieznany: 10 | Kontakt | |
HINGLISH_MA_16 | Hinglijski | Hinglijski | hg_IN | 16 kHz | Dźwięk multimedialny | 216 | HINGLISH Medialne dane audio | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Mono | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 75, Mężczyzna 380, Nieznane 0 | Kontakt | |
koreański_MA_16 | koreański | koreański | ko_KR | 16 kHz | Dźwięk multimedialny | 204 | Koreańskie dane audio w mediach | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Mono | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 70 Mężczyzna 303, Nieznany 25 | Kontakt | |
koreański_CC_8 | koreański | koreański | ko_KR | 8 kHz | Centrum telefoniczne | 107 | Dane z koreańskiego Call-center | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 1086, Mężczyzna 210, Nieznane 4 | Kontakt | |
Kannada_MA | kannada | kannada (w potoku) | kn_IN | Dźwięk multimedialny | 40 | Kannada (In Pipeline) Medialne dane audio | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
Kannada_GC | kannada | kannada (w potoku) | kn_IN | Rozmowa ogólna | 100 | Kannada (w potoku) Ogólne dane konwersacji | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
Kannada_CC_8 | kannada | kannada (w potoku) | kn_IN | Centrum telefoniczne | 60 | Kannada (w potoku) Dane Call-Center | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
Japoński_SM_48 | Japonki | Japonki | ja-JP | 48 kHz | Scenariusz Monolog | 2,335 | Japoński monolog skryptowy | Nagrania jednowypowiedziowe, które zwykle mieszczą się w zakresie od 5 do 30 sekund | Mono | Mobile App | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 1460 Mężczyzna 1221 Nieznany 194 | Kontakt | |
irlandzki_GC_8 | irlandzki | irlandzki | pl_PL | 8 kHz | Rozmowa ogólna | 192 | Dane z irlandzkiej rozmowy ogólnej | Rozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) - 15-60 minut, | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 213 , Mężczyzna 153 , Nieznany 0 | Kontakt | |
indonezyjski_MA_16 | indonezyjski | indonezyjski | Zrobiłem | 16 kHz | Dźwięk multimedialny | 643 | Indonezyjskie dane audio mediów | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Mono | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 746, Mężczyzna 1507, Nieznane 129 | Kontakt | |
indonezyjski_GC_8 | indonezyjski | indonezyjski | Zrobiłem | 8 kHz | Rozmowa ogólna | 496 | Indonezyjskie dane z konwersacji ogólnej | Rozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) — 15-60 minut, Bahasa Indonesian | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 524, Mężczyzna 454, Nieznane 2 | Kontakt | |
Hiszpan_MA_16 | Hiszpanie angielski | Hiszpanie angielski | pl | 16 kHz | Dźwięk multimedialny | 155 | Hiszpańskie połączenia audio w mediach | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Mono | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 140, Mężczyzna 219, Nieznane 5 | Kontakt | |
Hiszpanie_CC_8 | Hiszpanie angielski | Hiszpanie angielski | pl | 8 kHz | Centrum telefoniczne | 212 | Hiszpańskie dane z Call-center | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 822, Mężczyzna 1262, Nieznane 0 | Kontakt | |
pl_US_CC_8 | Afroamerykański język ludowy | Afroamerykański język ludowy | pl | 8 kHz | Centrum telefoniczne | 211 | Dane call-center w języku afroamerykańskim | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta: 612, mężczyzna: 1242 i nieznany: 12 | Kontakt | |
HINGLISH_CC_8 | Hinglijski | Hinglijski | hg_IN | 8 kHz | Centrum telefoniczne | 208 | HINGLISH Dane call center | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 822, Mężczyzna 1262 , Nieznane 0 | Kontakt | |
Hinduski_SM_48 | hinduski | hinduski | hi-IN | 48 kHz | Scenariusz Monolog | 2,867 | Monolog skryptowy w języku hindi | Nagrania jednowypowiedziowe, które zwykle mieszczą się w zakresie od 5 do 30 sekund | Mono | Mobile App | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 1977 Mężczyzna 1864 Nieznany 147 | Kontakt | |
Hinduski_MA_16 | hinduski | hinduski | cześć_IN | 16 kHz | Dźwięk multimedialny | 219 | Hindi Media dane audio | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Mono | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 83, Mężczyzna 309, Nieznany 0 | Kontakt | |
hebrajski_MA_16 | hebrajski | hebrajski | on_IL | 16 kHz | Dźwięk multimedialny | 427 | Hebrajskie dane audio mediów | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Mono | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 361, Mężczyzna 513, Nieznany 13 | Kontakt | |
Hebrajski_rozmowa ogólna_8 | hebrajski | hebrajski | on_IL | 8 kHz | Rozmowa ogólna | 399 | Ogólne dane konwersacji hebrajskiej | Rozmowa telefoniczna bez scenariusza między dwojgiem ludzi. Około. Czas trwania dźwięku (zakres) — 15-60 minut, hebrajski w Izraelu | Podwójny | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 414 , Mężczyzna 399 , Nieznany 1 | Kontakt | |
Gudżarati_MA | gujarati | Gudżarati (w rurociągu) | gu_IN | Dźwięk multimedialny | 40 | Gudżarati (w rurociągu) Dane audio mediów | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
Gudżarati_GC | gujarati | Gudżarati (w rurociągu) | gu_IN | Rozmowa ogólna | 100 | Gudżarati (w potoku) Ogólne dane konwersacji | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
Gudżarati_CC_8 | gujarati | Gudżarati (w rurociągu) | gu_IN | Centrum telefoniczne | 60 | Gudżarati (w rurociągu) Dane Call-Center | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Stacjonarny | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kontakt | ||||
Niemiecki_IVR_8 | niemiecki | niemiecki | de-De | 8 kHz | IVR | 200 | Niemieckie dane IVR | Człowiek do maszyny. Przepływ typu IVR, w którym pojawia się zachęta TTS (np. „Jak mogę ci pomóc”), po której następuje spontaniczna reakcja człowieka | Mono | Stacjonarny | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 10115 Mężczyzna 8750 Nieznany 0 | Kontakt | ||
Niemiecki_CC_8 | niemiecki | niemiecki | de-De | 8 kHz | Centrum telefoniczne | 64 | Niemieckie dane Call-center | Nieopisana, syntetyczna rozmowa telefoniczna między „agentem” a „klientem”, Ok. Czas trwania dźwięku (zakres) 5-15 minut, | Mono | Stacjonarny | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 478 Mężczyzna 1440 Nieznany 0 | Kontakt | ||
Angielski głębokie południe_MA_16 | Głębokie Południe angielskie | Głębokie Południe angielskie | pl | 16 kHz | Dźwięk multimedialny | 266 | Angielskie dane audio Deep South Media | Licencjonowanie Pliki audio/wideo z domeny publicznej, takie jak wywiady, podcasty itp. — od 1 do 5 osób. Około. Czas trwania dźwięku (zakres) 15-60 minut | Mono | Pozyskiwanie sieciowe | 5.0 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Kobieta 204, Mężczyzna 356, Nieznany 21 | Kontakt |
Usługi oferowane
Specjalistyczne zbieranie danych dźwiękowych to nie wszystko, co trzeba zrobić, jeśli chodzi o kompleksowe konfiguracje sztucznej inteligencji. W Shaip możesz nawet rozważyć następujące usługi, aby modele były bardziej rozpowszechnione niż zwykle:
Zbieranie danych tekstowych
Usługi
Prawdziwą wartością usług gromadzenia danych kognitywnych Shaip jest to, że dają one organizacjom klucz do odblokowania krytycznych informacji znajdujących się w danych nieustrukturyzowanych
Usługi gromadzenia danych obrazu
Upewnij się, że model wizji komputerowej dokładnie identyfikuje każdy obraz, aby bezproblemowo trenować modele AI nowej generacji w przyszłości
Usługi gromadzenia danych wideo
Teraz skup się na wizji komputerowej wraz z NLP, aby trenować swoje modele do perfekcyjnego identyfikowania obiektów, osób, środków odstraszających i innych elementów wizualnych
Zalecane zasoby
Oferując
Adnotacje dźwiękowe dla inteligentnych AI
Usługi adnotacji dźwiękowych były mocną stroną firmy Shaip od samego początku. Rozwijaj, trenuj i ulepszaj konwersacyjną sztuczną inteligencję, chatboty i silniki rozpoznawania mowy dzięki naszym najnowocześniejszym usługom adnotacji dźwiękowych.
Przewodnik kupującego
Przewodnik kupującego: kompletny przewodnik po konwersacyjnej sztucznej inteligencji
Chatbot, z którym rozmawiałeś, działa na zaawansowanym konwersacyjnym systemie sztucznej inteligencji, który jest szkolony, testowany i zbudowany przy użyciu mnóstwa zestawów danych rozpoznawania mowy.
Katalog danych
Gotowy katalog danych mowy i licencjonowanie
Istnieje wiele różnych typowych zastosowań danych mowy w projektach AI. Oferujemy ogromne ilości wysokiej jakości danych gotowych do rozpoznawania głosu.
Chcesz zbudować własny zbiór danych dźwiękowych?
Połącz się z naszym wewnętrznym ekspertem od gromadzenia danych mowy, aby skonfigurować repozytorium audio, które najlepiej odpowiada Twoim wymaganiom
Najczęściej zadawane pytania (FAQ)
Gromadzenie danych mowy dla modelu ML odnosi się do procesu gromadzenia nagrań dźwiękowych języka mówionego. Ta kolekcja pomaga w szkoleniu i udoskonalaniu algorytmów uczenia maszynowego, szczególnie tych skupiających się na rozumieniu i przetwarzaniu ludzkich głosów.
Chcąc zebrać dane audio na potrzeby automatycznego rozpoznawania mowy (ASR), należy zacząć od zdefiniowania konkretnych potrzeb projektu, w tym żądanego języka, akcentu i rodzaju mowy. Po ustawieniu tych parametrów upewnij się, że uzyskałeś wszystkie niezbędne uprawnienia w celu poszanowania prywatności użytkowników. Następnie użyj odpowiednich urządzeń nagrywających lub oprogramowania, aby przechwycić wyraźne próbki audio. Każde nagranie powinno być szczegółowo opatrzone transkrypcją lub innymi istotnymi metadanymi i systematycznie przechowywane, aby zapewnić łatwy dostęp.
Zbiór danych mowy w uczeniu maszynowym ma kluczowe znaczenie dla uczenia, testowania i sprawdzania poprawności modeli dostosowanych do rozpoznawania, transkrypcji i interpretacji języka mówionego. Takie zbiory danych torują drogę niezliczonym aplikacjom, od asystentów głosowych i usług transkrypcji po biometrię głosu.
Aby zebrać dokładne dane dotyczące różnych języków i akcentów, niezbędna jest współpraca z rodzimymi użytkownikami języka o pożądanym pochodzeniu językowym. Staraj się, aby próba była zróżnicowana i reprezentatywna, aby uwzględnić szerokie spektrum niuansów demograficznych. Aby zapewnić spójność dźwięku, należy stosować ustandaryzowany sprzęt nagrywający w jednolitym środowisku. Co ważne, do każdego fragmentu danych dodawaj szczegółowe transkrypcje i metadane, opisujące konkretny język i akcent.