Teraz zdobądź 50% ZNIŻKI* w sprawie gotowych zestawów danych konwersacyjnej sztucznej inteligencji
Zbiór danych mowy i dźwięku dla chatbotów, asystentów głosowych, urządzeń obsługujących mowę.
*Oferta ograniczona czasowo
Zaufany przez liderów branży
Szczegóły | słowo kluczowe | Gotowy zestaw danych językowych | Rozmowy w call center 8 kHz* | Rozmowy ogólne 8 kHz* | Media i podcasty 16 kHz* | Wypowiedź/ Monolog oparty na scenariuszu 16 kHz* | Całkowita objętość w godzinach | Dialekty objęte | Audio Format | Format transkrypcji tekstu | Przypadek użycia | Źródło | CTA |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Afrikaans | Zbiór danych audio w języku afrikaans | 600 | 900 | 1500 | Język afrikaans używany w Afryce | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Szaip | Kontakt Kontakt | |||
Arabowie | Arabski zbiór danych audio | 800 | 1500 | 2300 | Arabski z krajów Zatoki Perskiej | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Szaip | Kontakt Kontakt | |||
chiński | Chiński zbiór danych audio | 2000 | 2000 | Chińczyk z Chin | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Szaip | Kontakt Kontakt | ||||
duński | Duński zbiór danych audio | 400 | 600 | 2000 | 3000 | Duńczyk z Danii | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Szaip | Kontakt Kontakt | ||
holenderski | Holenderski zbiór danych audio | 2000 | 2000 | Holender z Holandii | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Szaip | Kontakt Kontakt | ||||
Angielski — akcent AAVE | Angielski — zbiór danych audio AAVE (African American Vernacular English). | 500 | 500 | 1000 | Odmiana wernakularna (czasami znana jako AAVE, zwykle używana przez zdecydowaną większość Afroamerykanów z klasy robotniczej i średniej) i bardziej standardowa odmiana (zwykle używana przez Afroamerykanów z klasy średniej w sytuacjach formalnych i publicznych), ale z silniejszy nacisk na języku narodowym. | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Szaip | Kontakt Kontakt | |||
Angielski — akcent bostoński/nowojorski | Angielski — zbiór danych dźwiękowych z Bostonu/Nowego Jorku | 225 | 225 | 350 | 800 | Jest to zbiór kilku regionalnych akcentów używanych w okolicach Bostonu, Nowego Jorku i Filadelfii. Te akcenty mogą brzmieć podobnie do nie-miejscowych, ale różnią się od innych akcentów amerykańskich. Pomimo pewnego lokalnego słownictwa, które różni się od innych części anglojęzycznego świata, te akcenty są wzajemnie zrozumiałe z angielskim używanym w innych miejscach. | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Szaip | Kontakt Kontakt | ||
Angielski - chiński akcent | Angielsko-chiński zestaw danych audio z akcentami | 150 | 300 | 450 | Osoby mówiące po chińsku jako pierwszym języku, które przeprowadziły się/wyemigrowały do Stanów Zjednoczonych jako nastolatki/dorośli i nauczyły się angielskiego jako drugiego języka. | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Szaip | Kontakt Kontakt | |||
Angielski — akcent z głębokiego południa | Angielski - Zbiór danych audio Deep South | 275 | 275 | 450 | 1000 | Prelegenci z (i) Teksasu; (ii) Karolina Północna, Karolina Południowa, Georgia; (iii) Nowy Orlean; (iv) Floryda Zachodnia; (v) Tennessee, Arkansas, Michigan. | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Szaip | Kontakt Kontakt | ||
angielski - akcent latynoski | Zestaw danych dźwiękowych z akcentem hiszpańskim w języku angielskim | 400 | 400 | 800 | Hiszpański angielski odnosi się do odmian amerykańskiego angielskiego używanego przez latynoskich Amerykanów o zróżnicowanym pochodzeniu narodowym. Skupiono się głównie na meksykańskich Amerykanach, mówiących o różnym pochodzeniu narodowym (np. Meksyk, Portoryko, Dominikana, Ekwador, Kuba itp.) oraz z różnych regionów (np. Kalifornia, Nowy Jork, Floryda). Uwzględniono mówców, którzy mówią po hiszpańsku jako pierwszym języku, a także osoby pochodzenia latynoskiego, które mówią po hiszpańsku jako ojczystym języku. | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Szaip | Kontakt Kontakt | |||
Angielski z akcentem nowozelandzkim | Angielski — nowozelandzki zbiór danych dźwiękowych | 250 | 750 | 1000 | Mówcy na obu wyspach, w tym mieszanka młodszych mówców (<40 lat) i starszych mówców (>40 lat) w równych proporcjach. | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Szaip | Kontakt Kontakt | |||
Angielski — akcent singapurski | Angielski — zbiór danych dźwiękowych w Singapurze | 400 | 600 | 1000 | Zarówno standardowy singapurski angielski, jak i potoczny singapurski angielski. Singapurczycy o różnym pochodzeniu etnicznym (np. Chińczycy, Malajowie, Hindusi itp.) io różnym poziomie wykształcenia. | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Szaip | Kontakt Kontakt | |||
Angielski - akcent z RPA | Angielski — zbiór danych audio w RPA | 400 | 600 | 1000 | Przedstawiciele różnych klas społeczno-ekonomicznych i środowisk etnologicznych (np. mieszkańcy RPA pochodzenia europejskiego, afrykańskiego, indyjskiego lub mieszanego). | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Szaip | Kontakt Kontakt | |||
Angielski - irlandzki akcent | Angielsko-irlandzki zbiór danych audio | 500 | 500 | Angielski używany w Irlandii | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Szaip | Kontakt Kontakt | ||||
Angielski - szkocki akcent | Angielsko-szkocki zbiór danych audio | 800 | 800 | Angielski używany przez Szkotów | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Szaip | Kontakt Kontakt | ||||
Angielski - walijski akcent | Angielsko-walijski zbiór danych audio | 800 | 800 | walijski angielski | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Szaip | Kontakt Kontakt | ||||
Francuski kanadyjski | Francuski kanadyjski zbiór danych audio | 1000 | 1000 | Kanadyjski francuski | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Szaip | Kontakt Kontakt | ||||
hebrajski | Hebrajski zbiór danych audio | 750 | 750 | 1500 | Hebrajski w Izraelu | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Szaip | Kontakt Kontakt | |||
indonezyjski | Indonezyjski zbiór danych audio | 1000 | 1000 | 2000 | Bahasa indonezyjski | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Szaip | Kontakt Kontakt | |||
Japonki | Japoński zbiór danych audio | 2000 | 2000 | Japończyk z Japonii | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Szaip | Kontakt Kontakt | ||||
koreański | Koreański zbiór danych audio | 100 | 200 | 1500 | 1800 | Mówcy rozprzestrzenili się po całej Korei Południowej. | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Szaip | Kontakt Kontakt | ||
malajski | Malajski zbiór danych audio | 500 | 500 | 1000 | Malajski w Malezji | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Szaip | Kontakt Kontakt | |||
Meksykański hiszpański | Zestaw danych audio w języku meksykańskim i hiszpańskim | 1250 | 1250 | Meksykanin z Meksyku | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Szaip | Kontakt Kontakt | ||||
Polski | Polski zbiór danych audio | 250 | 2000 | 2250 | Polak z Polski | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Szaip | Kontakt Kontakt | |||
Rosyjski | Rosyjski zestaw danych audio | 2000 | 2000 | Rosjanin z Rosji | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Szaip | Kontakt Kontakt | ||||
suahili | Zbiór danych audio w języku suahili | 350 | 650 | 1000 | południowoafrykański i kenijski suahili | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Szaip | Kontakt Kontakt | |||
szwedzki | Szwedzki zbiór danych audio | 350 | 650 | 1000 | Szwedzki w Szwecji | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Szaip | Kontakt Kontakt | |||
Tajwan chiński | Tajwański zestaw danych audio w języku chińskim | 1000 | 1000 | Chińczyk z Tajwanu | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Szaip | Kontakt Kontakt | ||||
tajski | Tajski zbiór danych audio | 350 | 450 | 800 | Nieformalny rejestr używany między przyjaciółmi, | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Szaip | Kontakt Kontakt | |||
turecki | Turecki zbiór danych audio | 2000 | 2000 | Turek z Turcji | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Szaip | Kontakt Kontakt | ||||
wietnamski | Wietnamski zbiór danych audio | 600 | 400 | 1000 | Północna (np. Hanoi), środkowa i południowa (np. Ho Chi Minh). | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Szaip | Kontakt Kontakt | |||
hinduski | Zestaw danych audio w języku hindi | 800 | 2000 | 2800 | Hindi w Indiach, szczególnie w regionach północnych, wschodnich i zachodnich | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Szaip | Kontakt Kontakt | |||
Hinglijski | Zestaw danych audio w języku indyjskim i angielskim | 300 | 500 | 800 | Zebrane z indyjskich miast miejskich, które są centrami finansowymi kraju ze względu na rosnące możliwości gospodarcze. Takimi miejscami mogą być Noida, Delhi, Dehradun, Chandigarh, Bombaj, Kalkuta, Bangalore, Pune, Chennai, Hyderabad itp. | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Szaip | Kontakt Kontakt | |||
Angielski | Angielski zbiór danych audio | 700 | 700 | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Szaip | Kontakt Kontakt | |||||
kannada | Zbiór danych audio w języku kannada | 60 | 100 | 40 | 200 | Kannada z Karnataki w Indiach | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Szaip | Kontakt Kontakt | ||
malajalam | Zbiór danych audio w języku malajalam | 60 | 100 | 40 | 200 | Malajalam z Kerali, Lakshadweep i Puducherry | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Szaip | Kontakt Kontakt | ||
Oriya | Zbiór danych audio Oriya | 60 | 100 | 40 | 200 | Oriya z części Odisha, Bengalu Zachodniego, Jharkhand i Chhattisgarh | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Szaip | Kontakt Kontakt | ||
Punjabi | Zbiór danych audio w języku pendżabskim | 60 | 100 | 40 | 200 | Pendżabski z Pendżabu w Indiach | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Szaip | Kontakt Kontakt | ||
Tamil | Tamilski zbiór danych audio | 60 | 100 | 240 | 400 | Tamil z Tamil Nadu w Indiach | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Szaip | Kontakt Kontakt | ||
telugu | Zestaw danych audio w języku telugu | 100 | 950 | 950 | 2000 | Telugu z Andhra Pradesh w Indiach | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Szaip | Kontakt Kontakt | ||
bengalski | Zbiór danych audio w języku bengalskim | 60 | 100 | 40 | 200 | Bengalski z Bengalu Zachodniego w Indiach | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Szaip | Kontakt Kontakt | ||
gujarati | Zbiór danych audio gudżarati | 60 | 100 | 40 | 200 | Gudżarati z Gudżaratu w Indiach | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Szaip | Kontakt Kontakt | ||
marathi | Zbiór danych audio marathi | 60 | 100 | 40 | 200 | Marathi z Maharasztry w Indiach | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Szaip | Kontakt Kontakt | ||
Asamski | Asamski zbiór danych audio | 60 | 100 | 40 | 200 | Assamczycy z Assam w Indiach | . Wav | .json | ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka | Szaip | Kontakt Kontakt |
Głęboka wiedza na temat konwersacyjnej sztucznej inteligencji
Konwersacyjna sztuczna inteligencja, chatboty lub wirtualni/cyfrowi asystenci są tak inteligentni, jak technologia i dane, które za nimi stoją. W Shaip oferujemy szeroki zestaw zróżnicowanych zestawów danych dźwiękowych do przetwarzania języka naturalnego (NLP), które naśladują rozmowy z prawdziwymi ludźmi, co pozwala ożywić sztuczną inteligencję. Dzięki naszemu głębokiemu zrozumieniu pomagamy Ci tworzyć i lokalizować modele mowy obsługujące sztuczną inteligencję z najwyższą precyzją dzięki bogatym i ustrukturyzowanym zestawom danych w wielu językach z całego świata. Oferujemy wielojęzyczne usługi gromadzenia dźwięku, transkrypcji dźwięku i adnotacji dźwiękowych w oparciu o Twoje wymagania, jednocześnie w pełni dostosowując pożądaną intencję, wypowiedzi i rozkład demograficzny.
Kolekcja mowy skryptowej
Spontaniczna kolekcja mowy
Transkrypcja danych audio
Etykietowanie danych i adnotacje
Shaip pozwala dokładnie szkolić platformę Conversational AI Platform, aby mogła:
- Bezproblemowo rozmawiaj, wysyłaj SMS-y i czatuj na wielu kanałach.
- Ucz się na podstawie istniejących interakcji w formie czatu, zapisów głosowych, transakcji itp. oraz sugeruj i rozmawiaj w oparciu o te wnioski.
- Zrozum intencje stojące za ludzką mową i usuń dwuznaczność w rozumieniu ludzkiego języka.
- Kontaktuj się z Tobą na zasadzie jeden na jednego i możesz zostać przeszkolony w zakresie identyfikowania użytkowników i zapamiętywania przeszłych rozmów.
Światowy lider w zakresie konwersacyjnych danych szkoleniowych AI
Godziny danych dźwiękowych w ponad 100 językach – pozyskiwane, transkrybowane i opatrzone adnotacjami
Licencjonowanie danych mowy
Ponad 20 40 godzin danych mowy w ponad 55 językach i dialektach obejmujących ponad XNUMX tematów z różnych dziedzin, np. Call-center, debaty, rozmowy ogólne, przemówienia, podcasty itp.
Zbieranie danych mowy
Zbieraj dane audio i mowy (monolog, rozmowa 2-osobowa, czat człowiek-bot) w ponad 100 językach z całego świata, dostosowanych do Twoich wymagań AI.
Transkrypcja danych mowy
Ekonomiczna transkrypcja audio lub adnotacja audio dzięki sile 30,000 współpracowników z gwarantowanym TAT, dokładnością i oszczędnościami
Przyspiesz tworzenie aplikacji AI do konwersacji dzięki usługom kolekcji audio i adnotacji audio
Przewaga Shaip
Skala
Możemy pozyskiwać, skalować i dostarczać dane audio z całego świata w wielu językach i dialektach w oparciu o Twoje wymagania.
Ekspertyza
Posiadamy odpowiednią wiedzę fachową w zakresie dokładnego i bezstronnego gromadzenia danych, transkrypcji i adnotacji o złotym standardzie. .
Sieć
Sieć ponad 30,000 wykwalifikowanych współpracowników, którym można szybko przydzielić zadania związane z gromadzeniem danych, aby zbudować model szkolenia AI i usługi skalowania.
Technologia
Dysponujemy platformą w pełni opartą na sztucznej inteligencji z zastrzeżonymi narzędziami i procesami, które umożliwiają zarządzanie przepływem pracy 24*7 przez całą dobę.
Zwinność
Bardzo szybko dostosowujemy się do zmian wymagań klientów i pomagamy w przyspieszeniu rozwoju AI dzięki wysokiej jakości danych głosowych 5-10x szybciej niż konkurencja.
Bezpieczeństwo
Przywiązujemy najwyższą wagę do bezpieczeństwa danych i prywatności, a także posiadamy certyfikaty do przetwarzania danych wrażliwych podlegających ściśle określonym regulacjom. .
Co robimy najlepiej
Dane treningowe
Uzyskaj znakowane dane najwyższej jakości w ułamku czasu. Jest złotym standardem, niezawodny i gotowy do trenowania modeli AI i ML, aby osiągnąć najwyższy poziom wydajności.
Zbieranie danych, etykietowanie i adnotacje
Dzięki Shaip zyskujesz ponad 15 lat sprawdzonego doświadczenia w zbieraniu, transkrypcji i komentowaniu danych wysokiej jakości. Dzięki naszej globalnej sile roboczej możemy zbierać dane z całego świata, a następnie świadczyć usługi etykietowania i adnotacji z doskonałym poziomem umiejętności i wiedzy wymaganej dla Twoich danych.
Katalogi danych i licencjonowanie
Dzięki naszemu obszernemu spisowi milionów zestawów danych możesz zbierać i organizować zgodnie z wymaganiami. Następnie możemy licencjonować te dane jakościowe dla określonych wymagań dotyczących korzystania z AI i ML. Co więcej, te dane są dostępne za ułamek kosztów, jeśli tworzysz je samodzielnie.
Chcesz zbudować własny zestaw danych?
Skontaktuj się z nami teraz, aby dowiedzieć się, jak możemy zebrać niestandardowy zestaw danych dla Twojego unikalnego rozwiązania AI.