Studium przypadku: Zbieranie wypowiedzi
Dostarczono 7 mln+ wypowiedzi w celu zbudowania wielojęzycznych asystentów cyfrowych w 13 językach
Rozwiązanie dla świata rzeczywistego
Dane, które napędzają globalne rozmowy
Potrzeba szkolenia w zakresie wypowiedzi pojawia się, ponieważ nie wszyscy klienci używają dokładnych słów lub fraz podczas interakcji lub zadawania pytań swoim asystentom głosowym w formacie skryptowym. Dlatego konkretne aplikacje głosowe muszą być wytrenowane na spontanicznych danych mowy. Np. „Gdzie znajduje się najbliższy szpital?” „Znajdź szpital w pobliżu” lub „Czy w pobliżu jest szpital?” wszystkie wskazują ten sam cel wyszukiwania, ale są sformułowane inaczej.
Problem
Aby wykonać mapę drogową mowy klienta Digital Assistant dla języków na całym świecie, zespół musiał pozyskać duże ilości danych treningowych dla modelu rozpoznawania mowy AI. Krytyczne wymagania klienta to:
- Zbieraj duże ilości danych treningowych (podpowiedzi wymowy jednego mówcy nie dłuższe niż 3-30 sekund) dla usług rozpoznawania mowy w 13 językach świata
- Dla każdego języka dostawca wygeneruje monity tekstowe dla mówców do nagrania (chyba że
dostaw klienta) i transkrybuj wynikowy dźwięk. - Dostarcz dane audio i transkrypcję nagranych wypowiedzi wraz z odpowiednimi plikami JSON
zawierające metadane dla wszystkich nagrań. - Zapewnij zróżnicowaną mieszankę głośników według wieku, płci, wykształcenia i dialektu
- Zapewnij zróżnicowaną mieszankę środowisk nagrywania zgodnie ze specyfikacjami.
- Każde nagranie dźwiękowe powinno mieć częstotliwość co najmniej 16 kHz, ale najlepiej 44 kHz
„Po ocenie wielu dostawców, klient wybrał firmę Shaip ze względu na ich doświadczenie w projektach konwersacyjnej sztucznej inteligencji. Byliśmy pod wrażeniem kompetencji Shaip w zakresie realizacji projektów, ich wiedzy fachowej w zakresie pozyskiwania, transkrypcji i dostarczania wymaganych wypowiedzi ekspertów lingwistów w 13 językach w rygorystycznych terminach i z wymaganą jakością”
Rozwiązanie
Dzięki naszemu dogłębnemu zrozumieniu konwersacyjnej sztucznej inteligencji pomogliśmy klientowi zbierać, transkrybować i opisywać dane z zespołem ekspertów lingwistów i adnotatorów, aby przeszkolić jego wielojęzyczny pakiet głosowy do przetwarzania mowy oparty na sztucznej inteligencji.
Zakres prac dla Shaip obejmował między innymi pozyskiwanie dużych ilości danych szkoleniowych audio do rozpoznawania mowy, transkrypcję nagrań dźwiękowych w wielu językach dla wszystkich języków na naszej mapie drogowej dla języków Poziomu 1 i Poziomu 2 oraz dostarczanie odpowiednich JSON pliki zawierające metadane. Shaip zbierał wypowiedzi trwające od 3 do 30 sekund na dużą skalę, zachowując jednocześnie pożądany poziom jakości wymagany do trenowania modeli ML dla złożonych projektów.
- Zebrane, przepisane i opatrzone komentarzami audio: 22,250 godzin
- Obsługiwane języki: 13 (duński, koreański, saudyjskoarabski, holenderski, chiński kontynentalny i tajwański, francuski kanadyjski, meksykański hiszpański, turecki, hindi, polski, japoński, rosyjski)
- Liczba wypowiedzi: 7M +
- Timeline: 7-8 miesięcy
Zbierając wypowiedzi dźwiękowe z częstotliwością 16 kHz, zapewniliśmy zdrową mieszankę głośników według wieku, płci, wykształcenia i dialektów w różnych środowiskach nagraniowych.
Wynik
Wysokiej jakości dane dźwiękowe wypowiedzi od ekspertów lingwistów umożliwiły klientowi dokładne wyszkolenie wielojęzycznego modelu rozpoznawania mowy w 13 językach globalnego poziomu 1 i 2. Dzięki zestawom danych szkoleniowych o złotym standardzie klient może zaoferować inteligentną i solidną cyfrową pomoc w rozwiązywaniu przyszłych rzeczywistych problemów.
Nasza wiedza specjalistyczna
Zalecane zasoby
Przewodnik kupującego
Przewodnik kupującego: konwersacyjna sztuczna inteligencja
Chatbot, z którym rozmawiałeś, działa na zaawansowanym konwersacyjnym systemie sztucznej inteligencji, który jest szkolony, testowany i zbudowany przy użyciu mnóstwa zestawów danych rozpoznawania mowy.
Blog
Stan konwersacyjnej AI 2021 XNUMX
Infografiki konwersacyjnej AI 2021 mówią o tym, czym jest konwersacyjna sztuczna inteligencja, jej ewolucja, rodzaje, rynek konwersacyjnej sztucznej inteligencji według regionu, przypadki użycia, wyzwania itp.
Blog
3 przeszkody w rozwoju konwersacyjnej sztucznej inteligencji
Shaip przyspiesza ewolucję konwersacyjnej sztucznej inteligencji jako narzędzia do angażowania klientów, oferując niezbędne dane audio z adnotacjami w ponad 50 językach.
Powiedz nam, jak możemy pomóc w Twojej następnej inicjatywie AI.