Zbiór audio kluczowych fraz/podpowiedzi

Studium przypadku: Zbiór kluczowych fraz dla samochodowych systemów aktywowanych głosem

W branży motoryzacyjnej rośnie zapotrzebowanie na samochodowe systemy aktywowane głosem, co na nowo definiuje sposób, w jaki korzystamy z naszych pojazdów mobilnych.

Przemysł motoryzacyjny szybko przyjął systemy aktywowane głosem, a główni gracze, tacy jak Ford, Tesla i BMW, integrują w swoich pojazdach zaawansowane systemy rozpoznawania głosu. Szacuje się, że do 2022 roku ponad 50% nowych samochodów będzie posiadało funkcję rozpoznawania głosu. Integracje te mają na celu poprawę bezpieczeństwa, umożliwiając kierowcom korzystanie z nawigacji, rozrywki i funkcji komunikacyjnych bez rozpraszania uwagi.

Przewiduje się, że do roku 1 wartość rynku rozwiązań do rozpoznawania głosu w samochodach przekroczy 2023 miliard dolarów, co wskazuje na rosnące zapotrzebowanie na inteligentne interakcje w samochodzie bez użycia rąk.

Motoryzacja

Badania sugerują, że do 2022 r. 73% kierowców będzie korzystać z samochodowego asystenta głosowego.

Wartość rynku samochodowych systemów rozpoznawania mowy w 2.01 r. wyceniana była na 2021 mld dolarów, a do 3.51 r. ma osiągnąć 2027 mld dolarów, co oznacza CAGR na poziomie około 8.07%.

Rozwiązanie dla świata rzeczywistego

Dane, które zasilają systemy aktywowane głosem

Systemy aktywowane głosem w samochodach zwiększają bezpieczeństwo i wygodę. Umożliwiają kierowcom dostęp do nawigacji, wykonywanie połączeń, wysyłanie SMS-ów i sterowanie muzyką bez odrywania rąk od kierownicy i wzroku od drogi. Reagując na polecenia słowne, systemy te zmniejszają rozproszenie uwagi, sprzyjają wielozadaniowości i zapewniają ciągłe skupienie się na prowadzeniu pojazdu.

Klient jest światowym liderem w dziedzinie inteligencji konwersacyjnej, oferującym rozwiązania głosowej sztucznej inteligencji, które pozwalają firmom oferować swoim klientom niesamowite doświadczenia konwersacyjne. Współpracowali z wiodącymi firmami motoryzacyjnymi, aby szkolić swoje systemy aktywowane głosem za pomocą markowych fraz kluczowych i potrzebowali wiedzy firmy Shaip w zakresie gromadzenia danych dźwiękowych.

Wyzwania

Pozyskiwanie tłumu: Zrekrutuj ponad 2800 rodzimych użytkowników języka na całym świecie.
Zbieranie danych: Zabezpiecz ponad 200 tys. podpowiedzi w 12 językach w ustalonych ramach czasowych.
Rozpoznawanie kontekstu i intencji: Aby poprawnie zrozumieć żądania użytkowników, systemy musiały zostać przeszkolone w zakresie różnych odmian tej samej frazy kluczowej.
Obsługa szumów tła: Zajmij się szumem tła w świecie rzeczywistym, aby uzyskać dokładność modelu ML.
Zmniejszanie odchylenia: Pozyskuj próbki głosu od różnych grup demograficznych, aby zapewnić integrację.
Specyfikacja dźwięku: 16 kHz, 16 bitów PCM, mono, jednokanałowy, WAV; bez przetwarzania.
Środowisko nagrywania: Nagrania powinny mieć czysty dźwięk, bez szumów i zakłóceń w tle. Kluczowe frazy należy nagrać przy użyciu normalnej mowy.
Kontrola jakości: Wszystkie nagrania przemówień zostaną poddane ocenie jakości i weryfikacji. Zostaną dostarczone wyłącznie zatwierdzone nagrania przemówień. Jeżeli firma Shaip nie spełni ustalonych standardów jakości, ponownie dostarczy dane bez dodatkowych kosztów

Rozwiązanie

Shaip, dzięki swojej wiedzy w zakresie konwersacyjnej przestrzeni AI, umożliwił klientowi:

Zbieranie danych: 208 tys. kluczowych fraz/podpowiedzi dotyczących marki zebranych w 12 językach z całego świata od 2800 mówców w określonych ramach czasowych
Różnorodne akcenty i dialekty: Rekrutujemy specjalistów z całego świata, biegłych w pożądanych akcentach i dialektach.
Rozpoznawanie kontekstu i intencji: Każdy mówca miał za zadanie nagrać kluczowe frazy w 20 różnych odmianach, co umożliwiło modelom ML dokładne uchwycenie żądań użytkowników pod względem kontekstu i intencji.
Obsługa szumów tła: Aby zapewnić nieskazitelną jakość dźwięku, upewniliśmy się, że kluczowe frazy zostały uchwycone w spokojnym otoczeniu o poziomie hałasu poniżej 40 dB, pozbawionym zakłóceń w tle, takich jak telewizja, radio, muzyka, mowa lub dźwięki uliczne.
Zmniejszanie odchylenia: Aby zminimalizować stronniczość, zaangażowaliśmy osoby z różnych regionów i utrzymaliśmy zrównoważoną reprezentację demograficzną z 50% mężczyzn i 50% kobiet, w grupach wiekowych od 18 do 60 lat.
Wytyczne dotyczące nagrywania: Kluczowe frazy zostały uchwycone w sposób spójny, normalny, bez żadnych różnic, takich jak szybkie lub wolne tempo wypowiedzi. 2-sekundowa cisza na początku i na końcu, aby zagwarantować, że żadna część przemówienia nie zostanie przypadkowo obcięta.
Format nagrywania: Dźwięk został nagrany przy częstotliwości 16 kHz, 16-bitowym PCM w trybie mono, z wykorzystaniem jednego kanału, i zapisany w formacie pliku WAV. Dźwięk pozostaje nieprzetworzony, co oznacza, że nie zastosowano kompresji, pogłosu ani korektora.
Jakość: Każde nagranie przemówienia poddawane było rygorystycznym kontrolom jakości i walidacji. Dostarczono jedynie nagrania, które przeszły tę ocenę. Wszelkie pliki, które nie spełniały ustalonych standardów jakości, zostały ponownie nagrane i udostępnione bez żadnych dodatkowych opłat

Wynik

Wysokiej jakości dane dźwiękowe lub komunikaty głosowe dotyczące kluczowych fraz marki umożliwią firmom motoryzacyjnym i ich klientom:

Marka i tożsamość: Komunikaty głosowe zawierające konkretną frazę związaną z marką pomagają firmom stworzyć bezpośrednie i zapadające w pamięć połączenie między użytkownikiem a marką, co zwiększa świadomość marki.
Łatwa obsługa: Polecenia głosowe ułatwiają kierowcom interakcję z pojazdem bez odrywania rąk od kierownicy i wzroku od drogi, zwiększając w ten sposób bezpieczeństwo na drodze.
funkcjonalność: Polecenia głosowe sprawiają, że dostęp i sterowanie funkcjami samochodu są bardziej intuicyjne. Niezależnie od tego, czy jest to nawigacja, odtwarzanie multimediów, czy klimatyzacja.
Integracja z innymi systemami: Wiele systemów aktywowanych głosem jest zintegrowanych ze smartfonami, urządzeniami inteligentnego domu i innymi urządzeniami IoT. Na przykład użytkownik może poprosić swój samochód o włączenie świateł w domu, gdy dotrą do domu.
Przewaga konkurencyjna: Oferowanie zaawansowanych systemów aktywowanych głosem może być zaletą i wyróżnikiem. Kupujący, rozważając zakup nowego samochodu, szukają najnowszych technologii.
Zabezpieczenie na przyszłość: W miarę rozwoju technologii i coraz większej integracji Internetu Rzeczy z życiem codziennym posiadanie solidnego systemu aktywowanego głosem pozwala firmom motoryzacyjnym lepiej dostosować się do technologii przyszłości.
Możliwości uzyskania przychodów: Dodatkowe możliwości monetyzacji, tj. systemy głosowe oferują rekomendacje lub zintegrowane doświadczenia związane z handlem elektronicznym (takie jak zamawianie jedzenia lub znajdowanie usług w pobliżu), które mogą zapewnić partnerowi przychody.

Kiedy zaczęliśmy pozyskiwać komunikaty głosowe dla sektora motoryzacyjnego, wyzwań było wiele. Uchwycenie różnorodności mowy, akcentów i tonów było niezbędne, aby reprezentować globalną klientelę naszego klienta. Shaip wyróżniał się nie tylko jako dostawca, ale także jako prawdziwy partner. Godne pochwały było ich zaangażowanie w zapewnienie różnorodnego spektrum głosów z różnych regionów. Wykraczali poza zwykłe zbieranie głosów; zrozumieli niuanse naszych potrzeb projektowych, gwarantując nagrania na najwyższym poziomie. Ich bezbłędne przestrzeganie standardów gromadzenia plików audio pokazało ich profesjonalizm i zaangażowanie w projekt.

Przyspiesz swoją konwersacyjną sztuczną inteligencję
rozwój aplikacji o 100%

Zbiór audio kluczowych fraz/podpowiedzi

Studium przypadku: Zbiór kluczowych fraz dla samochodowych systemów aktywowanych głosem

W branży motoryzacyjnej rośnie zapotrzebowanie na samochodowe systemy aktywowane głosem, co na nowo definiuje sposób, w jaki korzystamy z naszych pojazdów mobilnych.

Rozwiązanie dla świata rzeczywistego

Wyzwania

Rozwiązanie

Wynik

Usługi danych AI

Specjalne

Przemysłowe

Produkty

O nas

Zasoby

Skontaktuj się z nami

Daj nam znać o sobie więcej!