Zbiór audio kluczowych fraz/podpowiedzi

Studium przypadku: Zbiór kluczowych fraz dla samochodowych systemów aktywowanych głosem

Zbiór fraz kluczowych

W branży motoryzacyjnej rośnie zapotrzebowanie na samochodowe systemy aktywowane głosem, co na nowo definiuje sposób, w jaki korzystamy z naszych pojazdów mobilnych.

Przemysł motoryzacyjny szybko przyjął systemy aktywowane głosem, a główni gracze, tacy jak Ford, Tesla i BMW, integrują w swoich pojazdach zaawansowane systemy rozpoznawania głosu. Szacuje się, że do 2022 roku ponad 50% nowych samochodów będzie posiadało funkcję rozpoznawania głosu. Integracje te mają na celu poprawę bezpieczeństwa, umożliwiając kierowcom korzystanie z nawigacji, rozrywki i funkcji komunikacyjnych bez rozpraszania uwagi.

Przewiduje się, że do roku 1 wartość rynku rozwiązań do rozpoznawania głosu w samochodach przekroczy 2023 miliard dolarów, co wskazuje na rosnące zapotrzebowanie na inteligentne interakcje w samochodzie bez użycia rąk.

Motoryzacja

Badania sugerują, że do 2022 r. 73% kierowców będzie korzystać z samochodowego asystenta głosowego.

Wartość rynku samochodowych systemów rozpoznawania mowy w 2.01 r. wyceniana była na 2021 mld dolarów, a do 3.51 r. ma osiągnąć 2027 mld dolarów, co oznacza CAGR na poziomie około 8.07%.

Rozwiązanie dla świata rzeczywistego

Dane, które zasilają systemy aktywowane głosem

Systemy aktywowane głosem w samochodach zwiększają bezpieczeństwo i wygodę. Umożliwiają kierowcom dostęp do nawigacji, wykonywanie połączeń, wysyłanie SMS-ów i sterowanie muzyką bez odrywania rąk od kierownicy i wzroku od drogi. Reagując na polecenia słowne, systemy te zmniejszają rozproszenie uwagi, sprzyjają wielozadaniowości i zapewniają ciągłe skupienie się na prowadzeniu pojazdu. 

Klient jest światowym liderem w dziedzinie inteligencji konwersacyjnej, oferującym rozwiązania głosowej sztucznej inteligencji, które pozwalają firmom oferować swoim klientom niesamowite doświadczenia konwersacyjne. Współpracowali z wiodącymi firmami motoryzacyjnymi, aby szkolić swoje systemy aktywowane głosem za pomocą markowych fraz kluczowych i potrzebowali wiedzy firmy Shaip w zakresie gromadzenia danych dźwiękowych.

Rozwiązanie z prawdziwego świata
Wyzwania

Wyzwania

  • Pozyskiwanie tłumu: Zrekrutuj ponad 2800 rodzimych użytkowników języka na całym świecie.
  • Zbieranie danych: Zabezpiecz ponad 200 tys. podpowiedzi w 12 językach w ustalonych ramach czasowych.
  • Rozpoznawanie kontekstu i intencji: Aby poprawnie zrozumieć żądania użytkowników, systemy musiały zostać przeszkolone w zakresie różnych odmian tej samej frazy kluczowej.
  • Obsługa szumów tła: Zajmij się szumem tła w świecie rzeczywistym, aby uzyskać dokładność modelu ML.
  • Zmniejszanie odchylenia: Pozyskuj próbki głosu od różnych grup demograficznych, aby zapewnić integrację.
  • Specyfikacja dźwięku: 16 kHz, 16 bitów PCM, mono, jednokanałowy, WAV; bez przetwarzania.
  • Środowisko nagrywania: Nagrania powinny mieć czysty dźwięk, bez szumów i zakłóceń w tle. Kluczowe frazy należy nagrać przy użyciu normalnej mowy.
  • Kontrola jakości:  Wszystkie nagrania przemówień zostaną poddane ocenie jakości i weryfikacji. Zostaną dostarczone wyłącznie zatwierdzone nagrania przemówień. Jeżeli firma Shaip nie spełni ustalonych standardów jakości, ponownie dostarczy dane bez dodatkowych kosztów

Rozwiązanie

Shaip, dzięki swojej wiedzy w zakresie konwersacyjnej przestrzeni AI, umożliwił klientowi:

  • Zbieranie danych: 208 tys. kluczowych fraz/podpowiedzi dotyczących marki zebranych w 12 językach z całego świata od 2800 mówców w określonych ramach czasowych
  • Różnorodne akcenty i dialekty: Rekrutujemy specjalistów z całego świata, biegłych w pożądanych akcentach i dialektach.
  • Rozpoznawanie kontekstu i intencji: Każdy mówca miał za zadanie nagrać kluczowe frazy w 20 różnych odmianach, co umożliwiło modelom ML dokładne uchwycenie żądań użytkowników pod względem kontekstu i intencji.
  • Obsługa szumów tła: Aby zapewnić nieskazitelną jakość dźwięku, upewniliśmy się, że kluczowe frazy zostały uchwycone w spokojnym otoczeniu o poziomie hałasu poniżej 40 dB, pozbawionym zakłóceń w tle, takich jak telewizja, radio, muzyka, mowa lub dźwięki uliczne.
  • Zmniejszanie odchylenia: Aby zminimalizować stronniczość, zaangażowaliśmy osoby z różnych regionów i utrzymaliśmy zrównoważoną reprezentację demograficzną z 50% mężczyzn i 50% kobiet, w grupach wiekowych od 18 do 60 lat.
  • Wytyczne dotyczące nagrywania: Kluczowe frazy zostały uchwycone w sposób spójny, normalny, bez żadnych różnic, takich jak szybkie lub wolne tempo wypowiedzi. 2-sekundowa cisza na początku i na końcu, aby zagwarantować, że żadna część przemówienia nie zostanie przypadkowo obcięta.
  • Format nagrywania: Dźwięk został nagrany przy częstotliwości 16 kHz, 16-bitowym PCM w trybie mono, z wykorzystaniem jednego kanału, i zapisany w formacie pliku WAV. Dźwięk pozostaje nieprzetworzony, co oznacza, że ​​nie zastosowano kompresji, pogłosu ani korektora.
  • Jakość: Każde nagranie przemówienia poddawane było rygorystycznym kontrolom jakości i walidacji. Dostarczono jedynie nagrania, które przeszły tę ocenę. Wszelkie pliki, które nie spełniały ustalonych standardów jakości, zostały ponownie nagrane i udostępnione bez żadnych dodatkowych opłat
Rozwiązanie
Wynik

Wynik

Wysokiej jakości dane dźwiękowe lub komunikaty głosowe dotyczące kluczowych fraz marki umożliwią firmom motoryzacyjnym i ich klientom:

  1. Marka i tożsamość: Komunikaty głosowe zawierające konkretną frazę związaną z marką pomagają firmom stworzyć bezpośrednie i zapadające w pamięć połączenie między użytkownikiem a marką, co zwiększa świadomość marki.
  2. Łatwa obsługa: Polecenia głosowe ułatwiają kierowcom interakcję z pojazdem bez odrywania rąk od kierownicy i wzroku od drogi, zwiększając w ten sposób bezpieczeństwo na drodze.
  3. funkcjonalność: Polecenia głosowe sprawiają, że dostęp i sterowanie funkcjami samochodu są bardziej intuicyjne. Niezależnie od tego, czy jest to nawigacja, odtwarzanie multimediów, czy klimatyzacja.
  4. Integracja z innymi systemami: Wiele systemów aktywowanych głosem jest zintegrowanych ze smartfonami, urządzeniami inteligentnego domu i innymi urządzeniami IoT. Na przykład użytkownik może poprosić swój samochód o włączenie świateł w domu, gdy dotrą do domu.
  5. Przewaga konkurencyjna: Oferowanie zaawansowanych systemów aktywowanych głosem może być zaletą i wyróżnikiem. Kupujący, rozważając zakup nowego samochodu, szukają najnowszych technologii.
  6. Zabezpieczenie na przyszłość: W miarę rozwoju technologii i coraz większej integracji Internetu Rzeczy z życiem codziennym posiadanie solidnego systemu aktywowanego głosem pozwala firmom motoryzacyjnym lepiej dostosować się do technologii przyszłości.
  7. Możliwości uzyskania przychodów: Dodatkowe możliwości monetyzacji, tj. systemy głosowe oferują rekomendacje lub zintegrowane doświadczenia związane z handlem elektronicznym (takie jak zamawianie jedzenia lub znajdowanie usług w pobliżu), które mogą zapewnić partnerowi przychody.
Złota pięciogwiazdkowa

Kiedy zaczęliśmy pozyskiwać komunikaty głosowe dla sektora motoryzacyjnego, wyzwań było wiele. Uchwycenie różnorodności mowy, akcentów i tonów było niezbędne, aby reprezentować globalną klientelę naszego klienta. Shaip wyróżniał się nie tylko jako dostawca, ale także jako prawdziwy partner. Godne pochwały było ich zaangażowanie w zapewnienie różnorodnego spektrum głosów z różnych regionów. Wykraczali poza zwykłe zbieranie głosów; zrozumieli niuanse naszych potrzeb projektowych, gwarantując nagrania na najwyższym poziomie. Ich bezbłędne przestrzeganie standardów gromadzenia plików audio pokazało ich profesjonalizm i zaangażowanie w projekt.

Przyspiesz swoją konwersacyjną sztuczną inteligencję
rozwój aplikacji o 100%