Analiza emocji i sentymentów mowy

Umożliwianie inteligentniejszych centrów telefonicznych dzięki wnioskom opartym na sztucznej inteligencji

Wykorzystanie wiedzy i umiejętności Shaipa w zakresie gromadzenia danych audio i ich adnotacji w celu udoskonalenia wykrywania emocji i nastrojów w czasie rzeczywistym w celu poprawy obsługi klienta.

Analiza emocji i sentymentów mowy

Zautomatyzowana analiza emocji i sentymentów mowy

Klient nawiązał współpracę z Shaip, aby opracować zautomatyzowany model analizy emocji i nastrojów mowy dla centrów obsługi telefonicznej. Projekt obejmował zebranie i adnotację 250 godzin danych audio z centrów obsługi telefonicznej w czterech dialektach języka angielskiego – amerykańskim, brytyjskim, australijskim i indyjskim. Umożliwiło to klientowi udoskonalenie modeli AI w celu wykrywania emocji, takich jak Szczęśliwy, Neutralny i Zły, oraz nastrojów, takich jak Niezadowolony i Zadowolony, w interakcjach z klientami w czasie rzeczywistym.

Projektowi udało się pokonać takie trudności, jak wykrywanie sarkazmu, różna długość nagrań audio i subtelne werbalne sygnały niezadowolenia, dzięki czemu udało się uzyskać precyzyjne i skalowalne rezultaty.

Zautomatyzowana analiza emocji i sentymentów mowy

Kluczowe statystyki

Zebrano i opisano dane audio z centrum telefonicznej obsługi klienta w 4 dialektach języka angielskiego

H 250

Liczba języków

Angielski amerykański, angielski brytyjski, angielski australijski i angielski indyjski

Przypadków użycia

Zautomatyzowana analiza emocji i sentymentów mowy

Zakres projektu

Zbierz i opisz 250 godzin nagrań audio z call center w czterech dialektach języka angielskiego:

  • Angielski amerykański (30%)
  • Angielski brytyjski (30%)
  • Australijski angielski (20%)
  • Angielski indyjski (20%)

W zakresie

Projekt składa się z trzech części:

  • Dane audio zawierające określone jednostki, w tym metadane.
  • Odpowiednie przepisane pliki z danymi segmentacji i znacznikami czasu.
  • Adnotacje dotyczące emocji i sentymentów:
    • Emocje dźwiękowe: Szczęśliwy, Neutralny, Zły
    • Transkrypcja sentymentu: Bardzo niezadowolony, Niezadowolony, Neutralny, Zadowolony, Bardzo zadowolony

Wyzwania

Różnorodność dialektów

Zapewnienie, że dane audio dokładnie reprezentują określone dialekty (amerykański, brytyjski, australijski i indyjski) może być trudne. Różne regiony w tych kategoriach mogą używać zróżnicowanego słownictwa, akcentów i wymowy.

Wymagana wiedza specjalistyczna

Do adnotowania nagrań audio i transkrypcji pod kątem emocji i nastrojów potrzebni są przeszkoleni adnotatorzy, znający niuanse kulturowe i subtelności językowe każdego dialektu.

Złożoność emocji i uczuć

Emocje audio i sentyment transkrypcji nie zawsze są zgodne. Na przykład osoba może brzmieć wściekle, ale w rzeczywistości wyrażać zadowolenie. Np. radzenie sobie z rozmowami sarkastycznymi w sarkastycznych frazach, takich jak „Och, wspaniale, kolejna osoba, która nie potrafi rozwiązać mojego problemu” musi być poprawnie adnotowane pod kątem emocji i sentymentu.

Jakość dźwięku

Jakość nagrań audio może się różnić, co wpływa na dokładność transkrypcji i wykrywanie emocji. Szum tła, nakładające się rozmowy i różny sprzęt nagrywający mogą stanowić poważne wyzwanie.

Dokładne uchwycenie

Niezadowolenie wyrażane werbalnie, np. poprzez ciężkie wydechy lub inne oznaki frustracji.

Rozwiązanie

Wykorzystując zaawansowane techniki przetwarzania języka naturalnego (NLP), wdrożono następujące rozwiązania:

Gromadzenie danych

  • 250 godzin materiału audio podzielonego na porcje właściwe dla danego dialektu.
    • Angielski amerykański (30% lub 75 godzin)
    • Angielski brytyjski (30% lub 75 godzin)
    • Angielski australijski (20% lub 50 godzin)
    • Angielski indyjski (20% lub 50 godzin)
  • Użytkownicy z rodzimym akcentem ze Stanów Zjednoczonych, Wielkiej Brytanii, Australii i Indii.
  • Próbki mowy o różnej tonacji, ze szczególnym uwzględnieniem przypadków, w których emocja w głosie to Złość, a nastrój w tekście to Niezadowolenie lub Bardzo Niezadowolenie.

Klasyfikacja/adnotacja tekstu

Klasyfikacja tekstu

  • Adnotacja emocji i sentymentów na podstawie określonych kategorii:
    • Emocje dźwiękowe: Szczęśliwy, Neutralny, Zły.
    • Transkrypcja sentymentu: Bardzo niezadowolony, Niezadowolony, Neutralny, Zadowolony, Bardzo zadowolony.
  • Każdy segment audio zawierał tylko jedną główną emocję.
  • W rozmowach stosowane są różne segmenty opóźnienia (od 2 do 30 sekund).
  • Format transkrypcji był zgodny z danymi wyjściowymi JSON i obejmował informacje o lewym i prawym mówcy, znaczniki sentymentu oraz sentyment końcowego segmentu.

 

Zapewnienie jakości:

Zapewnienie jakości
Dokładność transkrypcji:

  • Zapewniono dostarczenie 250 godzin materiału audio przy zachowaniu co najmniej:
    • Dokładność wskaźnika błędów transkrypcji (TER) na poziomie 90%.
    • Dokładność wskaźnika rozpoznawania słów (WER) na poziomie 95%.

Proces zapewnienia jakości:

  • Przeprowadzono regularne audyty losowo wybranych próbek ze zbioru danych.
    • Wykorzystano zautomatyzowane narzędzia do pomiaru TER i WER w całym zestawie danych.
    • Ręczny przegląd oflagowanych sekcji pozwolił na osiągnięcie wymaganych progów dokładności.

Wynik

Dane szkoleniowe pomogą w opracowaniu zautomatyzowanego modelu wykrywania emocji i nastrojów, zapewniając:

  • Wykrywanie emocji w czasie rzeczywistym podczas interakcji w call center.
  • Skuteczniejsze radzenie sobie ze skomplikowanymi przypadkami, np. sarkazmem lub niezadowoleniem.
  • Skalowalność na potrzeby przyszłych projektów, łatwe dostosowywanie się do rosnących ilości danych i większej liczby języków.

Dostarczane

  • 250 godzin plików audio (w formacie 8 kHz PCM WAV, mono)
  • Pliki transkrypcji (z segmentacją, tagami sentymentu i identyfikatorami mówców)
  • Metadane (czas trwania dźwięku, szczegóły dotyczące mówcy itp.)

Partnerstwo z Shaip w naszym projekcie danych call center było kluczowym momentem w rozwoju naszych rozwiązań AI. Ich zespół fachowo zebrał i opatrzył adnotacjami 250 godzin danych audio w czterech kluczowych dialektach języka angielskiego – amerykańskim, brytyjskim, australijskim i indyjskim – zapewniając najwyższą jakość i precyzję. Zwrócenie uwagi na niuanse językowe w tych regionach znacznie poprawiło dokładność naszych modeli rozpoznawania mowy. Ponadto doświadczenie Shaip w obsłudze złożonych projektów adnotacji danych odegrało kluczową rolę w pomaganiu nam w budowaniu niezawodnych, zgodnych modeli na dużą skalę.

Złota pięciogwiazdkowa