W jaki sposób Shaip dostarczył skalowalny program oceny jakości klonowania głosu dla klienta AI Speech

Od jakości demonstracyjnej do gotowości do wdrożenia — w jaki sposób ustrukturyzowana ocena człowieka pomogła klientowi korzystającemu ze sztucznej inteligencji w rozwiązaniu problemu mowy zniwelować rozbieżność między wynikami laboratoryjnymi a wydajnością w warunkach rzeczywistych.

Klonowanie głosu

Przegląd projektu

Modele klonowania głosu mogą brzmieć imponująco w wersjach demonstracyjnych, ale w praktyce wciąż nie sprawdzają się. Klient potrzebował wiarygodnego sposobu pomiaru, czy jego model rzeczywiście się poprawia – szczególnie w przypadku indyjskiego języka angielskiego, który był priorytetowym rynkiem wdrożeniowym.

Shaip został zatrudniony w celu zaprojektowania i zarządzania programem oceny ludzi, który mógłby odpowiedzieć na trzy kluczowe pytania biznesowe:

  • Czy mowa brzmi naturalnie?
  • Czy nadal brzmi jak oryginalny głośnik?
  • Czy jest wystarczająco bezpieczny i niezawodny do zastosowań produkcyjnych?

Zamiast opierać się wyłącznie na zautomatyzowanych metrykach, projekt polegał na wykorzystaniu przeszkolonych recenzentów, którzy oceniali rzeczywiste wyniki audio i identyfikowali obszary, w których model nadal nie spełniał oczekiwań.

Jakość klonowania głosu

Kluczowe wskaźniki zbioru danych

Przypadek użycia

Ocena jakości klonowania głosu

Czas trwania projektu

Weeks 12

Przejrzane próbki

12 400 zsyntetyzowanych klipów audio

Wdrożono adnotatory

48 przeszkolonych ewaluatorów języka angielskiego

Wyzwania w ocenie jakości syntezy mowy i klonowania głosu

  • Model musiał dobrze działać w różnych miejscach wiele akcentów angielskich, zwłaszcza indyjski angielski.
  • Jakość dźwięku musiała ulec poprawie w sposób mający znaczenie dla użytkowników końcowych, a nie tylko w wynikach badań laboratoryjnych.
  • Zespół potrzebował jasnego sposobu identyfikacji co było nie tak z wyjściem mowy.
  • Długie klipy audio z czasem zacierały tożsamość pierwotnego mówcy.
  • Klient potrzebował również kontroli bezpieczeństwo, ryzyko podszywania się i obecność znaku wodnego.

Rozwiązanie: Ramy oceny człowieka dla jakości głosu sztucznej inteligencji

Strategia ewaluacji

Shaip stworzył ustrukturyzowany model oceny pozwalający ocenić naturalność, klarowność, podobieństwo głosu, spójność i bezpieczeństwo.

Przegląd ludzki na dużą skalę

48 przeszkolonych ewaluatorów przeanalizowało 12 400 próbek audio w odmianie języka angielskiego indyjskiego, neutralnej amerykańskiej odmiany języka angielskiego i podścieżce języka hinglish.

Ocena trzyczęściowa

  • Recenzenci oceniali, jak naturalnie i zrozumiałie brzmiał każdy klip.
  • Porównali pary klipsów, aby określić, która wersja jest lepsza.
  • Zidentyfikowali powtarzające się problemy z jakością, takie jak nienaturalny rytm, problemy z wysokością dźwięku i dryfowanie głośników.

Kontrola jakości

Shaip stosował zadania kalibracyjne, kontrole zgodności z najwyższymi standardami, powtarzalne przeglądy i monitorowanie zapewnienia jakości, aby zapewnić spójność i wiarygodność wyników.

Pętla informacji zwrotnej

Wyniki z każdego sprintu były uwzględniane w procesie dostrajania u klienta, co pomagało w udoskonalaniu modelu w kolejnych rundach.

Zakres projektu: języki, akcenty i zakres przeglądu

Obszar Zakres
Wybierz język Angielski
Akcenty priorytetowe Angielski indyjski, neutralny angielski amerykański
Ubezpieczenie wtórne Brytyjski angielski, podtornik Hinglish
Typy próbek Krótkie klipy referencyjne, próbki z niewielką liczbą ujęć, długie wypowiedzi
Przejrzyj dane wyjściowe Oceny jakości, etykiety preferencyjne, oznaczanie problemów
Długość zaręczyn Tydzień 12

Wyniki: mierzalne ulepszenia w klonowaniu głosu

  • Wyraźna poprawa jakości głosu: Ogólny wynik jakości modelu poprawił się z 3.41 do 4.12, co oznacza, że ​​mowa stała się bardziej naturalna i gotowa do produkcji.
  • Lepsze dopasowanie głośników: System stał się znacznie skuteczniejszy w zachowywaniu głosu oryginalnego mówcy, zwiększając podobieństwo z 0.71 do 0.87.
  • Mniej zauważalnych błędów: Problemy z mową spadły z 31% próbek na początku badania do 11% w końcowym sprincie.
  • Dobra zrozumiałość: Ostateczny wskaźnik błędów w języku angielskim używanym w Indiach wyniósł 4.8%, przekraczając tym samym próg docelowy.
  • Bezpieczniejsza gotowość do wdrożenia: Ocena potwierdziła również wysoką jakość kluczowych kontroli bezpieczeństwa, w tym wykrywanie podszywania się pod inne osoby i weryfikację znaku wodnego.
Co najważniejsze, klient zyskał powtarzalny system ewaluacji, który mógł wykorzystać nie tylko do oceny jakości modelu, ale także do jego ciągłego doskonalenia. To, co zaczęło się jako program przeglądu technicznego, stało się praktycznym narzędziem decyzyjnym dla zespołów produktowych, zespołów modelowych i interesariuszy wdrożeniowych.
Ikona cytatu

Shaip pomógł nam przekształcić subiektywną jakość dźwięku w mierzalny program poprawy. Ich system oceny dał nam jasne sygnały, co poprawić, gdzie poprawić i jak zbliżyć się do etapu produkcji z pewnością siebie.

— Lider produktu AI Speech

★ ★ ★ ★ ★
Ikona cytatu