W jaki sposób Shaip dostarczył skalowalny program oceny jakości klonowania głosu dla klienta AI Speech
Od jakości demonstracyjnej do gotowości do wdrożenia — w jaki sposób ustrukturyzowana ocena człowieka pomogła klientowi korzystającemu ze sztucznej inteligencji w rozwiązaniu problemu mowy zniwelować rozbieżność między wynikami laboratoryjnymi a wydajnością w warunkach rzeczywistych.
Przegląd projektu
Modele klonowania głosu mogą brzmieć imponująco w wersjach demonstracyjnych, ale w praktyce wciąż nie sprawdzają się. Klient potrzebował wiarygodnego sposobu pomiaru, czy jego model rzeczywiście się poprawia – szczególnie w przypadku indyjskiego języka angielskiego, który był priorytetowym rynkiem wdrożeniowym.
Shaip został zatrudniony w celu zaprojektowania i zarządzania programem oceny ludzi, który mógłby odpowiedzieć na trzy kluczowe pytania biznesowe:
- Czy mowa brzmi naturalnie?
- Czy nadal brzmi jak oryginalny głośnik?
- Czy jest wystarczająco bezpieczny i niezawodny do zastosowań produkcyjnych?
Zamiast opierać się wyłącznie na zautomatyzowanych metrykach, projekt polegał na wykorzystaniu przeszkolonych recenzentów, którzy oceniali rzeczywiste wyniki audio i identyfikowali obszary, w których model nadal nie spełniał oczekiwań.
Kluczowe wskaźniki zbioru danych
Przypadek użycia
Ocena jakości klonowania głosu
Czas trwania projektu
Weeks 12
Przejrzane próbki
12 400 zsyntetyzowanych klipów audio
Wdrożono adnotatory
48 przeszkolonych ewaluatorów języka angielskiego
Wyzwania w ocenie jakości syntezy mowy i klonowania głosu
- Model musiał dobrze działać w różnych miejscach wiele akcentów angielskich, zwłaszcza indyjski angielski.
- Jakość dźwięku musiała ulec poprawie w sposób mający znaczenie dla użytkowników końcowych, a nie tylko w wynikach badań laboratoryjnych.
- Zespół potrzebował jasnego sposobu identyfikacji co było nie tak z wyjściem mowy.
- Długie klipy audio z czasem zacierały tożsamość pierwotnego mówcy.
- Klient potrzebował również kontroli bezpieczeństwo, ryzyko podszywania się i obecność znaku wodnego.
Rozwiązanie: Ramy oceny człowieka dla jakości głosu sztucznej inteligencji
Strategia ewaluacji
Shaip stworzył ustrukturyzowany model oceny pozwalający ocenić naturalność, klarowność, podobieństwo głosu, spójność i bezpieczeństwo.
Przegląd ludzki na dużą skalę
48 przeszkolonych ewaluatorów przeanalizowało 12 400 próbek audio w odmianie języka angielskiego indyjskiego, neutralnej amerykańskiej odmiany języka angielskiego i podścieżce języka hinglish.
Ocena trzyczęściowa
- Recenzenci oceniali, jak naturalnie i zrozumiałie brzmiał każdy klip.
- Porównali pary klipsów, aby określić, która wersja jest lepsza.
- Zidentyfikowali powtarzające się problemy z jakością, takie jak nienaturalny rytm, problemy z wysokością dźwięku i dryfowanie głośników.
Kontrola jakości
Shaip stosował zadania kalibracyjne, kontrole zgodności z najwyższymi standardami, powtarzalne przeglądy i monitorowanie zapewnienia jakości, aby zapewnić spójność i wiarygodność wyników.
Pętla informacji zwrotnej
Wyniki z każdego sprintu były uwzględniane w procesie dostrajania u klienta, co pomagało w udoskonalaniu modelu w kolejnych rundach.
Zakres projektu: języki, akcenty i zakres przeglądu
| Obszar | Zakres |
|---|---|
| Wybierz język | Angielski |
| Akcenty priorytetowe | Angielski indyjski, neutralny angielski amerykański |
| Ubezpieczenie wtórne | Brytyjski angielski, podtornik Hinglish |
| Typy próbek | Krótkie klipy referencyjne, próbki z niewielką liczbą ujęć, długie wypowiedzi |
| Przejrzyj dane wyjściowe | Oceny jakości, etykiety preferencyjne, oznaczanie problemów |
| Długość zaręczyn | Tydzień 12 |
Wyniki: mierzalne ulepszenia w klonowaniu głosu
- Wyraźna poprawa jakości głosu: Ogólny wynik jakości modelu poprawił się z 3.41 do 4.12, co oznacza, że mowa stała się bardziej naturalna i gotowa do produkcji.
- Lepsze dopasowanie głośników: System stał się znacznie skuteczniejszy w zachowywaniu głosu oryginalnego mówcy, zwiększając podobieństwo z 0.71 do 0.87.
- Mniej zauważalnych błędów: Problemy z mową spadły z 31% próbek na początku badania do 11% w końcowym sprincie.
- Dobra zrozumiałość: Ostateczny wskaźnik błędów w języku angielskim używanym w Indiach wyniósł 4.8%, przekraczając tym samym próg docelowy.
- Bezpieczniejsza gotowość do wdrożenia: Ocena potwierdziła również wysoką jakość kluczowych kontroli bezpieczeństwa, w tym wykrywanie podszywania się pod inne osoby i weryfikację znaku wodnego.
Shaip pomógł nam przekształcić subiektywną jakość dźwięku w mierzalny program poprawy. Ich system oceny dał nam jasne sygnały, co poprawić, gdzie poprawić i jak zbliżyć się do etapu produkcji z pewnością siebie.
— Lider produktu AI Speech