Konwersacyjna sztuczna inteligencja: automatyczne rozpoznawanie mowy

Zebrano ponad 8 tys. godzin nagrań i 800 godzin transkrypcji dla wielojęzycznej technologii głosowej

Rozmowa ai

Wprowadzenie

Indie potrzebowały platformy, która koncentruje się na tworzeniu wielojęzycznych zbiorów danych i rozwiązań w zakresie technologii językowych opartych na sztucznej inteligencji, aby świadczyć usługi cyfrowe w językach indyjskich. Aby uruchomić tę inicjatywę, Klient nawiązał współpracę z firmą Shaip w celu gromadzenia i transkrypcji języka indyjskiego w celu zbudowania wielojęzycznych modeli mowy.

objętość

Godziny gromadzenia danych
10
Liczba stron z adnotacjami
10 +
Czas trwania projektu
< 1 miesięcy

Wyzwania

Aby pomóc klientowi w opracowaniu planu rozwoju mowy w zakresie technologii mowy dla języków indyjskich, zespół musiał pozyskać, segmentować i transkrybować duże ilości danych szkoleniowych w celu zbudowania modelu sztucznej inteligencji. Krytycznymi wymaganiami klienta były:

Zbieranie danych

  • Zdobądź 8000 godzin danych treningowych z odległych miejsc w Indiach
  • Dostawca zbierający wypowiedzi spontaniczne z grup wiekowych 20-70 lat
  • Zapewnij zróżnicowaną mieszankę mówców pod względem wieku, płci, wykształcenia i dialektów
  • Każde nagranie audio powinno mieć częstotliwość co najmniej 16 kHz i 16 bitów na próbkę.
Zbieranie danych

Transkrypcja danych

Postępuj zgodnie ze szczegółowymi wskazówkami dotyczącymi transkrypcji dotyczącymi znaków i symboli specjalnych, pisowni i gramatyki, wielkich liter, skrótów, skurczów, poszczególnych liter mówionych, cyfr, znaków interpunkcyjnych, akronimów i inicjałów, niepłynnej mowy, niezrozumiałej mowy, języków innych niż docelowe, braku mowy

Transkrypcja danych

Kontrola jakości i informacje zwrotne

Wszystkie nagrania zostaną poddane ocenie jakości i walidacji. Dostarczone zostaną wyłącznie zatwierdzone nagrania rozmów

Rozwiązanie

Dzięki naszemu głębokiemu zrozumieniu konwersacyjnej sztucznej inteligencji pomogliśmy klientowi zebrać i przepisać dane audio wraz z zespołem ekspertów, lingwistów i adnotatorów, aby zbudować duży zbiór danych audio z odległych części Indii.

Zakres prac Shaipa obejmował między innymi pozyskiwanie dużych ilości danych szkoleniowych audio, transkrypcję danych i dostarczanie odpowiednich plików JSON zawierających metadane [zarówno dla mówców, jak i osób transkrybujących. Metadane każdego mówcy obejmują anonimowy identyfikator mówcy, szczegóły urządzenia, informacje demograficzne, takie jak płeć, wiek i wykształcenie, wraz z kodem PIN, statusem społeczno-ekonomicznym, używanymi językami oraz zapisem całego pobytu. Dane każdego transkrypcyjnego obejmują anonimowy identyfikator Transcribera, dane demograficzne podobne do tych, które mówią, czas trwania transkrypcji oraz dokładny wykaz języków, w których potrafi czytać, pisać i mówić.

Shaip zebrany 8000 godzin danych dźwiękowych / Mowa spontaniczna na dużą skalę i transkrybowana 800 godzin przy zachowaniu pożądanego poziomu jakości wymaganego do szkolenia technologii mowy na potrzeby złożonych projektów. Od każdego z uczestników pobrano formularz wyraźnej zgody. / Zebrana spontaniczna mowa została oparta na obrazach dostarczonych przez Uniwersytet. Z 3500 obrazy, 1000 są ogólne i 2500 odnoszą się do kultury danej dzielnicy, festiwali itp. Obrazy przedstawiają różne dziedziny, takie jak dworce kolejowe, rynki, pogoda i inne.

Zbieranie danych

StanDzielniceAudio godzTranskrypcja
(godz.)
BiharSaran, East Champaran, Gopalganj, Sitamarhi, Samastipur, Darbhanga, Madhepura, Bhagalpur, Gaya, Kishanganj, Vaishali, Lakhisarai, Saharsa, Supaul, Araria, Begusarai, Jahanabad, Purnia, Muzaffarpur, Jamui2000200
UttarpradeszDeoria, Varanasi, Gorakhpur, Ghazipur, Muzzaffarnagar, Etah, Hamirpur, Jyotiba Phule Nagar, Budaun, Jalaun1000100
RajasthanNagaur, Churu20020
UttarakhandTehri Garhwal, Uttarkashi20020
ChhattisgarhBilaspur, Raigarh, Kabirdham, Sarguja, Korba, Jashpur, Rajnandgaon, Balrampur, Bastar, Sukma1000100
West BengalPaschim Medinipur, Malda, Jalpaiguri, Purulia, Kalkuta, Jhargram, North 24 Parganas, Dakshin Dinajpur80080
JharkhandSahebganj, Jamtara20020
APGuntur, Chittoor, Visakhapatnam, Kryszna, Anantapur, Srikakulam60060
TelanganaKarimnagar, Nalgonda20020
GoaPółnoc + Południe Goa10010
KarnatakaDakshin kannada, Gulbarga, Dharwad, Bellary, Mysore, Shimoga, Bijapur, Belgaum, Raichur, Chamrajnagar1000100
MaharasztraSindhudurg, Dhule, Nagpur, Pune, Aurangabad, Chandrpur, Solapur70070
Kwota produktów:8000800

Ogólne wytyczne

utworzony

    • Dźwięk przy 16 kHz, 16 bitów/próbkę.
    • Pojedynczy kanał.
    • Surowy dźwięk bez transkodowania.

Styl

    • Spontaniczna mowa.
    • Zdania oparte na obrazach dostarczonych przez Uniwersytet. Spośród 3500 obrazów 1000 ma charakter ogólny, a 2500 odnosi się do kultury danej dzielnicy, festiwali itp. Obrazy przedstawiają różne dziedziny, takie jak dworce kolejowe, rynki, pogoda i nie tylko.

Tło nagrania

    • Nagrano w cichym, pozbawionym echa otoczeniu.
    • Brak zakłóceń smartfona (wibracje czy powiadomienia) podczas nagrywania.
    • Żadnych zniekształceń, takich jak obcinanie lub efekty dalekiego pola.
    • Wibracje z telefonu niedopuszczalne; Wibracje zewnętrzne są tolerowane, jeśli dźwięk jest czysty.

Specyfikacja głośnika

    • Przedział wiekowy od 20 do 70 lat, ze zrównoważonym rozkładem płci w poszczególnych okręgach.
    • Minimum 400 native speakerów w każdym okręgu.
    • Osoby mówiące powinny używać swojego języka/dialektu ojczystego.
    • Formularze zgody są obowiązkowe dla wszystkich uczestników.


Kontrola jakości i krytyczne zapewnienie jakości

W procesie kontroli jakości priorytetem jest zapewnienie jakości nagrań audio i transkrypcji. Standardy audio koncentrują się na precyzyjnej ciszy, czasie trwania segmentu, przejrzystości pojedynczego głośnika i szczegółowych metadanych, w tym wieku i statusie społeczno-ekonomicznym. Kryteria transkrypcji kładą nacisk na dokładność tagów, prawdziwość słów i prawidłowe szczegóły segmentów. Test porównawczy akceptacji wskazuje, że jeśli ponad 20% partii audio nie spełnia tych standardów, zostaje ona odrzucona. W przypadku rozbieżności mniejszych niż 20% wymagane są nagrania zastępcze o podobnych profilach.

Transkrypcja danych

Wytyczne dotyczące transkrypcji kładą nacisk na dokładność i dosłowną transkrypcję tylko wtedy, gdy słowa są jasne i zrozumiałe; niejasne słowa są oznaczane jako [niezrozumiałe] lub [niesłyszalne] w zależności od problemu. Granice zdań w długim formacie audio są oznaczone symbolem i nie jest dozwolone parafrazowanie ani poprawianie błędów gramatycznych. Dosłowna transkrypcja obejmuje błędy, slangi i powtórzenia, ale pomija fałszywe początki, dźwięki wypełniające i zacięcia. Odgłosy tła i pierwszego planu są transkrybowane za pomocą znaczników opisowych, podczas gdy nazwy własne, tytuły i numery podlegają określonym zasadom transkrypcji. Do każdego zdania używane są etykiety mówców, a zdania niekompletne są oznaczone symbolem.

Przepływ pracy projektu

Przepływ pracy opisuje proces transkrypcji dźwięku. Zaczyna się od onboardingu i szkolenia uczestników. Nagrywają dźwięk za pomocą aplikacji, która jest przesyłana na platformę kontroli jakości. Ten dźwięk przechodzi kontrolę jakości i automatyczną segmentację. Następnie zespół techniczny przygotowuje segmenty do transkrypcji. Po ręcznej transkrypcji następuje etap zapewnienia jakości. Transkrypcje dostarczane są do Klienta i w przypadku ich akceptacji, dostawę uważa się za kompletną. Jeśli nie, poprawki są wprowadzane na podstawie opinii klientów.

Wynik

Wysokiej jakości dane dźwiękowe od doświadczonych lingwistów umożliwią naszemu klientowi dokładne przeszkolenie i zbudowanie wielojęzycznych modeli rozpoznawania mowy w różnych językach indyjskich z różnymi dialektami w określonym czasie. Modele rozpoznawania mowy można wykorzystać do:

  • Pokonaj barierę językową na rzecz włączenia cyfrowego, udostępniając obywatelom inicjatywy w ich własnym języku ojczystym.
  • Promuje zarządzanie cyfrowe
  • Katalizator tworzący ekosystem usług i produktów w językach indyjskich
  • Bardziej zlokalizowane treści cyfrowe w domenach interesu publicznego, w szczególności zarządzania i polityki

Jesteśmy pod wrażeniem wiedzy Shaipa w dziedzinie konwersacyjnej sztucznej inteligencji. Zadanie polegające na przetworzeniu 8000 godzin danych audio wraz z 800 godzinami transkrypcji w 80 różnych dzielnicach było, delikatnie mówiąc, monumentalne. To właśnie głębokie zrozumienie przez Shaipa zawiłych szczegółów i niuansów w tej dziedzinie umożliwiło pomyślną realizację tak wymagającego projektu. Ich zdolność do płynnego zarządzania i poruszania się po złożoności tak ogromnej ilości danych przy jednoczesnym zapewnieniu najwyższej jakości jest naprawdę godna pochwały.

Złota pięciogwiazdkowa

Przyspiesz swoją konwersacyjną sztuczną inteligencję
rozwój aplikacji o 100%