Konwersacyjna sztuczna inteligencja: automatyczne rozpoznawanie mowy
Zebrano ponad 8 tys. godzin nagrań i 800 godzin transkrypcji dla wielojęzycznej technologii głosowej
Wprowadzenie
Indie potrzebowały platformy, która koncentruje się na tworzeniu wielojęzycznych zbiorów danych i rozwiązań w zakresie technologii językowych opartych na sztucznej inteligencji, aby świadczyć usługi cyfrowe w językach indyjskich. Aby uruchomić tę inicjatywę, Klient nawiązał współpracę z firmą Shaip w celu gromadzenia i transkrypcji języka indyjskiego w celu zbudowania wielojęzycznych modeli mowy.
objętość
Wyzwania
Aby pomóc klientowi w opracowaniu planu rozwoju mowy w zakresie technologii mowy dla języków indyjskich, zespół musiał pozyskać, segmentować i transkrybować duże ilości danych szkoleniowych w celu zbudowania modelu sztucznej inteligencji. Krytycznymi wymaganiami klienta były:
Zbieranie danych
- Zdobądź 8000 godzin danych treningowych z odległych miejsc w Indiach
- Dostawca zbierający wypowiedzi spontaniczne z grup wiekowych 20-70 lat
- Zapewnij zróżnicowaną mieszankę mówców pod względem wieku, płci, wykształcenia i dialektów
- Każde nagranie audio powinno mieć częstotliwość co najmniej 16 kHz i 16 bitów na próbkę.
Transkrypcja danych
Postępuj zgodnie ze szczegółowymi wskazówkami dotyczącymi transkrypcji dotyczącymi znaków i symboli specjalnych, pisowni i gramatyki, wielkich liter, skrótów, skurczów, poszczególnych liter mówionych, cyfr, znaków interpunkcyjnych, akronimów i inicjałów, niepłynnej mowy, niezrozumiałej mowy, języków innych niż docelowe, braku mowy
Kontrola jakości i informacje zwrotne
Wszystkie nagrania zostaną poddane ocenie jakości i walidacji. Dostarczone zostaną wyłącznie zatwierdzone nagrania rozmów
Rozwiązanie
Dzięki naszemu głębokiemu zrozumieniu konwersacyjnej sztucznej inteligencji pomogliśmy klientowi zebrać i przepisać dane audio wraz z zespołem ekspertów, lingwistów i adnotatorów, aby zbudować duży zbiór danych audio z odległych części Indii.
Zakres prac Shaipa obejmował między innymi pozyskiwanie dużych ilości danych szkoleniowych audio, transkrypcję danych i dostarczanie odpowiednich plików JSON zawierających metadane [zarówno dla mówców, jak i osób transkrybujących. Metadane każdego mówcy obejmują anonimowy identyfikator mówcy, szczegóły urządzenia, informacje demograficzne, takie jak płeć, wiek i wykształcenie, wraz z kodem PIN, statusem społeczno-ekonomicznym, używanymi językami oraz zapisem całego pobytu. Dane każdego transkrypcyjnego obejmują anonimowy identyfikator Transcribera, dane demograficzne podobne do tych, które mówią, czas trwania transkrypcji oraz dokładny wykaz języków, w których potrafi czytać, pisać i mówić.
Shaip zebrany 8000 godzin danych dźwiękowych / Mowa spontaniczna na dużą skalę i transkrybowana 800 godzin przy zachowaniu pożądanego poziomu jakości wymaganego do szkolenia technologii mowy na potrzeby złożonych projektów. Od każdego z uczestników pobrano formularz wyraźnej zgody. / Zebrana spontaniczna mowa została oparta na obrazach dostarczonych przez Uniwersytet. Z 3500 obrazy, 1000 są ogólne i 2500 odnoszą się do kultury danej dzielnicy, festiwali itp. Obrazy przedstawiają różne dziedziny, takie jak dworce kolejowe, rynki, pogoda i inne.
Zbieranie danych
Stan | Dzielnice | Audio godz | Transkrypcja (godz.) |
Bihar | Saran, East Champaran, Gopalganj, Sitamarhi, Samastipur, Darbhanga, Madhepura, Bhagalpur, Gaya, Kishanganj, Vaishali, Lakhisarai, Saharsa, Supaul, Araria, Begusarai, Jahanabad, Purnia, Muzaffarpur, Jamui | 2000 | 200 |
Uttarpradesz | Deoria, Varanasi, Gorakhpur, Ghazipur, Muzzaffarnagar, Etah, Hamirpur, Jyotiba Phule Nagar, Budaun, Jalaun | 1000 | 100 |
Rajasthan | Nagaur, Churu | 200 | 20 |
Uttarakhand | Tehri Garhwal, Uttarkashi | 200 | 20 |
Chhattisgarh | Bilaspur, Raigarh, Kabirdham, Sarguja, Korba, Jashpur, Rajnandgaon, Balrampur, Bastar, Sukma | 1000 | 100 |
West Bengal | Paschim Medinipur, Malda, Jalpaiguri, Purulia, Kalkuta, Jhargram, North 24 Parganas, Dakshin Dinajpur | 800 | 80 |
Jharkhand | Sahebganj, Jamtara | 200 | 20 |
AP | Guntur, Chittoor, Visakhapatnam, Kryszna, Anantapur, Srikakulam | 600 | 60 |
Telangana | Karimnagar, Nalgonda | 200 | 20 |
Goa | Północ + Południe Goa | 100 | 10 |
Karnataka | Dakshin kannada, Gulbarga, Dharwad, Bellary, Mysore, Shimoga, Bijapur, Belgaum, Raichur, Chamrajnagar | 1000 | 100 |
Maharasztra | Sindhudurg, Dhule, Nagpur, Pune, Aurangabad, Chandrpur, Solapur | 700 | 70 |
Kwota produktów: | 8000 | 800 |
Ogólne wytyczne
utworzony
- Dźwięk przy 16 kHz, 16 bitów/próbkę.
- Pojedynczy kanał.
- Surowy dźwięk bez transkodowania.
Styl
- Spontaniczna mowa.
- Zdania oparte na obrazach dostarczonych przez Uniwersytet. Spośród 3500 obrazów 1000 ma charakter ogólny, a 2500 odnosi się do kultury danej dzielnicy, festiwali itp. Obrazy przedstawiają różne dziedziny, takie jak dworce kolejowe, rynki, pogoda i nie tylko.
Tło nagrania
- Nagrano w cichym, pozbawionym echa otoczeniu.
- Brak zakłóceń smartfona (wibracje czy powiadomienia) podczas nagrywania.
- Żadnych zniekształceń, takich jak obcinanie lub efekty dalekiego pola.
- Wibracje z telefonu niedopuszczalne; Wibracje zewnętrzne są tolerowane, jeśli dźwięk jest czysty.
Specyfikacja głośnika
- Przedział wiekowy od 20 do 70 lat, ze zrównoważonym rozkładem płci w poszczególnych okręgach.
- Minimum 400 native speakerów w każdym okręgu.
- Osoby mówiące powinny używać swojego języka/dialektu ojczystego.
- Formularze zgody są obowiązkowe dla wszystkich uczestników.
Kontrola jakości i krytyczne zapewnienie jakości
W procesie kontroli jakości priorytetem jest zapewnienie jakości nagrań audio i transkrypcji. Standardy audio koncentrują się na precyzyjnej ciszy, czasie trwania segmentu, przejrzystości pojedynczego głośnika i szczegółowych metadanych, w tym wieku i statusie społeczno-ekonomicznym. Kryteria transkrypcji kładą nacisk na dokładność tagów, prawdziwość słów i prawidłowe szczegóły segmentów. Test porównawczy akceptacji wskazuje, że jeśli ponad 20% partii audio nie spełnia tych standardów, zostaje ona odrzucona. W przypadku rozbieżności mniejszych niż 20% wymagane są nagrania zastępcze o podobnych profilach.
Transkrypcja danych
Wytyczne dotyczące transkrypcji kładą nacisk na dokładność i dosłowną transkrypcję tylko wtedy, gdy słowa są jasne i zrozumiałe; niejasne słowa są oznaczane jako [niezrozumiałe] lub [niesłyszalne] w zależności od problemu. Granice zdań w długim formacie audio są oznaczone symbolem i nie jest dozwolone parafrazowanie ani poprawianie błędów gramatycznych. Dosłowna transkrypcja obejmuje błędy, slangi i powtórzenia, ale pomija fałszywe początki, dźwięki wypełniające i zacięcia. Odgłosy tła i pierwszego planu są transkrybowane za pomocą znaczników opisowych, podczas gdy nazwy własne, tytuły i numery podlegają określonym zasadom transkrypcji. Do każdego zdania używane są etykiety mówców, a zdania niekompletne są oznaczone symbolem.
Przepływ pracy projektu
Przepływ pracy opisuje proces transkrypcji dźwięku. Zaczyna się od onboardingu i szkolenia uczestników. Nagrywają dźwięk za pomocą aplikacji, która jest przesyłana na platformę kontroli jakości. Ten dźwięk przechodzi kontrolę jakości i automatyczną segmentację. Następnie zespół techniczny przygotowuje segmenty do transkrypcji. Po ręcznej transkrypcji następuje etap zapewnienia jakości. Transkrypcje dostarczane są do Klienta i w przypadku ich akceptacji, dostawę uważa się za kompletną. Jeśli nie, poprawki są wprowadzane na podstawie opinii klientów.
Wynik
Wysokiej jakości dane dźwiękowe od doświadczonych lingwistów umożliwią naszemu klientowi dokładne przeszkolenie i zbudowanie wielojęzycznych modeli rozpoznawania mowy w różnych językach indyjskich z różnymi dialektami w określonym czasie. Modele rozpoznawania mowy można wykorzystać do:
- Pokonaj barierę językową na rzecz włączenia cyfrowego, udostępniając obywatelom inicjatywy w ich własnym języku ojczystym.
- Promuje zarządzanie cyfrowe
- Katalizator tworzący ekosystem usług i produktów w językach indyjskich
- Bardziej zlokalizowane treści cyfrowe w domenach interesu publicznego, w szczególności zarządzania i polityki
Jesteśmy pod wrażeniem wiedzy Shaipa w dziedzinie konwersacyjnej sztucznej inteligencji. Zadanie polegające na przetworzeniu 8000 godzin danych audio wraz z 800 godzinami transkrypcji w 80 różnych dzielnicach było, delikatnie mówiąc, monumentalne. To właśnie głębokie zrozumienie przez Shaipa zawiłych szczegółów i niuansów w tej dziedzinie umożliwiło pomyślną realizację tak wymagającego projektu. Ich zdolność do płynnego zarządzania i poruszania się po złożoności tak ogromnej ilości danych przy jednoczesnym zapewnieniu najwyższej jakości jest naprawdę godna pochwały.