Konwersacyjna sztuczna inteligencja: automatyczne rozpoznawanie mowy

Zebrano ponad 8 tys. godzin nagrań i 800 godzin transkrypcji dla wielojęzycznej technologii głosowej

Wprowadzenie

Indie potrzebowały platformy, która koncentruje się na tworzeniu wielojęzycznych zbiorów danych i rozwiązań w zakresie technologii językowych opartych na sztucznej inteligencji, aby świadczyć usługi cyfrowe w językach indyjskich. Aby uruchomić tę inicjatywę, Klient nawiązał współpracę z firmą Shaip w celu gromadzenia i transkrypcji języka indyjskiego w celu zbudowania wielojęzycznych modeli mowy.

objętość

Godziny gromadzenia danych

Liczba stron z adnotacjami

10 +

Czas trwania projektu

< 1 miesięcy

Wyzwania

Aby pomóc klientowi w opracowaniu planu rozwoju mowy w zakresie technologii mowy dla języków indyjskich, zespół musiał pozyskać, segmentować i transkrybować duże ilości danych szkoleniowych w celu zbudowania modelu sztucznej inteligencji. Krytycznymi wymaganiami klienta były:

Zbieranie danych

Zdobądź 8000 godzin danych treningowych z odległych miejsc w Indiach
Dostawca zbierający wypowiedzi spontaniczne z grup wiekowych 20-70 lat
Zapewnij zróżnicowaną mieszankę mówców pod względem wieku, płci, wykształcenia i dialektów
Każde nagranie audio powinno mieć częstotliwość co najmniej 16 kHz i 16 bitów na próbkę.

Transkrypcja danych

Postępuj zgodnie ze szczegółowymi wskazówkami dotyczącymi transkrypcji dotyczącymi znaków i symboli specjalnych, pisowni i gramatyki, wielkich liter, skrótów, skurczów, poszczególnych liter mówionych, cyfr, znaków interpunkcyjnych, akronimów i inicjałów, niepłynnej mowy, niezrozumiałej mowy, języków innych niż docelowe, braku mowy

Kontrola jakości i informacje zwrotne

Wszystkie nagrania zostaną poddane ocenie jakości i walidacji. Dostarczone zostaną wyłącznie zatwierdzone nagrania rozmów

Rozwiązanie

Dzięki naszemu głębokiemu zrozumieniu konwersacyjnej sztucznej inteligencji pomogliśmy klientowi zebrać i przepisać dane audio wraz z zespołem ekspertów, lingwistów i adnotatorów, aby zbudować duży zbiór danych audio z odległych części Indii.

Zakres prac Shaipa obejmował między innymi pozyskiwanie dużych ilości danych szkoleniowych audio, transkrypcję danych i dostarczanie odpowiednich plików JSON zawierających metadane [zarówno dla mówców, jak i osób transkrybujących. Metadane każdego mówcy obejmują anonimowy identyfikator mówcy, szczegóły urządzenia, informacje demograficzne, takie jak płeć, wiek i wykształcenie, wraz z kodem PIN, statusem społeczno-ekonomicznym, używanymi językami oraz zapisem całego pobytu. Dane każdego transkrypcyjnego obejmują anonimowy identyfikator Transcribera, dane demograficzne podobne do tych, które mówią, czas trwania transkrypcji oraz dokładny wykaz języków, w których potrafi czytać, pisać i mówić.

Shaip zebrany 8000 godzin danych dźwiękowych / Mowa spontaniczna na dużą skalę i transkrybowana 800 godzin przy zachowaniu pożądanego poziomu jakości wymaganego do szkolenia technologii mowy na potrzeby złożonych projektów. Od każdego z uczestników pobrano formularz wyraźnej zgody. / Zebrana spontaniczna mowa została oparta na obrazach dostarczonych przez Uniwersytet. Z 3500 obrazy, 1000 są ogólne i 2500 odnoszą się do kultury danej dzielnicy, festiwali itp. Obrazy przedstawiają różne dziedziny, takie jak dworce kolejowe, rynki, pogoda i inne.

Zbieranie danych

Stan	Dzielnice	Audio godz	Transkrypcja (godz.)
Bihar	Saran, East Champaran, Gopalganj, Sitamarhi, Samastipur, Darbhanga, Madhepura, Bhagalpur, Gaya, Kishanganj, Vaishali, Lakhisarai, Saharsa, Supaul, Araria, Begusarai, Jahanabad, Purnia, Muzaﬀarpur, Jamui	2000	200
Uttarpradesz	Deoria, Varanasi, Gorakhpur, Ghazipur, Muzzaﬀarnagar, Etah, Hamirpur, Jyotiba Phule Nagar, Budaun, Jalaun	1000	100
Rajasthan	Nagaur, Churu	200	20
Uttarakhand	Tehri Garhwal, Uttarkashi	200	20
Chhattisgarh	Bilaspur, Raigarh, Kabirdham, Sarguja, Korba, Jashpur, Rajnandgaon, Balrampur, Bastar, Sukma	1000	100
West Bengal	Paschim Medinipur, Malda, Jalpaiguri, Purulia, Kalkuta, Jhargram, North 24 Parganas, Dakshin Dinajpur	800	80
Jharkhand	Sahebganj, Jamtara	200	20
AP	Guntur, Chittoor, Visakhapatnam, Kryszna, Anantapur, Srikakulam	600	60
Telangana	Karimnagar, Nalgonda	200	20
Goa	Północ + Południe Goa	100	10
Karnataka	Dakshin kannada, Gulbarga, Dharwad, Bellary, Mysore, Shimoga, Bijapur, Belgaum, Raichur, Chamrajnagar	1000	100
Maharasztra	Sindhudurg, Dhule, Nagpur, Pune, Aurangabad, Chandrpur, Solapur	700	70
Kwota produktów:		8000	800

Ogólne wytyczne

utworzony

- Dźwięk przy 16 kHz, 16 bitów/próbkę.
- Pojedynczy kanał.
- Surowy dźwięk bez transkodowania.

Styl

- Spontaniczna mowa.
- Zdania oparte na obrazach dostarczonych przez Uniwersytet. Spośród 3500 obrazów 1000 ma charakter ogólny, a 2500 odnosi się do kultury danej dzielnicy, festiwali itp. Obrazy przedstawiają różne dziedziny, takie jak dworce kolejowe, rynki, pogoda i nie tylko.

Tło nagrania

- Nagrano w cichym, pozbawionym echa otoczeniu.
- Brak zakłóceń smartfona (wibracje czy powiadomienia) podczas nagrywania.
- Żadnych zniekształceń, takich jak obcinanie lub efekty dalekiego pola.
- Wibracje z telefonu niedopuszczalne; Wibracje zewnętrzne są tolerowane, jeśli dźwięk jest czysty.

Specyfikacja głośnika

- Przedział wiekowy od 20 do 70 lat, ze zrównoważonym rozkładem płci w poszczególnych okręgach.
- Minimum 400 native speakerów w każdym okręgu.
- Osoby mówiące powinny używać swojego języka/dialektu ojczystego.
- Formularze zgody są obowiązkowe dla wszystkich uczestników.

Kontrola jakości i krytyczne zapewnienie jakości

W procesie kontroli jakości priorytetem jest zapewnienie jakości nagrań audio i transkrypcji. Standardy audio koncentrują się na precyzyjnej ciszy, czasie trwania segmentu, przejrzystości pojedynczego głośnika i szczegółowych metadanych, w tym wieku i statusie społeczno-ekonomicznym. Kryteria transkrypcji kładą nacisk na dokładność tagów, prawdziwość słów i prawidłowe szczegóły segmentów. Test porównawczy akceptacji wskazuje, że jeśli ponad 20% partii audio nie spełnia tych standardów, zostaje ona odrzucona. W przypadku rozbieżności mniejszych niż 20% wymagane są nagrania zastępcze o podobnych profilach.

Transkrypcja danych

Wytyczne dotyczące transkrypcji kładą nacisk na dokładność i dosłowną transkrypcję tylko wtedy, gdy słowa są jasne i zrozumiałe; niejasne słowa są oznaczane jako [niezrozumiałe] lub [niesłyszalne] w zależności od problemu. Granice zdań w długim formacie audio są oznaczone symbolem i nie jest dozwolone parafrazowanie ani poprawianie błędów gramatycznych. Dosłowna transkrypcja obejmuje błędy, slangi i powtórzenia, ale pomija fałszywe początki, dźwięki wypełniające i zacięcia. Odgłosy tła i pierwszego planu są transkrybowane za pomocą znaczników opisowych, podczas gdy nazwy własne, tytuły i numery podlegają określonym zasadom transkrypcji. Do każdego zdania używane są etykiety mówców, a zdania niekompletne są oznaczone symbolem.

Przepływ pracy projektu

Przepływ pracy opisuje proces transkrypcji dźwięku. Zaczyna się od onboardingu i szkolenia uczestników. Nagrywają dźwięk za pomocą aplikacji, która jest przesyłana na platformę kontroli jakości. Ten dźwięk przechodzi kontrolę jakości i automatyczną segmentację. Następnie zespół techniczny przygotowuje segmenty do transkrypcji. Po ręcznej transkrypcji następuje etap zapewnienia jakości. Transkrypcje dostarczane są do Klienta i w przypadku ich akceptacji, dostawę uważa się za kompletną. Jeśli nie, poprawki są wprowadzane na podstawie opinii klientów.

Wynik

Wysokiej jakości dane dźwiękowe od doświadczonych lingwistów umożliwią naszemu klientowi dokładne przeszkolenie i zbudowanie wielojęzycznych modeli rozpoznawania mowy w różnych językach indyjskich z różnymi dialektami w określonym czasie. Modele rozpoznawania mowy można wykorzystać do:

Pokonaj barierę językową na rzecz włączenia cyfrowego, udostępniając obywatelom inicjatywy w ich własnym języku ojczystym.
Promuje zarządzanie cyfrowe
Katalizator tworzący ekosystem usług i produktów w językach indyjskich
Bardziej zlokalizowane treści cyfrowe w domenach interesu publicznego, w szczególności zarządzania i polityki

Jesteśmy pod wrażeniem wiedzy Shaipa w dziedzinie konwersacyjnej sztucznej inteligencji. Zadanie polegające na przetworzeniu 8000 godzin danych audio wraz z 800 godzinami transkrypcji w 80 różnych dzielnicach było, delikatnie mówiąc, monumentalne. To właśnie głębokie zrozumienie przez Shaipa zawiłych szczegółów i niuansów w tej dziedzinie umożliwiło pomyślną realizację tak wymagającego projektu. Ich zdolność do płynnego zarządzania i poruszania się po złożoności tak ogromnej ilości danych przy jednoczesnym zapewnieniu najwyższej jakości jest naprawdę godna pochwały.

Przyspiesz swoją konwersacyjną sztuczną inteligencję
rozwój aplikacji o 100%

Konwersacyjna sztuczna inteligencja: automatyczne rozpoznawanie mowy

Zebrano ponad 8 tys. godzin nagrań i 800 godzin transkrypcji dla wielojęzycznej technologii głosowej

Wprowadzenie

objętość

Wyzwania

Zbieranie danych

Transkrypcja danych

Kontrola jakości i informacje zwrotne

Rozwiązanie

Ogólne wytyczne

Kontrola jakości i krytyczne zapewnienie jakości

Transkrypcja danych

Przepływ pracy projektu

Wynik

Usługi danych AI

Specjalne

Przemysłowe

Produkty

O nas

Zasoby

Skontaktuj się z nami

Daj nam znać o sobie więcej!