Studium przypadku: konwersacyjna sztuczna inteligencja
Ponad 3 tys. godzin zebranych, posegmentowanych i transkrybowanych danych w celu zbudowania ASR w 8 językach indyjskich
BHASHINI, indyjska platforma tłumaczeń językowych oparta na sztucznej inteligencji, jest istotną częścią inicjatywy Digital India.
Platforma Bhashini, zaprojektowana w celu zapewnienia narzędzi sztucznej inteligencji (AI) i przetwarzania języka naturalnego (NLP) małym i średnim przedsiębiorstwom, start-upom i niezależnym innowatorom, służy jako zasób publiczny. Jego celem jest promowanie włączenia cyfrowego poprzez umożliwienie obywatelom Indii interakcji z inicjatywami cyfrowymi kraju w ich ojczystych językach.
Dodatkowo ma na celu znaczne zwiększenie dostępności treści internetowych w językach indyjskich. Jest to szczególnie ukierunkowane na obszary interesu publicznego, takie jak zarządzanie i polityka, nauka i technologia itp. W rezultacie zachęci to obywateli do korzystania z Internetu w ich własnym języku, promując ich aktywne uczestnictwo.
Wykorzystaj NLP, aby umożliwić zróżnicowany ekosystem autorów, podmiotów partnerskich i obywateli w celu pokonania barier językowych, zapewniając w ten sposób włączenie cyfrowe i wzmocnienie pozycji
Rozwiązanie dla świata rzeczywistego
Uwolnij moc lokalizacji za pomocą danych
Indie potrzebowały platformy, która koncentrowałaby się na tworzeniu wielojęzycznych zbiorów danych i rozwiązań technologii językowych opartych na sztucznej inteligencji, aby świadczyć usługi cyfrowe w językach indyjskich. Aby uruchomić tę inicjatywę, Indyjski Instytut Technologii w Madrasie (IIT Madras) nawiązał współpracę z firmą Shaip w celu gromadzenia, segmentowania i transkrypcji zbiorów danych w języku indyjskim w celu zbudowania wielojęzycznych modeli mowy.
Wyzwania
Aby pomóc klientowi w opracowaniu planu rozwoju mowy w zakresie technologii mowy dla języków indyjskich, zespół musiał pozyskać, segmentować i transkrybować duże ilości danych szkoleniowych w celu zbudowania modelu sztucznej inteligencji. Krytycznymi wymaganiami klienta były:
Zbieranie danych
- Zdobądź 3000 godzin danych szkoleniowych w 8 językach indyjskich z 4 dialektami na język.
- Dla każdego języka dostawca będzie zbierał dane dotyczące mowy Extempore i
Mowa konwersacyjna w grupach wiekowych 18–60 lat - Zapewnij zróżnicowaną mieszankę głośników pod względem wieku, płci, wykształcenia i dialektów
- Zapewnij różnorodną mieszankę środowisk nagrywania zgodnie ze specyfikacjami.
- Każde nagranie dźwiękowe powinno mieć częstotliwość co najmniej 16 kHz, ale najlepiej 44 kHz
Segmentacja danych
- Twórz 15-sekundowe segmenty mowy i oznaczaj czasowo dźwięk w milisekundach dla każdego mówcy, rodzaju dźwięku (mowa, bełkot, muzyka, hałas), zwrotów akcji, wypowiedzi i fraz w rozmowie
- Utwórz każdy segment dla docelowego sygnału dźwiękowego z dopełnieniem 200–400 milisekund na początku i na końcu.
- Dla wszystkich segmentów należy wypełnić następujące obiekty, tj. czas rozpoczęcia, czas zakończenia, identyfikator segmentu, poziom głośności, typ dźwięku, kod języka, identyfikator głośnika itp.
Transkrypcja danych
- Postępuj zgodnie ze szczegółowymi wskazówkami dotyczącymi transkrypcji dotyczącymi znaków i symboli specjalnych, pisowni i gramatyki, wielkich liter, skrótów, skurczów, poszczególnych liter mówionych, cyfr, znaków interpunkcyjnych, akronimów, niepłynności, mowy, niezrozumiałej mowy, języków innych niż docelowe, braku mowy itp.
Kontrola jakości i informacje zwrotne
- Wszystkie nagrania zostaną poddane ocenie i weryfikacji jakości, wygłaszane będą wyłącznie zatwierdzone przemówienia
Rozwiązanie
Dzięki naszemu głębokiemu zrozumieniu konwersacyjnej sztucznej inteligencji pomogliśmy klientowi zbierać, segmentować i transkrybować dane wraz z zespołem ekspertów, lingwistów i adnotatorów, aby zbudować duży zbiór zbiorów danych audio w 8 językach indyjskich
Zakres prac Shaipa obejmował między innymi pozyskiwanie dużych ilości danych szkoleniowych audio, wielokrotną segmentację nagrań audio, transkrypcję danych i dostarczanie odpowiednich plików JSON zawierających metadane [ID głośnika, wiek, płeć, język, dialekt,
Język ojczysty, kwalifikacje, zawód, domena, format pliku, częstotliwość, kanał, typ dźwięku, liczba głośników, liczba języków obcych, używana konfiguracja, dźwięk wąskopasmowy lub szerokopasmowy itp.].
Shaip zebrał 3000 godzin danych audio na dużą skalę, zachowując jednocześnie pożądany poziom jakości wymagany do szkolenia technologii mowy na potrzeby złożonych projektów. Od każdego z uczestników pobrano formularz wyraźnej zgody.
1. Zbieranie danych
2. Segmentacja danych
- Zebrane dane dźwiękowe zostały następnie podzielone na segmenty mowy po 15 sekund każdy i opatrzone znacznikiem czasu z dokładnością do milisekund dla każdego mówcy, rodzaju dźwięku, zwrotów, wypowiedzi i fraz w rozmowie
- Utworzono każdy segment dla docelowego sygnału dźwiękowego z dopełnieniem 200–400 milisekund na początku i na końcu sygnału dźwiękowego.
- Dla wszystkich segmentów obecne i wypełnione były następujące obiekty, tj. godzina rozpoczęcia, godzina zakończenia, identyfikator segmentu, poziom głośności (głośny, normalny, cichy), podstawowy typ dźwięku (mowa, bełkot, muzyka, hałas, nakładanie się), kod języka Głośnik Identyfikator, transkrypcja itp.
3. Kontrola jakości i informacje zwrotne
- Wszystkie nagrania zostały ocenione pod kątem jakości i dostarczono jedynie zatwierdzone nagrania mowy z WER wynoszącym 90% i TER wynoszącym 90%.
- Zastosowana lista kontrolna jakości:
» Maks. 15 sekund długości segmentu
» Transkrypcja z określonych domen, a mianowicie: Pogoda, różne rodzaje wiadomości, zdrowie, rolnictwo, edukacja, praca czy finanse
» Niski poziom hałasu w tle
» Brak przycinania dźwięku – brak zniekształceń
» Poprawna segmentacja audio na potrzeby transkrypcji
4. Transkrypcja danych
Wszystkie wypowiadane słowa, w tym wahania, słowa uzupełniające, falstarty i inne tiki werbalne, zostały dokładnie uchwycone w transkrypcji. Postępowaliśmy również zgodnie ze szczegółowymi wytycznymi dotyczącymi transkrypcji dotyczącymi wielkich i małych liter, pisowni, wielkich liter, skrótów, skróceń, cyfr,
interpunkcja, akronimy, niepłynna mowa, dźwięki inne niż mowa itp. Ponadto przebieg pracy w przypadku gromadzenia i transkrypcji jest następujący:
Wynik
Wysokiej jakości dane dźwiękowe od ekspertów lingwistów umożliwią Indyjskiemu Instytutowi Technologii w Madrasie dokładne przeszkolenie i zbudowanie wielojęzycznych modeli rozpoznawania mowy w 8 językach indyjskich z różnymi dialektami w określonym czasie. Modele rozpoznawania mowy można wykorzystać do:
- Pokonaj barierę językową na rzecz włączenia cyfrowego, udostępniając obywatelom inicjatywy w ich własnym języku ojczystym.
- Promuje zarządzanie cyfrowe
- Katalizator tworzący ekosystem usług i produktów w językach indyjskich
- Bardziej zlokalizowane treści cyfrowe w domenach interesu publicznego, w szczególności zarządzania i polityki
Byliśmy pod wrażeniem wiedzy Shaipa w zakresie konwersacyjnej przestrzeni AI. Ich ogólne kompetencje w zakresie realizacji projektów, obejmujące pozyskiwanie, segmentację, transkrypcję i dostarczanie wymaganych danych szkoleniowych od ekspertów lingwistów w 8 językach, w ramach rygorystycznych ram czasowych i wytycznych; przy jednoczesnym zachowaniu akceptowalnego standardu jakości.”
Wyróżnieni klienci
Umożliwianie zespołom tworzenia wiodących na świecie produktów AI.