W kraju tak zróżnicowanym kulturowo i bogatym językowo jak Indie, budowanie inkluzywnej AI zaczyna się od zbierania reprezentatywnych, wysokiej jakości zestawów danych. Taka jest wizja Projekt Vaani— inicjatywa na dużą skalę oparta na otwartym kodzie źródłowym, kierowana przez ARTPARK, IISc Bengaluru, Google, mając na celu umożliwienie występowania każdemu językowi i dialektowi indyjskiemu.
Ambitny cel? Zebrać Ponad 150,000 XNUMX godzin przemówień oraz Ponad 15,000 XNUMX godzin transkrypcji od 1 mln osób w poprzek 773 dzielnice indyjski.
Jako jeden z kluczowych dostawców tej krajowej misji, Szaip odegrała kluczową rolę w gromadzeniu danych dotyczących spontanicznej mowy, transkrypcji i zbieraniu metadanych, co położyło podwaliny pod sprawiedliwe technologie głosowe, które naprawdę odzwierciedlają prawdziwe Indie.
Wizja projektu Vaani
Projekt Vaani ma na celu zniwelowanie luki w zakresie integracji sztucznej inteligencji poprzez stworzenie największy multimodalny, wielojęzyczny, otwarty zbiór danych w Indiach. Dane te są podstawą do opracowywania dokładnych systemów rozpoznawania mowy, tłumaczenia i generatywnych systemów AI w rodzimych językach indyjskich — z których wiele jest niedoreprezentowanych w globalnych ekosystemach technologicznych.
Długoterminowa wizja zakłada tworzenie aplikacji o dużym wpływie w następujących obszarach:
- Zdrowie – Telemedycyna oparta na głosie
- Wykształcenie – Platformy do nauki języka ojczystego
- Zarządzanie – Interfejsy konwersacyjne dla usług obywatelskich
- Dostępność bez barier – Narzędzia głosowe dla użytkowników niepełnosprawnych
- Odpowiedź na katastrofę – Komunikacja w czasie rzeczywistym w lokalnych dialektach
Jak Shaip pomógł zbudować największy w Indiach zbiór danych Open Source dotyczących mowy dla projektu Vaani
Shaipowi powierzono gromadzenie 8,000 godzin spontanicznej mowy oraz 800 godzin ręcznie zweryfikowanych transkrypcji. Nasza odpowiedzialność obejmowała wdrażanie mówców, przechwytywanie dźwięku, tagowanie metadanych, koordynację transkrypcji i kontrolę jakości.
8,000 godzin spontanicznych danych audio
Nagrania z Ponad 400 rodzimych użytkowników języka na dystrykt, reprezentujących różne grupy wiekowe, płcie i dialekty
80 dzielnic, pokryty
Podpowiedzi oparte na obrazach zapewniające mowa naturalna, kontekstowa
Oto, co czyni nasze podejście wyjątkowym:
Różnorodność na poziomie dystryktu
Pozyskaliśmy nagrania z 80 dystryktów rozsianych po stanach takich jak Bihar, Uttar Pradesh, Karnataka, West Bengal i Maharashtra. Każdy dystrykt dostarczył 100 godzin danych audio, zapewniając równowagę regionalną. Zaangażowaliśmy rodzimych użytkowników języka, zapewniając reprezentację regionalnych akcentów i dialektów, często pomijanych w głównych zestawach danych AI.
Reprezentacja językowa i demograficzna
Pozyskaliśmy nagrania z 80 dystryktów rozsianych po stanach takich jak Bihar, Uttar Pradesh, Karnataka, West Bengal i Maharashtra. Każdy dystrykt dostarczył 100 godzin danych audio, zapewniając równowagę regionalną. Zaangażowaliśmy rodzimych użytkowników języka, zapewniając reprezentację regionalnych akcentów i dialektów, często pomijanych w głównych zestawach danych AI.
Mowa podpowiedziana obrazem
Aby stymulować spontaniczne i naturalne słownictwo, uczestnikom pokazywano 45–90 obrazów na sesję i proszono o ich opisanie. Uczestnikom polecono za pomocą różnych obrazów — od symboli kulturowych po przedmioty codziennego użytku — aby wywołać naturalne, spontaniczne reakcje w ich ojczystym języku. Dzięki temu nagrania odzwierciedlały rzeczywistą, kontekstową mowę — niezbędną do szkolenia zaawansowanych systemów NLP.
Wysokiej jakości standardy transkrypcji
Transkrypcji poddano tylko 10% danych mowy — co stanowiło 800 godzin. Transkrypcje wykonywali lokalni lingwiści w promieniu 20–50 km od mówcy, zapewniając znajomość dialektów i niuansów. Kontrola drugiej warstwy zapewniła <5% wskaźnika błędów słów (WER).
Ścisłe zapewnienie jakości
Dane audio musiały spełniać wysokie wymagania: brak szumów tła, echa, wibracji telefonu lub zniekształceń. Dźwięk został nagrany w cichym, wolnym od echa otoczeniu. Pliki przeszły rygorystyczną kontrolę, aby spełnić wytyczne dotyczące przejrzystości mowy, poziomu hałasu, dokładności metadanych i weryfikacji mówcy. Oznaczanie metadanych musiało być dokładne we wszystkich plikach, a wszystkie nagrania zostały sprawdzone pod kątem dopasowania mówcy i lokalizacji.
Wyzwania, które rozwiązaliśmy
- Zdalna logistyka – Zarządzanie zespołami w 80 dystryktach
- Różnorodność mówców – Wdrożenie ponad 32,000 XNUMX zweryfikowanych mówców w odległych lokalizacjach
- Wrażliwości kulturowej – Szanowanie lokalnych zwyczajów i dialektów
- Integralność danych – Spełnianie standardów jakości i zgodności
- Kontrola jakości – w wielu kontekstach językowych i kulturowych
Nasz sukces wynikał ze skrupulatnego planowania, weryfikacji opartej na technologii i współpracy z lokalnymi zespołami, które rozumiały niuanse kulturowe każdego regionu.
Wpływ i zastosowania
Wkład Shaipa nie tylko przyspieszył postęp projektu Vaani, ale także położył podwaliny pod inkluzywną sztuczną inteligencję w Indiach. Wyselekcjonowany zbiór danych dotyczących mowy jest już używany do budowania i dostrajania modeli sztucznej inteligencji dla:
- Asystenci głosowi w języku ojczystym
- Silniki tłumaczeń regionalnych
- Dostępne narzędzia komunikacji dla osób z dysfunkcją wzroku
- Platformy edtech oparte na sztucznej inteligencji dla uczniów ze wsi
- Telemedycyna wiejska
- Usługi obywatelskie oparte na głosie
- Tłumaczenie i transkrypcja w czasie rzeczywistym
Wniosek
Projekt Vaani to odważny krok w kierunku inkluzywnej i dostępnej sztucznej inteligencji, a Shaip czuje się zaszczycony, że może odegrać w nim fundamentalną rolę. Praca Shaipa nad Projektem Vaani potwierdza nasze zaangażowanie w tworzenie etycznych i inkluzywnych systemów sztucznej inteligencji, opartych na różnorodności i reprezentacji. Mając za sobą ponad 8,000 godzin zebranych przemówień i 800 godzin transkrypcji, jesteśmy dumni, że mogliśmy wziąć udział w jednym z najbardziej wizjonerskich projektów na rzecz integracji cyfrowej w Indiach.
W miarę jak Projekt Vaani zmierza ku swemu szerszemu celowi, jakim jest zebranie ponad 150,000 XNUMX godzin danych, jesteśmy gotowi wesprzeć kolejne pionierskie działania w dziedzinie sztucznej inteligencji, które przemawiają do każdego mieszkańca Indii i są dla niego korzystne.
Chcesz nawiązać z nami współpracę w celu stworzenia sztucznej inteligencji, która będzie rozumieć realny świat? www.shaip.com