Monity płatności UPI oparte na głosie: uwzględnianie różnorodności w celu udoskonalenia modeli AI

Wykorzystanie doświadczenia Shaipa w zakresie szybkiego tworzenia i zróżnicowanych nagrań audio w celu wsparcia systemów płatności UPI opartych na głosie za pomocą wysokiej jakości danych uwzględniających różnorodność kulturową.

Monity płatności UPI oparte na głosie

Przegląd projektu

Shaip nawiązał współpracę z wiodącą firmą fintech, aby opracować aplikację płatności głosowych, tworząc i nagrywając różne monity płatności UPI. Projekt obejmował stworzenie 2,500 unikalnych monitów i 87,000 13 zróżnicowanych monitów dla 200 intencji związanych z płatnościami, takich jak wysyłanie pieniędzy, żądanie pieniędzy, zapytanie o saldo i płatności rachunków. Monity te zostały nagrane w ciągu ponad 45 godzin przez XNUMX mówców z różnych regionów, środowisk i grup wiekowych, zapewniając szeroki wachlarz różnorodności językowej i środowiskowej.

Celem projektu było opracowanie wysokiej jakości danych szkoleniowych dla modelu sztucznej inteligencji, który potrafi rozpoznawać i reagować na polecenia głosowe związane z płatnościami UPI w warunkach rzeczywistych.

Płatność UPI oparta na głosie

Kluczowe statystyki

Nagrano godziny nagrań audio z monitem o płatności UPI

200

Prelegenci z różnych środowisk (wiek, wykształcenie, region)

45

Zrealizowane intencje dzięki ponad 87,000 XNUMX zróżnicowanym monitom

13

Języki: Język angielski, a mówcy posługują się różnymi językami ojczystymi (kumaoni, bengalski, malajalam, gudżarati, hindi, marathi itp.)

Zakres projektu

Szybkie tworzenie

Zakres obejmował tworzenie unikalnych monitów dla systemu płatności UPI opartego na głosie. Monity zostały zaprojektowane tak, aby obejmowały wiele intencji, zapewniając ich różnorodność pod względem struktury, słownictwa i nazwanych jednostek. Niektóre kluczowe aspekty obejmowały:

13 kluczowych intencji, w tym:

  • Wyślij pieniądze: 65,653 XNUMX unikalnych i zróżnicowanych podpowiedzi
  • Zapytanie o saldo: 3,052 podpowiedzi
  • Żądanie pieniędzy: 26,972 podpowiedzi
  • Historia transakcji, doładowania, płatności rachunków itp.

Nagrywanie dźwięku

Aby zapewnić autentyczność i możliwość zastosowania w świecie rzeczywistym, podpowiedzi zostały nagrane przez 45 osób z różnych środowisk językowych. Różnorodność uchwycona poprzez różne języki ojczyste, dialekty regionalne i środowiska (wewnątrz i na zewnątrz) pomogła ulepszyć dane szkoleniowe.

  • Różnorodność językowa: Użytkownicy biegle posługują się językiem angielskim, ale posługują się także różnymi językami ojczystymi, takimi jak kumaoni, gudżarati, hindi, bengalski, marathi i malajalam.
  • Wiek, płeć i wykształcenie: Dane obejmowały szeroki zakres danych demograficznych.
  • Prelegenci w obszarach miejskich i wiejskich: Aby odzwierciedlić rzeczywiste wykorzystanie materiału, uwzględniono zarówno użytkowników miejskich, jak i wiejskich.
  • Środowisko nagrywania: Nagrania audio przeprowadzono zarówno w pomieszczeniach, jak i na zewnątrz, z uwzględnieniem różnorodnych dźwięków tła.

Wyzwania

Różnorodność językowa i regionalna

Aby zapewnić, że podpowiedzi będą odzwierciedlać różnorodność dialektów regionalnych i cech osób mówiących, konieczne było staranne planowanie i wykonanie.

Naturalne wariacje audio

W praktyce kluczowe znaczenie miało radzenie sobie z hałasami tła i warunkami środowiskowymi (wewnątrz i na zewnątrz).

Różnorodne profile mówców

Włączenie osób z różnych grup wiekowych, o różnym wykształceniu oraz pochodzących z obszarów wiejskich/miejskich utrudniło gromadzenie wiarygodnych danych.

Rozwiązanie

Firma Shaip dostarczyła rozwiązanie, które sprostało wyzwaniom projektu, wdrażając zaawansowane techniki NLP i starannie planując zarówno szybkie tworzenie, jak i rejestrowanie. Kluczowe aspekty rozwiązania obejmowały:

Szybkie tworzenie

  • 2,500 stworzono niepowtarzalne podpowiedzi, z których każda różniła się strukturą i słownictwem.
  • 13 Zakres żądań obejmował zarówno podstawowe prośby o płatność, jak i bardziej złożone zapytania, takie jak historia transakcji i płatności rachunków.

Nagrywanie dźwięku

  • 200 godzin nagrań audio przeprowadzono użytkownicy 45zapewniając różnorodność w obrębie języków ojczystych, środowisk i demografii użytkowników.
  • Aby zapewnić naturalną różnorodność dźwięku, do nagrywania wykorzystywano zarówno pomieszczenia, jak i tereny zewnętrzne.
  • Prelegenci reprezentowali szereg dialektów regionalnych, co pozwoliło na dokładne odzwierciedlenie języka.
Intencja Wyślij Zapytanie o saldo Żądanie pieniędzy Historia transakcji
Skłonić Dokonaj płatności w wysokości dwudziestu jedenset dolarów na rzecz Sumatri za wynajem domu Chcę sprawdzić aktualne saldo na moim koncie oszczędnościowym. Czy możesz poprosić Raji o trzysta osiemnaście rupii na wypadek nagłej potrzeby? Pokaż mi historię transakcji moją kartą debetową.
gujarati સુમાત્રીને ઘરના ભાડા પેટે એકવીસસો ચૂકવો હું મારા બચત ખાતામાં મારી વર્તમાન બેલેન્સ જાણ વા માંગુ છું. શું તમે રાજી પાસેથી ઇમર્જન્સી માટે ત્રણસો અઢા ર રૂપિયા માંગી શકો છો? મને મારા ડેબિટ કાર્ડના વ્યવહાર દેખાડો.
hinduski सुमात्री को मकान किराए के लिए इक्कीस सौ रुपए का भुगतान करें। मैं अपने बचत खाते में वर्तमान शेष राशि जानना च ाहता हूँ। क्या आप राजी से किसी इमरजेंसी के लिए तीन सौ अठा रह रुपये मांग सकते हैं? मुझे मेरा डेबिट कार्ड का लेनदेन ब्यौरा दिखाओ।
malajalam വീട്ടുവാടകയായി സുമത്രിക്ക് രണ്ടായിരത്തിഒരു ന്നൂറ് നൽകൂ. എൻ്റെ സേവിംഗ്സ് അക്കൗണ്ടിലെ നിലവിലെ തുക അറിയ ാൻ ഞാൻ ആഗ്രഹിക്കുന്നു. രാജിയോട് മുന്നൂറ്റി പതിനെട്ട് രൂപ അടിയന്തരാ വശ്യത്തിന് ആവശ്യപ്പെടാമോ? എൻ്റെ ഡെബിറ്റ് കാർഡ് ഇടപാട് വിവരണം കാണിക്കൂ.
telugu ఇంటి అద్దె కోసం సుమత్రికి ఇరవై ఒక్క వంద చెల్ల ించండి నేను నా సేవింగ్స్ అకౌంట్ లో నా ప్రస్తుత బ్యాల ెన్స్ ను తెలుసుకోవాలనుకుంటున్నాను. ఎమర్జెన్సీ కోసం రాజిని మూడు వందల పద్దెనిమిది రూపాయలు అడగగలరా? నా డెబిట్ కార్డ్ లావాదేవీ చరిత్రను నాకు చూపి ంచండి.
Bangla (বাংলা) বাড়ি ভাড়ার জন্য সুমাত্রিকে ২১, ০০০ টাকা পরিশ োধ করুন আমি আমার সঞ্চয় অ্যাকাউন্টে বর্তমান ব্যালেন্ স জানতে চাই। আপনি রাজির কাছে তাৎক্ষণিক অবস্থার জন্য তিনশো আঠারো টাকা চাইতে পারেন? আমার ডেবিট কার্ডের লেনদেনের ইতিহাস দেখান।
marathi सुमात्रीला घराच्या भाड्यासाठी दोन हजार एकशे रुपये द्या. मला माझ्या बचत खात्यातील सध्याचा शिल्लक जाणून घ्यायचा आहे. आपण राजीकडून तातडीसाठी तीनशे अठरा रुपये मागू शकता का? माझ्या डेबिट कार्डचे व्यवहार दाखवा.

Wynik

Wysokiej jakości, różnorodne dane audio dostarczone przez Shaip pozwoliły klientowi opracować oparty na AI system płatności UPI oparty na głosie, który jest w stanie rozpoznawać polecenia w różnych dialektach, środowiskach i kontekstach. Dane pomogły ulepszyć:

  • Rozpoznawanie głosu w czasie rzeczywistym w złożonych środowiskach.
  • Dokładniejsza transakcja UPI obsługa dla szerszego grona użytkowników.
  • Skalowalność: Projekt ten tworzy solidne podstawy do rozszerzenia zakresu nauczania na inne języki indyjskie.

Dostarczane

  • 200 godzin plików audio (format 8 kHz PCM WAV, mono)
  • 87,000 + zróżnicowane monity opatrzone adnotacjami o unikalnych intencjach
  • Metadane: Profile mówców, szczegóły otoczenia i dokładność transkrypcji

Zdolność Shaipa do uchwycenia różnorodności Indii za pomocą unikalnych podpowiedzi i autentycznych nagrań audio była przełomem dla naszego opartego na głosie systemu płatności UPI. Ich zespół zadbał o to, aby każdy aspekt projektu – od tworzenia podpowiedzi po jakość nagrania – był obsługiwany z precyzją, pomagając nam zbudować bardziej inkluzywny, solidny model rozpoznawania głosu.

Złota pięciogwiazdkowa