Zbieranie danych dla konwersacyjnej sztucznej inteligencji

Jak podejść do gromadzenia danych dla konwersacyjnej sztucznej inteligencji

Dzisiaj mamy kilka mówiących robotów jako chatbotów, wirtualnych asystentów i nie tylko w naszych domach, systemach samochodowych, urządzeniach przenośnych, rozwiązaniach automatyki domowej itp. Urządzenia te precyzyjnie słuchają tego, co mówimy i jak mówimy, i uzyskują wyniki lub wykonują określone zadania .

A jeśli używałeś asystenta takiego jak Siri lub Alexa, zdasz sobie również sprawę, że z dnia na dzień stają się coraz bardziej dziwaczne. Ich odpowiedzi są dowcipne, odpowiadają, lekceważą, komplementują i zachowują się bardziej po ludzku niż niektórzy koledzy, których możesz znać. Nie żartujemy. Według PwC, 27% użytkowników, którzy weszli w interakcję ze swoim niedawnym pracownikiem obsługi klienta, nie wiedziało, czy rozmawiają z człowiekiem, czy z chatbotem.

Tworzenie tak skomplikowanych systemów i urządzeń konwersacyjnych jest bardzo złożone i zniechęcające. To zupełnie inna gra w piłkę z różnymi podejściami do rozwoju. Dlatego pomyśleliśmy, że powinniśmy to dla Ciebie podzielić, aby ułatwić zrozumienie. Jeśli więc chcesz opracować konwersacyjny silnik AI lub wirtualnego asystenta, ten przewodnik pomoże ci uzyskać jasność.

Znaczenie konwersacyjnej sztucznej inteligencji

Ponieważ technologia staje się bardziej integralnym aspektem naszego życia w postaci nowszych urządzeń i systemów, pojawia się potrzeba przesuwania barier, łamania konwencji i wymyślania nowych sposobów interakcji z nimi. Od zwykłego korzystania z podłączonych urządzeń peryferyjnych, takich jak mysz i klawiatura, przeszliśmy na podkładki pod mysz, które zapewniały większą wygodę. Następnie przeszliśmy na ekrany dotykowe, które zapewniały dodatkową wygodę w wprowadzaniu danych wejściowych i wykonywaniu zadań.

Ponieważ urządzenia stają się przedłużeniem nas samych, odblokowujemy teraz nowe medium dowodzenia za pomocą głosu. Nie musimy nawet znajdować się w pobliżu urządzenia, aby je obsługiwać. Wszystko, co musimy zrobić, to użyć naszego głosu, aby go odblokować i wydać polecenia. Z pobliskiego pokoju, podczas jazdy, podczas jednoczesnego korzystania z innego urządzenia, konwersacyjna sztuczna inteligencja bezproblemowo wykonuje zamierzone zadania. Od czego więc zaczynamy — wszystko zaczyna się od wysokiej jakości danych mowy do trenowania modeli ML.

Podstawy zbierania danych do nauki mowy

Zbieranie i opisywanie danych treningowych AI dla konwersacyjnej AI jest bardzo różne. Istnieje mnóstwo zawiłości związanych z ludzkimi poleceniami i należy wdrożyć różne środki, aby zapewnić uwzględnienie każdego aspektu w celu uzyskania znaczących wyników. Przyjrzyjmy się niektórym podstawowym elementom danych mowy.

Rozumienie języka naturalnego (NLU)

Aby chatboty i wirtualni asystenci mogli zrozumieć i odpowiedzieć na to, co wysyłamy SMS-y lub polecenia, proces zwany NLU jest zaimplementowane. To znaczy Zrozumienie naturalnego języka i obejmuje trzy koncepcje technologiczne do interpretacji i przetwarzania różnych typów danych wejściowych.

  • Intencja

    Wszystko zaczyna się od zamiaru. Co konkretny użytkownik próbuje przekazać, zakomunikować lub osiągnąć za pomocą polecenia? Czy użytkownik szuka informacji? Czy czekają na aktualizacje do działania? Czy wydają polecenia systemowi do wykonania? Jak oni to rozkazują? Czy to przez pytanie czy prośbę? Wszystkie te aspekty pomagają maszynom zrozumieć i sklasyfikować intencje i cele, aby odpowiednio wypracować hermetyczne reakcje.

  • Kolekcja wypowiedzi

    Jest różnica między poleceniem „Gdzie jest najbliższy bankomat?” i polecenie „Znajdź mi najbliższy bankomat”. Teraz ludzie przyznają, że oba oznaczają to samo, ale maszyny muszą być wyjaśnione tą różnicą. Są takie same pod względem intencji, ale sposób, w jaki intencja została ukształtowana, jest zupełnie inny.

    Zbieranie wypowiedzi polega na definiowaniu i mapowaniu różnych wypowiedzi i fraz na konkretne cele w celu precyzyjnego wykonania zadań i odpowiedzi. Z technicznego punktu widzenia specjaliści od adnotacji danych pracują na danych mowy lub danych tekstowych, aby pomóc maszynom je rozróżnić.

  • Ekstrakcja encji

    Każde zdanie ma określone słowa lub frazy, które niosą za sobą podkreślenie wagi i to właśnie ten nacisk prowadzi do interpretacji kontekstu i celu. Maszyny, podobnie jak sztywne systemy, którymi są, muszą być karmione łyżką takimi bytami. Na przykład „Gdzie mogę znaleźć struny z mojej gitary w pobliżu 6th Avenue?”

    Jeśli doprecyzujesz zdanie, find to element jeden, struny to dwa, gitara to trzy, a szósta ścieżka to 6. Te elementy są łączone przez maszyny, aby uzyskać odpowiednie wyniki, a aby tak się stało, eksperci pracują na zapleczu.

Gotowe zestawy danych głosowych/mowy/dźwiękowych do szybszego trenowania konwersacyjnego modelu AI

Projektowanie dialogów dla konwersacyjnej sztucznej inteligencji

Celem sztucznej inteligencji jest przede wszystkim replikowanie ludzkich zachowań za pomocą gestów, działań i odpowiedzi. Świadomy ludzki umysł ma wrodzoną zdolność rozumienia kontekstu, intencji, tonu, emocji i innych czynników oraz odpowiednio reagować. Ale jak maszyny mogą różnicować te aspekty? 

Projektowanie dialogów dla konwersacyjna sztuczna inteligencja jest bardzo złożony i, co ważniejsze, całkiem niemożliwy do wprowadzenia modelu uniwersalnego. Każda osoba ma inny sposób myślenia, mówienia i odpowiadania. Nawet w odpowiedziach wszyscy wyrażamy swoje myśli w unikalny sposób. Dlatego maszyny muszą odpowiednio nasłuchiwać i reagować. 

Jednak i to nie jest gładkie. Kiedy ludzie mówią, pojawiają się takie czynniki, jak akcent, wymowa, pochodzenie etniczne, język i inne, i nie jest łatwo maszynom źle zrozumieć i źle zinterpretować słowa i odpowiedzieć.. Określone słowo może być rozumiane przez maszyny na niezliczone sposoby, gdy jest podyktowane przez Hindusa, Brytyjczyka, Amerykanina i Meksykanina. Istnieje mnóstwo barier językowych, które wchodzą w grę, a najbardziej praktycznym sposobem wymyślenia systemu odpowiedzi jest programowanie wizualne oparte na schemacie blokowym. 

Poprzez dedykowane bloki dla gesty, odpowiedzi i wyzwalacze, autorzy i eksperci mogą pomóc maszynom rozwinąć postać. Przypomina to bardziej algorytm, którego może użyć maszyna do wymyślenia właściwych odpowiedzi. Gdy dane wejściowe są podawane, informacje przepływają przez odpowiednie czynniki, co prowadzi do właściwej reakcji maszyn. 

Wybierz D dla różnorodności

Jak wspomnieliśmy, interakcje międzyludzkie są bardzo wyjątkowe. Ludzie z całego świata pochodzą z różnych środowisk, pochodzą z różnych środowisk, pochodzą z różnych narodowości, mają różne grupy demograficzne, etniczne, mają akcenty, dykcję, wymową i nie tylko. 

Aby bot konwersacyjny lub system działał uniwersalnie, musi być szkolony przy użyciu jak najbardziej zróżnicowanych danych treningowych. Jeśli, na przykład, model został wytrenowany tylko przy użyciu danych mowy jednego konkretnego języka lub grupy etnicznej, nowy akcent zdezorientowałby system i zmusiłby go do dostarczania błędnych wyników. Jest to nie tylko krępujące dla właścicieli firm, ale także obraźliwe dla użytkowników. 

Dlatego faza rozwoju powinna obejmować dane szkoleniowe AI z bogatej puli różnorodnych zestawów danych złożonych z ludzi ze wszystkich możliwych środowisk. Im więcej akcentów i grup etnicznych zrozumie twój system, tym bardziej będzie uniwersalny. Poza tym to, co bardziej irytuje użytkowników, to nie błędne wyszukiwanie informacji, ale przede wszystkim niezrozumienie ich danych wejściowych. 

Wyeliminowanie uprzedzeń powinno być kluczowym priorytetem, a jednym ze sposobów, w jaki firmy mogą to zrobić, jest wybór danych z crowdsourcingu. Kiedy pozyskujesz dane mowy lub dane tekstowe, pozwalasz ludziom z całego świata wnieść wkład w Twoje wymagania, dzięki czemu Twoja pula danych będzie tylko zdrowa (Przeczytaj nasze blog zrozumieć korzyści i pułapki związane z outsourcingiem danych do pracowników crowdsourcingowych). Teraz Twój model zrozumie różne akcenty i wymowy i odpowiednio zareaguje. 

Way Forward

Rozwijanie konwersacyjnej sztucznej inteligencji jest równie trudne, jak wychowywanie niemowlęcia. Jedyną różnicą jest to, że niemowlę w końcu dorośnie, aby zrozumieć rzeczy i lepiej komunikować się autonomicznie. To maszyny, które należy konsekwentnie popychać. W tej przestrzeni jest obecnie kilka wyzwań i powinniśmy przyznać, że pomimo tych wyzwań mamy jedne z najbardziej rewolucyjnych systemów konwersacyjnej sztucznej inteligencji. Poczekajmy i zobaczmy, co przyniesie przyszłość dla naszych przyjaznych sąsiedzkich chatbotów i wirtualnych asystentów. Tymczasem, jeśli zamierzasz uzyskać konwersacyjną sztuczną inteligencję, taką jak Google Home, opracowaną dla swojej firmy, skontaktuj się z nami w celu uzyskania danych szkoleniowych AI i potrzeb związanych z adnotacjami.

Podziel społecznej