Ulepszanie zrozumienia zapytań wyszukiwania dzięki adnotacjom ludzkim

Wykorzystanie ludzkiej oceny i ustrukturyzowanej taksonomii w celu spójnego radzenia sobie z niejednoznacznymi przypadkami skrajnymi i poprawy trafności wyszukiwania dla wiodącego polskiego konglomeratu e-commerce.

Ulepszanie zapytania wyszukiwania

Przegląd projektu

Klient, polski lider e-commerce, otrzymuje miliony zapytań dziennie. Wiele z nich to dwuznaczny, zawierać błędy ortograficznelub odnieś się do wiele kategorii produktów, co stwarza wyzwania dla zautomatyzowanych wyszukiwarek.

Aby poprawić sdokładność wyszukiwania i doświadczenie klientaShaip opracował ustrukturyzowany model adnotacji inspirowany badaniem Baymarda. Zapytania zostały systematycznie sklasyfikowane według kategorie 11 (np. Kategoria produktu, Temat, Atrybut szczegółowy, Dokładny, Sprzedawca, Objaw, Nieprodukt itp.) z zasady pierwszeństwa aby zapewnić spójną kategoryzację.

 

Ulepszanie zapytania wyszukiwania

Kluczowe statystyki

Ponad 50 000 adnotowanych zapytań

w wielu kategoriach

11 klas adnotacji

z jasnymi definicjami i zasadami pierwszeństwa

3-etapowy przepływ pracy

Adnotacja ➔ QA ➔ Arbitraż dla MŚP

Zakres projektu

Projekt skupiał się na budowie kompleksowa taksonomia aby uchwycić pełne spektrum zachowań użytkowników w zakresie wyszukiwania na platformie marketplace o dużej skali. Zakres obejmował:

  • Opracowanie taksonomii 11 kategorii z przejrzystymi definicjami i hierarchią priorytetów, aby poradzić sobie z przypadkami, w których zapytania pasują do więcej niż jednej klasy.
  • Adnotacje tysięcy prawdziwych zapytań w obrębie domen produktów i nie tylko, w celu szkolenia i kalibracji systemu klasyfikacji.
  • Rozwiązywanie niejednoznacznych zapytań poprzez eskalację do ekspertów merytorycznych (SME), zapewniając spójność w sposobie obsługi skrajnych przypadków.
  • Podawanie przykładów z adnotacjami i uzasadnieniami w celu kalibracji QA, tworząc zbiór szkoleniowy, na którym w przyszłości adnotatorzy będą mogli się opierać jako punkcie odniesienia.

Przykładowe adnotacje zawarte w zestawie:

  • De dietrich ELENSIO ➔ Exact
  • E 91 ➔ Trudno powiedzieć
  • tezfiles ➔ Sprzedawca
  • subaru brz toyota gt86 ➔ Non-Product
  • okulary BHP ➔ Kategoria produktu
  • stawu skokowego ➔ Symptom

Wyzwania

Projekt musiał pokonać kilka trudności problemy ze złożonością danych które są typowe dla środowisk wyszukiwania e-commerce:

Dwuznaczność

Zapytania takie jak „E 91” mogą odpowiadać zupełnie różnym produktom (modelowi samochodu, uchwytowi bezpiecznika, nadrukowi kapsuły), co sprawia, że ​​interpretacja jest wysoce niepewna.

Literówki i warianty

Błędy ortograficzne lub skróty, takie jak „lampa uf zestaw”, wymagały kontekstowej interpretacji przez człowieka, aby zrozumieć, że chodzi o „lampa UV zestaw”.

Nakładające się kategorie

Zapytania często odpowiadały wielu klasom (np. Atrybut dokładny, zgodny i określony), co wymagało reguł pierwszeństwa w celu zapewnienia spójności.

Nieprawidłowe dane wejściowe

Kody seryjne lub identyfikatory, które nie pasują do żadnego produktu, musiały zostać oznaczone jako „Nieprawidłowa fraza”, zamiast zostać błędnie sklasyfikowane.

Skalowalność

Konsekwentne stosowanie zróżnicowanych reguł klasyfikacji dziesiątki tysięcy zapytań wymagał silnego zarządzania zapewnieniem jakości i adnotacjami.

Rozwiązanie

Aby sprostać tym wyzwaniom, struktura adnotacji wprowadzono rozwiązanie równoważące automatyzację z nadzorem człowieka:

Wytyczne dotyczące adnotacji

Aby pomóc adnotatorom w spójnym klasyfikowaniu, nawet w skomplikowanych scenariuszach, stworzono szczegółowe definicje, przykłady i instrukcje.

Zasady pierwszeństwa

Ustanowiono hierarchię (np. Zgodny > Dokładny > Określony atrybut), aby powtarzające się przypadki były rozwiązywane systematycznie.

Wielostopniowy proces zapewniania jakości

  1. Początkowa adnotacja wykonana przez przeszkolonych adnotatorów.
  2. Wtórna recenzja przeprowadzana przez specjalistów ds. zapewnienia jakości.
  3. Eskalacja do MŚP w celu arbitrażu w przypadku skrajnych przypadków lub nieporozumień

Praktyczne zastosowanie wytycznych w zapytaniach ze świata rzeczywistego

  • 4008146044786 ➔ Nieprawidłowa fraza
  • miraculum królika Atrybut tematyczny
  • zcd galaktyczna szarość Zgodny
  • owczarek belgijski Motyw

 To zapewniło wyrównanie, jakość i niezawodność w całym procesie adnotacji.

Wynik

Inicjatywa ta przyniosła wymierne usprawnienia w ekosystemie wyszukiwania klienta:

  • Ponad 50 000 zapytań sklasyfikowanych z dużą precyzją, tworząc solidny zbiór danych szkoleniowych służących udoskonaleniu wyszukiwania.
  • Poprawiona trafność wyników wyszukiwania, co bezpośrednio przekłada się na wzrost zadowolenia użytkowników i zmniejszenie frustracji wynikającej z nietrafnych dopasowań.
  • Zredukowana niejednoznaczność poprzez systematyczne rozwiązywanie przypadków skrajnych za pomocą arbitrażu i reguł pierwszeństwa ustalanych przez MŚP.
  • Lepsza wykrywalność produktów, dzięki czemu użytkownicy mogą wyszukiwać przedmioty z większą dokładnością według kategorii, atrybutów i motywów.

Ogólnie rzecz biorąc, projekt ten przygotował grunt pod bardziej inteligentne i zorientowane na użytkownika wyszukiwanie, pomagając klientowi utrzymać przewagę konkurencyjną na rynku e-commerce.

Przepływ pracy z adnotacjami wprowadzanymi przez człowieka zapewnił przejrzystość złożonych zapytań wyszukiwania. Ustrukturyzowana taksonomia i reguły pierwszeństwa znacząco poprawiły dokładność naszej wyszukiwarki i sprawiły, że korzystanie z niej stało się bardziej płynne.

– Dyrektor ds. wyszukiwania i odkrywania, polski konglomerat e-commerce

Złota pięciogwiazdkowa