Koreański zestaw danych

한국어데이터셋

Wysokiej jakości koreański zbiór danych dotyczących call-center, monologów skryptowych i mediów (podcastów) dla modeli AI i mowy

Przegląd

Tytuł (język)

Zbiór danych języka koreańskiego

Typy zbiorów danych

Call Center, dane multimedialne, monolog scenariuszowy

Kraj

Korea

OPIS

Zbiór danych obejmuje nieskryptowane rozmowy telefoniczne między agentem syntetycznym a klientem (5–15 minut), licencjonowane pliki audio/wideo z domeny publicznej, takie jak wywiady i podcasty z udziałem od 1 do 5 uczestników (15–60 minut), a także skryptowane monologi, w których jeden mówca wygłasza zdefiniowane wcześniej treści na potrzeby szkolenia w zakresie mowy i modelu językowego.

Przypadek użycia

ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka

Szczegóły zestawu danych

Typ zbioru danych Częstotliwość próbkowania Głośniki Kanał Suma godzin Całkowita liczba głośników
Call Center 8 kHz Głośniki 2 Podwójny 102:27:55 1,244
Dane medialne 16 kHz Wiele głośników Mono 203:46:54 397
Scenariusz Monolog 24 kHz Pojedynczy głośnik Mono 500:00:00 Na Życzenie
Scenariusz Monolog 48 kHz Pojedynczy głośnik Mono 1,955:00:00 Na Życzenie

Wyróżnieni klienci

Umożliwianie zespołom tworzenia wiodących na świecie produktów AI.

Amazon
Google
Microsoft
Skontaktuj się z nami

Nie możesz znaleźć tego, czego szukasz?

Nowe, gotowe zestawy danych są gromadzone we wszystkich typach danych

Skontaktuj się z nami teraz, aby uwolnić się od obaw związanych z gromadzeniem danych dotyczących treningu audio/mowy

  • To pole jest dla celów walidacji i powinny być pozostawione bez zmian.
  • Rejestrując się, zgadzam się z Shaip Polityka Prywatności oraz Regulamin i wyrazić zgodę na otrzymywanie komunikacji marketingowej B2B od Shaip.