Polski zbiór danych

Polski zbiór danych

Wysokiej jakości polskie dane medialne i monolog oparty na scenariuszu dla sztucznej inteligencji i modeli mowy

Przegląd

Tytuł (język)

Zbiór danych języka polskiego

Typy zbiorów danych

Media (Podcast), Scenariusz monologu

Kraj

Polska

OPIS

Zbiór danych obejmuje licencjonowane pliki audio lub wideo należące do domeny publicznej, takie jak wywiady i podcasty z udziałem od 1 do 5 uczestników (trwające 15–60 minut), a także monologi oparte na scenariuszach, w których jeden mówca wygłasza wstępnie zdefiniowane treści służące do szkolenia i oceny modeli mowy i języka.

Przypadek użycia

ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka

Szczegóły zestawu danych

Typ zbioru danych Częstotliwość próbkowania Głośniki Kanał Suma godzin Całkowita liczba głośników
Dane medialne 16 kHz Głośniki Multipal Mono 268:56:51 532
Scenariusz Monolog 48 kHz Pojedynczy głośnik Mono 2,348:00:00 2,699

Wyróżnieni klienci

Umożliwianie zespołom tworzenia wiodących na świecie produktów AI.

Amazon
Google
Microsoft
Skontaktuj się z nami

Nie możesz znaleźć tego, czego szukasz?

Nowe, gotowe zestawy danych są gromadzone we wszystkich typach danych

Skontaktuj się z nami teraz, aby uwolnić się od obaw związanych z gromadzeniem danych dotyczących treningu audio/mowy

  • To pole jest dla celów walidacji i powinny być pozostawione bez zmian.
  • Rejestrując się, zgadzam się z Shaip Polityka Prywatności oraz Regulamin i wyrazić zgodę na otrzymywanie komunikacji marketingowej B2B od Shaip.