Polski zbiór danych
Polski zbiór danych
Wysokiej jakości polskie dane medialne i monolog oparty na scenariuszu dla sztucznej inteligencji i modeli mowy
Przegląd
Tytuł (język)
Zbiór danych języka polskiego
Typy zbiorów danych
Media (Podcast), Scenariusz monologu
Kraj
Polska
OPIS
Zbiór danych obejmuje licencjonowane pliki audio lub wideo należące do domeny publicznej, takie jak wywiady i podcasty z udziałem od 1 do 5 uczestników (trwające 15–60 minut), a także monologi oparte na scenariuszach, w których jeden mówca wygłasza wstępnie zdefiniowane treści służące do szkolenia i oceny modeli mowy i języka.
Przypadek użycia
ASR, wirtualny asystent, chatbot, konwersacyjna sztuczna inteligencja, analiza mowy, TTS, modelowanie języka
Szczegóły zestawu danych
| Typ zbioru danych | Częstotliwość próbkowania | Głośniki | Kanał | Suma godzin | Całkowita liczba głośników |
|---|---|---|---|---|---|
| Dane medialne | 16 kHz | Głośniki Multipal | Mono | 268:56:51 | 532 |
| Scenariusz Monolog | 48 kHz | Pojedynczy głośnik | Mono | 2,348:00:00 | 2,699 |
Wyróżnieni klienci
Umożliwianie zespołom tworzenia wiodących na świecie produktów AI.
Nie możesz znaleźć tego, czego szukasz?
Nowe, gotowe zestawy danych są gromadzone we wszystkich typach danych
Skontaktuj się z nami teraz, aby uwolnić się od obaw związanych z gromadzeniem danych dotyczących treningu audio/mowy