Studium przypadku: Muzyka AI
Zbieranie danych o głosie śpiewającym
Kolekcja audio do śpiewu oparta na głosie do szkolenia w zakresie algorytmów EQ i kompresji: uchwycenie różnorodności językowej i muzycznej
Przegląd projektu
Shaip nawiązał współpracę z wiodącą firmą technologiczną, aby zebrać różnorodne nagrania dźwiękowe śpiewu w czterech priorytetowych językach: chińskim, arabskim, hiszpańskim i rosyjskim. Celem projektu było dostarczenie wysokiej jakości danych do szkolenia algorytmów korekcji i kompresji opartych na sztucznej inteligencji, które są niezbędne do poprawy zautomatyzowanego przetwarzania dźwięku.
W projekcie wzięło udział 40 uczestników (po 10 w każdym języku) reprezentujących różne gatunki muzyczne. Położono nacisk na nagrania o jakości studyjnej, wykonywane przy użyciu różnych mikrofonów i w różnych środowiskach.
Kluczowe statystyki
Języki 4: Chiński, arabski, hiszpański, rosyjski
10 śpiewaków dla
język (w sumie 40)
20 godzin of
śpiewanie audio
Format audio: 48 kHz PCM, mono, WAV
Transkrypcja audio w językach ojczystych
Czas trwania projektu:
Weeks 18
Zakres projektu
Gromadzenie danych
Zakres obejmował zbiór dźwięków śpiewanych w czterech docelowych językach, nagranych przez prawdziwych artystów w wielu gatunkach muzycznych. Środowisko studyjne zostało wykorzystane do zapewnienia wysokiej jakości nagrań odpowiednich do trenowania modeli AI.
Kluczowe wymagania
- Uczestnicy: 10 śpiewaków w każdym języku, z równym podziałem płci (50% mężczyzn, 50% kobiet).
- Kategorie: Różnorodność gatunków, zidentyfikowanych przez artystę, potwierdzona spójnością.
- Środowisko nagrywania: Jakość studyjna, z wieloma ustawieniami mikrofonu (dynamiczny, pojemnościowy).
- Format dźwięku: Pliki PCM 48 kHz, mono, WAV, bez żadnej obróbki (np. kompresji, korektora, pogłosu).
- zapis: Piosenki należy transkrybować w języku, w którym są śpiewane, ze szczególnymi zasadami dotyczącymi piosenek dwujęzycznych.
- Języki: Chiński, arabski, hiszpański, rosyjski
- Transkrypcja
- Transkrypcje powinny być wykonane w języku nagrania (np. wersy w języku hindi w dewanagari, a następnie w języku angielskim).
- Aby zapewnić przejrzystość i dokładność, upewnij się, że żaden segment nie jest dłuższy niż 15 sekund.
- Wymagania dotyczące nagrywania dźwięku
- Co najmniej 3 ustawienia mikrofonu na sesję nagraniową.
- 3 minuty na piosenkę, z 3 ujęciami na piosenkę, co zapewnia zróżnicowane nagrania mikrofonowe dla każdego uczestnika.
- Środowisko akustyczne o jakości studyjnej, bez szumów tła.
Wyzwania
Różnorodność uczestników
Zapewnienie zrównoważonego podziału śpiewaków ze względu na płeć, barwę/wysokość głosu i gatunek muzyczny było złożonym wyzwaniem.
Spójność danych
Utrzymywanie spójnych ustawień mikrofonu i otoczenia podczas nagrywania zróżnicowanych występów wokalnych w wielu językach.
Kontrola jakości dźwięku
Zapewniamy studyjną jakość dźwięku bez zewnętrznych zakłóceń i dokładną transkrypcję w wielu językach.
Rozwiązanie
Firma Shaip dostarczyła kompleksowe rozwiązanie spełniające wymagania projektu poprzez:
- Rekrutacja 40 wokalistów w czterech językach i zapewnienie zróżnicowanej reprezentacji pod względem płci, wysokości dźwięku i stylu muzycznego.
- Wykonywanie nagrań w jakości studyjnej z użyciem różnych typów mikrofonów (dynamicznych, pojemnościowych) w celu uchwycenia szerokiego zakresu danych audio.
- Dokładne przepisywanie nagrań w używanych językach, z zastosowaniem szczególnych zasad dotyczących piosenek dwujęzycznych.
- Zgoda: Formularze zgody zostaną zebrane od wszystkich uczestników przed rozpoczęciem nagrywania.
Wynik
Zebrane różnorodne dane audio śpiewu pozwoliły klientowi opracować solidny zestaw treningowy dla zautomatyzowanych algorytmów EQ i kompresji, zwiększając jakość przetwarzania dźwięku. Wysokiej jakości nagrania i szczegółowe metadane zapewniły, że modele AI mogły obsługiwać różne gatunki muzyczne i złożoności językowe. Kluczowe wyniki:
- Wysokiej jakości, zróżnicowane dane audio do szkolenia systemów AI.
- Dokładna transkrypcja i metadane do analizy.
- Solidniejsza podstawa dla narzędzi do przetwarzania dźwięku opartych na sztucznej inteligencji.
Dostarczane
- 20 godzin nagrań audio w jakości studyjnej (pliki PCM 48 kHz, pliki WAV mono).
- Transkrypcje w języku nagrania.
- Metadane: marka/model mikrofonu, interfejs DAC/audio, profil wokalisty, informacje o gatunku muzycznym.
- Format JSON do transkrypcji z metadanymi.
Zdolność Shaipa do uchwycenia różnorodności talentów muzycznych i bogactwa językowego była nieoceniona dla rozwoju naszych algorytmów EQ i kompresji. Ich zespół zadbał o to, aby każdy aspekt, od rekrutacji artystów po jakość nagrywania, był obsługiwany z precyzją, co czyni ten krok niezbędnym w udoskonalaniu naszych zautomatyzowanych systemów przetwarzania dźwięku.
Jesteśmy naprawdę wdzięczni za zaufanie i współpracę, jaką Shaip wykazał w trakcie całego procesu. Pomimo naszych surowych i wymagających wymagań technicznych, ich poświęcenie, ciężka praca i dbałość o szczegóły były wyjątkowe. To była przyjemność pracować z zespołem tak oddanym dostarczaniu doskonałości