Studium przypadku: Muzyka AI

Zbieranie danych o głosie śpiewającym

Kolekcja audio do śpiewu oparta na głosie do szkolenia w zakresie algorytmów EQ i kompresji: uchwycenie różnorodności językowej i muzycznej

Zbiór nagrań audio ze śpiewem opartym na głosie

Przegląd projektu

Shaip nawiązał współpracę z wiodącą firmą technologiczną, aby zebrać różnorodne nagrania dźwiękowe śpiewu w czterech priorytetowych językach: chińskim, arabskim, hiszpańskim i rosyjskim. Celem projektu było dostarczenie wysokiej jakości danych do szkolenia algorytmów korekcji i kompresji opartych na sztucznej inteligencji, które są niezbędne do poprawy zautomatyzowanego przetwarzania dźwięku.

W projekcie wzięło udział 40 uczestników (po 10 w każdym języku) reprezentujących różne gatunki muzyczne. Położono nacisk na nagrania o jakości studyjnej, wykonywane przy użyciu różnych mikrofonów i w różnych środowiskach.

Kolekcja audio do śpiewania

Kluczowe statystyki

Języki 4: Chiński, arabski, hiszpański, rosyjski

10 śpiewaków dla
język (w sumie 40)

20 godzin of
śpiewanie audio

Format audio: 48 kHz PCM, mono, WAV

Transkrypcja audio w językach ojczystych

Czas trwania projektu:
Weeks 18

Zakres projektu

Gromadzenie danych

Zakres obejmował zbiór dźwięków śpiewanych w czterech docelowych językach, nagranych przez prawdziwych artystów w wielu gatunkach muzycznych. Środowisko studyjne zostało wykorzystane do zapewnienia wysokiej jakości nagrań odpowiednich do trenowania modeli AI.

Kluczowe wymagania

  • Uczestnicy: 10 śpiewaków w każdym języku, z równym podziałem płci (50% mężczyzn, 50% kobiet).
  • Kategorie: Różnorodność gatunków, zidentyfikowanych przez artystę, potwierdzona spójnością.
  • Środowisko nagrywania: Jakość studyjna, z wieloma ustawieniami mikrofonu (dynamiczny, pojemnościowy).
  • Format dźwięku: Pliki PCM 48 kHz, mono, WAV, bez żadnej obróbki (np. kompresji, korektora, pogłosu).
  • zapis: Piosenki należy transkrybować w języku, w którym są śpiewane, ze szczególnymi zasadami dotyczącymi piosenek dwujęzycznych.
  • Języki: Chiński, arabski, hiszpański, rosyjski
  • Transkrypcja
    • Transkrypcje powinny być wykonane w języku nagrania (np. wersy w języku hindi w dewanagari, a następnie w języku angielskim).
    • Aby zapewnić przejrzystość i dokładność, upewnij się, że żaden segment nie jest dłuższy niż 15 sekund.
  • Wymagania dotyczące nagrywania dźwięku
    • Co najmniej 3 ustawienia mikrofonu na sesję nagraniową.
    • 3 minuty na piosenkę, z 3 ujęciami na piosenkę, co zapewnia zróżnicowane nagrania mikrofonowe dla każdego uczestnika.
    • Środowisko akustyczne o jakości studyjnej, bez szumów tła.

Wyzwania

Różnorodność uczestników

Zapewnienie zrównoważonego podziału śpiewaków ze względu na płeć, barwę/wysokość głosu i gatunek muzyczny było złożonym wyzwaniem.

Spójność danych

Utrzymywanie spójnych ustawień mikrofonu i otoczenia podczas nagrywania zróżnicowanych występów wokalnych w wielu językach.

Kontrola jakości dźwięku

Zapewniamy studyjną jakość dźwięku bez zewnętrznych zakłóceń i dokładną transkrypcję w wielu językach.

Rozwiązanie

Firma Shaip dostarczyła kompleksowe rozwiązanie spełniające wymagania projektu poprzez:

  • Rekrutacja 40 wokalistów w czterech językach i zapewnienie zróżnicowanej reprezentacji pod względem płci, wysokości dźwięku i stylu muzycznego.
  • Wykonywanie nagrań w jakości studyjnej z użyciem różnych typów mikrofonów (dynamicznych, pojemnościowych) w celu uchwycenia szerokiego zakresu danych audio.
  • Dokładne przepisywanie nagrań w używanych językach, z zastosowaniem szczególnych zasad dotyczących piosenek dwujęzycznych.
  • Zgoda: Formularze zgody zostaną zebrane od wszystkich uczestników przed rozpoczęciem nagrywania.

Wynik

Zebrane różnorodne dane audio śpiewu pozwoliły klientowi opracować solidny zestaw treningowy dla zautomatyzowanych algorytmów EQ i kompresji, zwiększając jakość przetwarzania dźwięku. Wysokiej jakości nagrania i szczegółowe metadane zapewniły, że modele AI mogły obsługiwać różne gatunki muzyczne i złożoności językowe. Kluczowe wyniki:

  • Wysokiej jakości, zróżnicowane dane audio do szkolenia systemów AI.
  • Dokładna transkrypcja i metadane do analizy.
  • Solidniejsza podstawa dla narzędzi do przetwarzania dźwięku opartych na sztucznej inteligencji.

Dostarczane

  • 20 godzin nagrań audio w jakości studyjnej (pliki PCM 48 kHz, pliki WAV mono).
  • Transkrypcje w języku nagrania.
  • Metadane: marka/model mikrofonu, interfejs DAC/audio, profil wokalisty, informacje o gatunku muzycznym.
  • Format JSON do transkrypcji z metadanymi.

Zdolność Shaipa do uchwycenia różnorodności talentów muzycznych i bogactwa językowego była nieoceniona dla rozwoju naszych algorytmów EQ i kompresji. Ich zespół zadbał o to, aby każdy aspekt, od rekrutacji artystów po jakość nagrywania, był obsługiwany z precyzją, co czyni ten krok niezbędnym w udoskonalaniu naszych zautomatyzowanych systemów przetwarzania dźwięku.

Jesteśmy naprawdę wdzięczni za zaufanie i współpracę, jaką Shaip wykazał w trakcie całego procesu. Pomimo naszych surowych i wymagających wymagań technicznych, ich poświęcenie, ciężka praca i dbałość o szczegóły były wyjątkowe. To była przyjemność pracować z zespołem tak oddanym dostarczaniu doskonałości

Złota pięciogwiazdkowa