Mowa na tekst

Mowa na tekst

Definicja

Speech-to-text (STT) to proces automatycznej konwersji mowy na tekst pisany za pomocą modeli sztucznej inteligencji. Jest on ściśle powiązany z ASR.

Cel

Celem jest zapewnienie dostępności i możliwości wyszukiwania treści mówionych. Jest to powszechnie stosowane w transkrypcji, ułatwieniach dostępu i asystentach cyfrowych.

Znaczenie

  • Wspiera dostępność dla użytkowników niedosłyszących.
  • Dostarcza transkrypcje ze spotkań i wykładów.
  • Dokładność zależy od akcentów i warunków hałasu.
  • Używany w niemal wszystkich aplikacjach sterowanych głosem.

Jak to działa

  1. Przechwytywanie sygnału audio.
  2. Wstępne przetwarzanie i normalizacja sygnału audio.
  3. Zastosuj modele ASR do rozpoznawania słów.
  4. Transkrypcja tekstu wyjściowego.
  5. W razie potrzeby przejrzyj i popraw pod nadzorem człowieka.

Przykłady (świat rzeczywisty)

  • Interfejs API Google Cloud Speech-to-Text.
  • Usługi Microsoft Azure Speech Services.
  • Transkrypcja spotkania Otter.ai.

Odniesienia / Dalsza lektura

Powiedz nam, jak możemy pomóc w Twojej następnej inicjatywie AI.