Wie konvertiere ich Sprache in Text in AWS?

Dieser Blog wurde von Medium zu blogs.tensult.com verschoben. Dort stehen Ihnen die neuesten Inhalte zur Verfügung. Abonnieren Sie unseren Newsletter, um auf dem Laufenden zu bleiben.

Die sprachbasierte Interaktion mit Computern nimmt zu und es werden immer mehr sprachbasierte Anwendungen entwickelt, während wir sprechen. Wir danken AWS, dass wir solche Dienste für die gemeinsame Nutzung zu niedrigen Kosten und nach Ihrem Modell bezahlt haben.

Referenz: https://bit.ly/2UXdjCg

Ich habe ein kleines Experiment mit AWS Transcribe durchgeführt, einem verwalteten Dienst für die Spracherkennung. Transcribe unterstützt ab sofort eine begrenzte Anzahl von Sprachen, AWS fügt jedoch kontinuierlich weitere Sprachen hinzu. Um den Transkriptionsdienst verwenden zu können, müssen Sie eine Audiodatei in einen S3-Bucket hochladen und diese Datei in den Transcribe-Bucket eingeben und einen S3-Ausgabe-Bucket bereitstellen, um erkannten Text aus der Sprache zu speichern.

Benutzerdefinierter Wortschatz

Wenn wir sprechen, verwenden wir normalerweise einige Eigennamen wie den Namen des Unternehmens, des Produkts, der Anwendung, des Teams oder der Personen. Da dies keine Wörter aus dem Wörterbuch sind, wäre es eine Herausforderung, sie zu erkennen. Um dieser Herausforderung zu begegnen, können wir in Transcribe benutzerdefiniertes Vokabular als Text- oder CSV-Datei definieren. Wir können benutzerdefinierte Vokabulare pro Sprache festlegen und diese beim Ausführen von Transkriptionsjobs verwenden.

Vokabeln erstellen

Inhalt der Vokabeldatei:

transkribieren
Dilip
Tensult
A.W.S

Sobald das Vokabular fertig ist, kann es in Transkriptionsjobs verwendet werden.

Stellen Sie sicher, dass der Wortschatz bereit ist, bevor Sie ihn verwenden

Transkriptionsaufträge

Um Sprache in Text umzuwandeln, müssen Sie einen Transkriptionsjob erstellen, indem Sie eine Audiodatei in den S3-Bucket hochladen, das richtige Vokabular auswählen und den Job erstellen.

Erstellen Sie einen TranskriptionsjobÜberprüfen Sie den Transkriptionsjobstatus

Experimente

  1. Spracherkennung mit Englisch (USA) und benutzerdefiniertem Vokabular
  2. Spracherkennung mit Englisch (USA) ohne benutzerdefinierten Wortschatz
  3. Spracherkennung mit Englisch (UK) mit benutzerdefiniertem Wortschatz
  4. Spracherkennung mit Englisch (UK) ohne benutzerdefinierten Wortschatz

Ausgabe

Nach Abschluss der Transkriptionsaufträge wird die Ausgabe im angegebenen S3-Bucket gespeichert.

Überprüfen Sie die Ausgabe des Transkriptionsjobs im S3-BucketJSON für den Job mit Vokabeln mit Englisch (US) ausgebenJSON für den Job ohne Vokabular mit Englisch (US) ausgebenJSON für den Job mit Vokabeln mit Englisch (UK) ausgebenJSON für den Job ohne Vokabeln mit Englisch (UK) ausgeben

Zusammenfassung der Ergebnisse der Transkriptionsjobs:

Originaltext in der Rede des indischen Sprechers (ich):
Hallo. Ich heiße Dilip. Ich mache einen Transkriptionstest von Tensult. Hier sehen Sie, wie sich die A.W.S-Transkription verhält.
Anerkannter Text mit benutzerdefiniertem Vokabular mit Englisch (UK):
Hallo. Ich heiße Dilip. Ich mache einen Transkriptionstest von Tensult. Hier sehen Sie, wie sich die A.W.S-Transkription verhält.
Anerkannter Text ohne benutzerdefiniertes Vokabular mit Englisch (UK):
Hallo. Mein Name ist der Sprung. Ich mache einen transkribierten Test von innen. Dies ist, um zu sehen, wie sich ein Doppelprotokoll verhält.
Anerkannter Text mit benutzerdefiniertem Vokabular in Englisch (US):
Hallo. Ich heiße Dilip. Ich transkribiere gerade sauer von Tensult. Hier sehen Sie, wie sich die A.W.S-Transkription verhält.
Anerkannter Text ohne benutzerdefiniertes Vokabular mit Englisch (US):
Hallo. Ich heiße philippe Ich schreibe gerade. Von innen abgepisst. Hier sehen Sie, wie sich ein arbeitsloses Protokoll verhält.
* Benutzerdefinierte Wörter sind fett hervorgehoben.
* Fehler sind kursiv hervorgehoben.

Transcribe hat die benutzerdefinierten Wörter anhand des bereitgestellten benutzerdefinierten Vokabulars erfolgreich erkannt. Wir können leicht feststellen, dass die Genauigkeit der Spracherkennung mit dem Vokabular besser ist. Ich empfehle daher, diesen Dienst mit einem benutzerdefinierten Vokabular zu verwenden. Der Transkriptionsdienst unterstützt keine verschiedenen Akzente in Englisch, aber ich konnte mit dem englischen Wortschatz für unseren Fall gute Ergebnisse erzielen.

Ich hoffe, dass in Zukunft das indische Englisch hinzugefügt wird, um die Genauigkeit der Spracherkennung für den indischen Kontext zu verbessern. Außerdem wird AWS die im Transcribe-Dienst verwendeten Modelle für maschinelles Lernen verbessern, um die Leistung dieses Dienstes weiter zu verbessern.

Fazit

Ich habe anhand eines Experiments erklärt, wie Sprache mithilfe des AWS Transcribe-Dienstes in Text konvertiert wird. Ich hoffe, dies hat Ihnen geholfen, die Konzepte dieses Dienstes zu verstehen. Bitte lassen Sie mich wissen, wenn Sie Fragen haben und vergessen Sie nicht, mir für weitere Updates zu folgen.