Best Practices für Audioanzeigen
Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.
Diese Seite enthält Empfehlungen zur Bereitstellung von Sprachdaten für die Google Assistant API. Diese Richtlinien sorgen für mehr Effizienz und Genauigkeit sowie angemessene Antwortzeiten des Dienstes.
Vorverarbeitung von Audios
Es empfiehlt sich, Audios bereitzustellen, die so sauber wie möglich sind und eine gute Qualität haben. Außerdem sollten Sie für ein gut positioniertes Mikrofon sorgen. Wenn Sie eine das Rauschen reduzierende Signalverarbeitung auf das Audio anwenden, bevor Sie dieses an den Dienst senden, wird dadurch in den meisten Fällen die Erkennungsgenauigkeit reduziert. Der Dienst wurde so entwickelt, dass Rauschen im Audio automatisch behandelt wird.
Für optimale Ergebnisse:
- Positionieren Sie das Mikrofon so nah wie möglich am Nutzer, besonders wenn Hintergrundgeräusche vorhanden sind.
- Vermeiden Sie das Übersteuern von Audiosignalen.
- Verwenden Sie keine automatische Verstärkungsregelung (automatic gain control = AGC).
- Alle Verarbeitungsmethoden zur Rauschunterdrückung sollten deaktiviert werden.
Idealerweise:
- Der Audiopegel sollte so kalibriert sein, dass das Eingabesignal nicht überschneidet wird und die Spitzenpegel von Sprachaudio etwa -20 bis -10 dBFS erreichen.
- Das Gerät sollte eine ungefähr "flache" Amplitude gegenüber den Frequenzeigenschaften (+-3 dB, 100 Hz bis 8.000 Hz) aufweisen.
- Die gesamte harmonische Verzerrung sollte bei einem Eingangspegel von 90 dB SPL bei 100 Hz bis 8.000 Hz unter 1% liegen.
Abtastrate
Stellen Sie nach Möglichkeit die Abtastrate der Audioquelle auf 16.000 Hz ein. Andernfalls sollten Sie sample_rate_hertz
so einstellen, dass sie der nativen Abtastrate der Audioquelle entspricht (statt Resampling).
Framegröße
Google Assistant erkennt Live-Audio direkt bei der Aufnahme eines Mikrofons. Der Audiostream muss in sogenannte Frames aufgeteilt und in aufeinanderfolgenden AssistRequest
-Nachrichten gesendet werden. Jede beliebige Framegröße ist zulässig. Größere Frames sind effizienter, erhöhen aber die Latenz. Eine Framegröße von 100 Millisekunden wird als guter Kompromiss zwischen Latenz und Effizienz empfohlen.
Sofern nicht anders angegeben, sind die Inhalte dieser Seite unter der Creative Commons Attribution 4.0 License und Codebeispiele unter der Apache 2.0 License lizenziert. Weitere Informationen finden Sie in den Websiterichtlinien von Google Developers. Java ist eine eingetragene Marke von Oracle und/oder seinen Partnern.
Zuletzt aktualisiert: 2025-07-26 (UTC).
[[["Leicht verständlich","easyToUnderstand","thumb-up"],["Mein Problem wurde gelöst","solvedMyProblem","thumb-up"],["Sonstiges","otherUp","thumb-up"]],[["Benötigte Informationen nicht gefunden","missingTheInformationINeed","thumb-down"],["Zu umständlich/zu viele Schritte","tooComplicatedTooManySteps","thumb-down"],["Nicht mehr aktuell","outOfDate","thumb-down"],["Problem mit der Übersetzung","translationIssue","thumb-down"],["Problem mit Beispielen/Code","samplesCodeIssue","thumb-down"],["Sonstiges","otherDown","thumb-down"]],["Zuletzt aktualisiert: 2025-07-26 (UTC)."],[[["\u003cp\u003eThis page provides recommendations for submitting speech data to the Google Assistant API for optimal performance.\u003c/p\u003e\n"],["\u003cp\u003eFor best results, use a high-quality microphone, position it close to the user, avoid audio clipping and noise reduction processing, and disable automatic gain control.\u003c/p\u003e\n"],["\u003cp\u003eIdeally, calibrate audio levels to prevent clipping, maintain a flat frequency response, and minimize harmonic distortion.\u003c/p\u003e\n"],["\u003cp\u003eSet the audio source sampling rate to 16000 Hz if possible, or match the native rate, and use a frame size of around 100 milliseconds for a balance between latency and efficiency.\u003c/p\u003e\n"]]],[],null,["# Best Practices for Audio\n\nThis page contains recommendations on how to provide speech data to the\nGoogle Assistant API. These guidelines are designed for greater efficiency\nand accuracy as well as reasonable response times from the service.\n\nAudio pre-processing\n--------------------\n\nIt's best to provide audio that is as clean as possible by using a good quality\nand well-positioned microphone. However, applying noise-reduction signal\nprocessing to the audio before sending it to the service typically reduces\nrecognition accuracy. The service is designed to handle noisy audio.\n\nFor best results:\n\n- Position the microphone as close to the user as possible, particularly when background noise is present.\n- Avoid audio clipping.\n- Do not use automatic gain control (AGC).\n- All noise reduction processing should be disabled.\n\nIdeally:\n\n- The audio level should be calibrated so that the input signal does not clip, and peak speech audio levels reach approximately -20 to -10 dBFS.\n- The device should exhibit approximately \"flat\" amplitude versus frequency characteristics (+- 3 dB 100 Hz to 8000 Hz).\n- Total harmonic distortion should be less than 1% from 100 Hz to 8000 Hz at 90 dB SPL input level.\n\nSampling rate\n-------------\n\nIf possible, set the sampling rate of the audio source to 16000 Hz. Otherwise,\nset the [`sample_rate_hertz`](/assistant/sdk/reference/rpc/google.assistant.embedded.v1alpha2#google.assistant.embedded.v1alpha2.AudioInConfig) to match the native sample rate of the audio source (instead\nof re-sampling).\n\nFrame size\n----------\n\nThe Google Assistant recognizes live audio as it is captured from a microphone.\nThe audio stream must be split into frames and sent in consecutive\n`AssistRequest` messages. Any frame size is acceptable. Larger frames are more\nefficient, but add latency. A 100-millisecond frame size is recommended as a\ngood tradeoff between latency and efficiency."]]