When Scaling Fails: Mitigating Audio Perception Decay of LALMs via Multi-Step Perception-Aware Reasoning

When Scaling Fails: Mitigating Audio Perception Decay of LALMs via Multi-Step Perception-Aware Reasoning

Wenn Skalierung scheitert: Minderung des wahrgenommenen Audiosinns von LALMs durch mehrstufiges, wahrnehmungsbewusstes Reasoning

Test-Time-Scaling hat gezeigt, dass Skalierung der Inferenzberechnung bei komplexen Problemen wirksam sein kann. Innerhalb von Large Audio-Language Models (LALMs) existiert jedoch ein unintuitives Phänomen: nach dem Training für strukturierte Reasoning-Verläufe erzielt man nur geringe oder sogar negative Zuwächse im Vergleich zum Nach-Training für direkte Antworten. Um dies zu untersuchen, führen wir CAFE ein, ein Bewertungsrahmenwerk, das darauf ausgelegt ist, Audio-Reasoning-Fehler präzise zu quantifizieren. Die Bewertungsergebnisse zeigen, dass LALMs während des Reasonings Schwierigkeiten mit der Wahrnehmung haben und auf einen kritischen Engpass stoßen: Die Leistungsfähigkeit des Reasonings leidet unter dem Abbau der Audios Wahrnehmung, je länger das Reasoning dauert. Um dem entgegenzuwirken, schlagen wir MPAR^2 vor, ein Paradigma, das dynamisches perceptual reasoning fördert und komplexe Fragen in wahrnehmungsreiche Teilprobleme zerlegt. Durch den Einsatz von Reinforcement Learning verbessert MPAR^2 die Wahrnehmungsleistung auf CAFE von 31,74% auf 63,51% und mildert effektiv den Wahrnehmungsabbau, während gleichzeitig die Reasoning-Fähigkeiten verbessert werden, um eine signifikante Genauigkeit von 74,59% im MMAU-Benchmark zu erreichen. Weitere Analysen zeigen, dass MPAR^2 LALMs stärkt, um auf Audioeingaben zu achten, und das Reasoning-Budget dynamisch an die Komplexität der Aufgabe anpasst.

HI-FI News

via Artificial Intelligence https://ift.tt/Z5bxUg6

4. März 2026 um 04:16 Uhr

March 4, 2026 at 04:16AM