Umělá inteligence Mety zlepšuje kvalitu rozpoznávání řeči odezíráním ze rtů

3. 2. 2022 | Beáta Vaňková
Společnost Meta se snaží vyřešit jeden z největších problémů při rozpoznávání řeči pomocí umělé inteligence: šum v pozadí. Vytváří platformu AV-HuBERT, která by mimo jiné mohla pomáhat odhalit deepfakes.

Moderní systémy rozpoznávání řeči s umělou inteligencí nefungují vždy tak, jak by měly. Jde především o situace, kdy je v okolí hodně hluku nebo když mluví více lidí současně. Obvykle se jako řešení používají techniky potlačení šumu, které se ho snaží odfiltrovat. Ty se ale často nevyrovnají lidské schopnosti kombinovat sluch a zrak.

Řešení tohoto problému našla společnost Meta (dříve Facebook, pozn. red.)). Vytvořila nový rámec konverzační umělé inteligence nazvaný Audio-Visual Hidden Unit BERT, jehož cílem je trénovat modely umělé inteligence prostřednictvím kombinace zvuku a signálů pohybů rtů.

Dnešní modely rozpoznávání řeči používají jako vstup pouze zvuk, takže musí odhadnout, zda mluví jedna osoba či více osob najednou, nebo zda je zvuk pouze šumem v pozadí. AV-HuBERT se však učí podobně, jako si lidé osvojují nové dovednosti — tedy multisenzoricky.

Štítky dokumentu: Facebook Instagram
Sdílejte tento článek:
Podobné články: