Of het nu gaat om meerdere vergaderingen in een kleine ruimte, luid spelende kinderen in de buurt of bouwlawaai buiten uw thuiskantoor, ongewenste achtergrondgeluiden kunnen vreselijk storend zijn tijdens Teams-vergaderingen. Microsoft zou Microsoft niet zijn als ze hier niet een oplossing voor hebben gevonden. Deze week kondigden ze aan dat gebruikers de mogelijkheid hebben om ongewenste achtergrondgeluiden te verwijderen tijdens hun gesprekken en meetings met hun nieuwe AI-gebaseerde optie voor ruisonderdrukking.
Gebruikers kunnen deze handige nieuwe functie inschakelen door hun apparaatinstellingen aan te passen voor hun gesprek of vergadering en “Hoog” te selecteren in het “Ruisonderdrukking” dropdown-menu.
LET OP: Deze functie momenteel alleen wordt ondersteund in de Teams Windows-desktopclient. Zie dit artikel voor details over het inschakelen van ruisonderdrukking en meer hier:
Achtergrond-geluiden dempen.
Op AI-gebaseerde ruisonderdrukking
De nieuwe functie voor ruisonderdrukking analyseert de audiofeed van een persoon en gebruikt speciaal getrainde diepe neurale netwerken om ruis weg te filteren en alleen spraak vast te houden. Terwijl traditionele algoritmen voor ruisonderdrukking alleen eenvoudige stationaire ruisbronnen kunnen aanpakken, zoals een consistent ventilatorgeluid, leert deze op AI-gebaseerde benadering het verschil tussen spraak en onnodig lawaai en is in staat om verschillende niet-stationaire geluiden te onderdrukken, zoals typen op het toetsenbord of het geluid van het uitpakken van voedselverpakking. Met het toegenomen werk vanuit huis als gevolg van de COVID-19-pandemie, komen geluiden zoals stofzuigen, de gelijktijdige schoolles van uw kind of keukengeluiden vaker voor, maar worden effectief verwijderd door deze nieuwe AI-gebaseerde ruisonderdrukking, zoals geïllustreerd in de onderstaande video.
De op AI-gebaseerde ruisonderdrukking is gebaseerd op machine learning (ML) om het verschil tussen zuivere spraak en ruis te leren. Het is essentieel om het ML-model te trainen op een representatieve dataset om ervoor te zorgen dat het werkt in alle situaties die de gebruikers van Microsoft Teams ervaren. Er moet voldoende diversiteit zijn in de dataset wat betreft zuivere spraak, de soorten lawaai en de omgevingen van waaruit de gebruikers deelnemen aan onlinevergaderingen.
Spraakdata en diversiteit
Om deze dataset-diversiteit te bereiken, heeft Microsoft een grote dataset gemaakt met ongeveer 760 uur schone spraakdata en 180 uur ruisdata. Om te voldoen aan de strikte privacynormen van Microsoft zelf, hebben ze ervoor gezorgd dat er geen klantgegevens worden verzameld voor deze dataset. In plaats daarvan hebben ze ofwel openbaar beschikbare gegevens of crowdsourcing gebruikt om specifieke scenario’s te verzamelen. Voor zuivere spraak werd ervoor gezorgd dat er een balans is tussen vrouwelijke en mannelijke spraak en werden er gegevens verzameld uit meer dan 10 talen die ook tonale talen bevatten om ervoor te zorgen dat het gebruikte model de betekenis van een zin niet verandert door de toon van de woorden te vervormen. Voor de geluidsgegevens zijn er 150 soorten geluid opgenomen om ervoor te zorgen dat er verschillende scenario’s zijn afgedekt die de gebruikers kunnen tegenkomen, van typen op het toetsenbord tot toiletspoeling of snurken. Een ander belangrijk aspect was om emoties op te nemen in onze zuivere spraak, zodat uitdrukkingen zoals lachen of huilen niet worden onderdrukt. De kenmerken van de omgeving van waaruit gebruikers deelnemen aan hun online Teams-vergaderingen, hebben ook een sterke invloed op het spraaksignaal. Om die diversiteit vast te leggen, hebben ze het model getraind met gegevens uit meer dan 3.000 echte kameromgevingen en meer dan 115.000 synthetisch gemaakte kamers.
Omdat deep learning word gebruikt, is het belangrijk om een krachtige modeltrainings-infrastructuur te hebben. Microsoft Azure wordt gebruikt, zodat het team verbeterde versies van de ML-model kan ontwikkelen. Een andere uitdaging is dat de extractie van originele zuivere spraak uit het lawaai moet gebeuren op een manier die het menselijk oor als natuurlijk en aangenaam ervaart. Omdat er geen objectieve metrieken zijn die sterk gecorreleerd zijn met de menselijke perceptie, hebben de engineers van Microsoft een raamwerk ontwikkeld, waarmee ze de verwerkte audiofragmenten naar crowdsourcing-leveranciers konden sturen, waar menselijke luisteraars hun audiokwaliteit beoordeelden op een schaal van één tot vijf sterren om gemiddelde opiniescores te produceren. Met deze menselijke beoordelingen waren ze in staat om een nieuwe perceptuele metriek te ontwikkelen die hen, samen met de subjectieve menselijke beoordelingen, in staat stelde om snel vooruitgang te boeken bij het verbeteren van de kwaliteit van onze deep learning-modellen.
Om het onderzoek op dit gebied vooruit te helpen, heeft Microsoft de dataset en het crowdsourcing-framework voor perceptuele kwaliteit open source gemaakt. Dit was de basis van twee competities die we organiseerden als onderdeel van de Interspeech 2020- en ICASSP 2021-conferenties, zoals hier beschreven: https://www.microsoft.com/en-us/research/dns-challenge/home/
Ten slotte hebben ze ervoor gezorgd dat het deep learning-model in realtime efficiënt op de Teams-client kan draaien. Door te optimaliseren voor menselijke waarneming, waren ze in staat om een goede afweging te maken tussen kwaliteit en complexiteit, wat ervoor zorgt dat de meeste Windows-apparaten die klanten gebruiken, kunnen profiteren van deze AI-gebaseerde ruisonderdrukking. Het team van Microsoft werkt er momenteel aan om deze functie ook naar Mac en mobiele platforms te brengen.
Op AI gebaseerde ruisonderdrukking is een voorbeeld van hoe de deep learning-technologie van Microsoft een grote impact heeft op de kwaliteit van de ervaring van onze klanten.