Технологія бере зображення людини або навіть її малюнок, а також наявний аудіофайл, щоб створити з них реалістичне відео з обличчям, що розмовляє чи співає.

ШІ може генерувати вирази та рухи голови, а також відповідні рухи губ, щоб відповідати вимовленим словам або пісні.

У компанії розуміють, що інструмент можуть використовувати для створення діпфейків реальних людей. Через це Microsoft вирішила поки що не випускати онлайн-демонстрацію чи API, доки не переконається в належному використанні технології.