在視頻擴散生成領(lǐng)域,如何精準(zhǔn)操控視頻中的運動細(xì)節(jié)而又不犧牲畫面質(zhì)量,一直是研究者共同追逐的目標(biāo)。
來自 Neflix、Stony Brook 大學(xué)等機構(gòu)的研究人員創(chuàng)新性地提出通過結(jié)構(gòu)化的潛在噪聲采樣控制運動。
實現(xiàn)方法很簡單,只要對訓(xùn)練視頻做預(yù)處理,生成結(jié)構(gòu)化噪聲。這一過程不涉及擴散模型的設(shè)計,無需改變其架構(gòu)和訓(xùn)練流程。
研究提出了一種全新的噪聲扭曲算法,速度超快,能實時運行。它用光流場推導(dǎo)的扭曲噪聲,取代隨機的時序高斯噪聲,同時保持了空間高斯性。由于算法高效,能用扭曲噪聲以極小的成本微調(diào)視頻擴散基礎(chǔ)模型。
這為用戶提供了全面的運動控制方案,可用于局部物體運動控制、全局?jǐn)z像機運動控制以及運動遷移等場景。
此外,算法兼顧了扭曲噪聲的時序一致性和空間高斯性,既能保證每幀畫面的像素質(zhì)量,又能有效控制運動。
論文鏈接:https://arxiv.org/pdf/2501.08331
本研究的貢獻如下:
創(chuàng)新的視頻擴散模型解決方案:提出一種簡單新穎的方法,將運動控制轉(zhuǎn)化為可用于噪聲變形的流場,在潛在空間采樣時能直接使用。它不僅能與任意視頻擴散基礎(chǔ)模型搭配,還可和其他控制方式協(xié)同使用。
高效的噪聲變形算法:研發(fā)出高效的噪聲變形算法,它既能保持空間高斯性,又能追蹤跨幀的時間運動流。這讓微調(diào)運動可控的視頻擴散模型時,花費的成本最小,操作也更方便。
實驗和用戶研究充分驗證了該方法在各類運動控制應(yīng)用中的優(yōu)勢。這些應(yīng)用涵蓋局部物體運動控制、運動傳遞到新場景、基于參考的全局相機運動控制等。在像素質(zhì)量、可控性、時間連貫性以及用戶主觀偏好等方面,表現(xiàn)十分優(yōu)異。
Go-with-the-Flow
當(dāng)前的視頻擴散模型存在局限性,研究者提出了一種創(chuàng)新且簡單的方法,旨在把運動控制當(dāng)作結(jié)構(gòu)化組件,融入到視頻擴散模型潛在空間的無序狀態(tài)中。
具體實現(xiàn)方式是關(guān)聯(lián)潛在噪聲的時間分布。
先從二維高斯噪聲片入手,把它和根據(jù)訓(xùn)練視頻樣本提取的光流場算出來的扭曲噪聲片,按照時間順序連接起來。下圖清晰展示了該方法的流程。
Copyright 2025 //www.ahlmtdl.com/ 版權(quán)所有 豫ICP備2021037741號-1 網(wǎng)站地圖