生數科技在兩個月內有如此提升已經是視頻算法和工程能力上的突破,但在同等性能表現下追平Sora的有那1分鐘時長,還有較長的國產最強一段路要走 。
伍洋宇 ·
圖片來源 :匡達
界面新聞 | 伍洋宇
界面新聞編輯 | 文姝琪
大模型領域最熱話題又重新回到視頻模型上,對標大模因為一家創業公司被認為做出了“最強國產Sora”。視頻
4月27日,有那在中關村論壇未來人工智能先鋒論壇上,國產最強生數科技聯合清華大學發布了具有“長時長、對標大模高一致性、視頻高動態性”性能標簽的有那視頻大模型Vidu ,可根據文本描述直接生成長達16秒、國產最強分辨率達1080P的對標大模高清視頻內容 。
高一致性是視頻團隊著重強調的特點。清華大學人工智能研究院副院長、生數科技首席科學家朱軍表示,當前國內視頻大模型的生成視頻時長大多為4秒左右,Vidu則可實現一次性生成16秒的視頻時長 。同時 ,視頻畫面能保持連貫流暢,隨著鏡頭移動,人物和場景在時間、空間中能保持高一致性。
在動態性方面 ,Vidu的動態鏡頭在推 、拉、移之外,開始涉及一段畫面中遠景、近景、中景、特寫等鏡頭的切換 ,以及直接生成長鏡頭、追焦和轉場效果。物理規律方面 ,朱軍介紹稱 ,Vidu可以模擬真實物理世界中細節復雜且符合物理規律的場景,例如合理的光影效果、細膩的人物表情等 ,還可生成具有深度和復雜性的超現實主義內容(例如“戴珍珠耳環的貓”) 。
在生數科技放出的視頻物料中,的確有不少用戶反饋認可其時間與空間上的一致性表現 ,而這是視頻模型在長時長內容生成上需要克服的關鍵問題 。
一致性表現不能獨立于視頻時長以外單獨討論 。目前,Vidu對外公布的時長上限是16秒 ,Sora最大時長則是1分鐘 。今年2月Sora推出后,生數科技內部成立了攻堅小組,加快原本視頻方向的研發進度。3月 ,內部實現8秒的視頻生成,并在4月提升到16秒生成 ,但團隊沒有公布更多技術突破的細節 。
一名從事多模態大模型開發的技術人士對界面新聞表示 ,時長不是最關鍵因素 ,因為單一場景只要運鏡足夠慢 ,時長是可控的。Sora當初的驚艷之處主要在于展示了純模型進行多場景拼接的能力,以及大尺度多視角下總體上生成的視頻符合客觀物理規律的能力。
但這一點在Vidu的視頻里沒有得到充分展示,“每個鏡頭長度較短,且沒有復雜語義切換的元素 。”他表示,Vidu總體上相比目前的開源方案主要提升了時空分辨率 ,但沒有本質差異。
從已有信息來看 ,技術路線上 ,Vidu采用的是自研U-ViT架構 ,與Sora一樣是Diffusion和Transformer的融合架構 。這種架構不采用插幀的多步驟處理方式來生成視頻,而是通過單一步驟“端到端”直接生成內容,從文本到視頻的轉換是直接、連續的。
這意味著,Vidu同樣繞不開模型訓練的Scaling Law(規模法則),需要不斷堆積更大參數和更多算力。
算力限制之外 ,一名有多模態大模型訓練經驗的創業者對界面新聞表示 ,生成數據的差距是國內視頻大模型與Sora之間的重要差別 。視頻大模型需要大量的數據收集,其路線是一個逐漸細化和確定的過程 。從實現上來講,這是一個確定性事件,但需要一定時間。
因此,盡管生數科技在兩個月內有如此提升已經是算法和工程能力上的突破,但在同等性能表現下追平Sora的1分鐘時長,真正做到全面對標Sora,必然還有較長的一段路要走——至少不是“兩倍于兩個月”這樣簡單的線性估算 。
“16秒跟1分鐘,看起來大概差四倍,但中間的誤差累計到后面可能不只是四倍的算力或者工程能力能彌補的。”一名大模型領域投資人對界面新聞表示 。
他同時指出,其實Vidu和Sora一樣 ,目前釋放的素材并不足夠多 ,從其發布的物料來看一致性表現的確不錯,但還是很難做出更準確的判斷。
在這一視角下,Vidu與Sora可直接比較的維度或許更多在于以鏡頭語言為代表的動態性,以及對物理世界規律的理解與模擬能力等方面。而長時長與一致性構成的核心性能,還需要等待后續版本迭代做進一步比較 。