最新動態(tài)

《國產全AI游戲來了?大模型直接打造開放世界互動游戲》

2025-01-16

我們正逐步邁向一個普通人僅憑創(chuàng)意就能輕松制作游戲的新時代。

今年以來,AI游戲生成技術不斷取得突破,而國內游戲AI團隊也于近日交出了一份令人矚目的答卷。

巨人網絡推出了“千影 QianYing”有聲游戲生成大模型,涵蓋游戲視頻生成大模型YingGame和視頻配音大模型YingSound。

用戶只需提供一段文字或一張圖片,即可生成具備開放世界游戲特性的視頻,并且這些視頻不僅有聲音,還支持交互,能操控角色完成多種動作。

無需游戲引擎的開放世界游戲體驗

簡而言之,YingGame是一個專為開放世界游戲打造的視頻生成大模型。其研發(fā)團隊包括巨人網絡AI Lab和清華大學SATLab,實現(xiàn)了對游戲角色多樣動作的交互控制、自定義角色創(chuàng)建,同時在游戲物理仿真方面表現(xiàn)出色。

逼真的物理規(guī)律模擬

從生成的視頻來看,無論是汽車碰撞、火焰燃燒等宏大場景,還是水中漫步、自動繞過障礙物等細節(jié),都展現(xiàn)出高度遵循物理規(guī)律的效果。

豐富的動作交互

交互性是游戲的核心要素之一,YingGame能夠解析用戶的輸入,如文本、圖像或鼠標、鍵盤操作信號,使玩家可以自由控制游戲角色的動作。

視頻展示了角色進行射擊、變身、施法、使用道具、攀爬、匍匐、跑跳等多種肢體動作的交互過程,相較于其他同類模型更加流暢自然。

個性化角色與精細控制

YingGame允許用戶上傳一張角色圖片以實現(xiàn)角色的自定義生成,同時提供了對角色主體的精細化控制,實現(xiàn)了從AI捏臉到AI捏人的跨越。

第一人稱視角帶來的沉浸感

此外,該模型還能生成第一人稱視角的游戲畫面,這種視角為玩家?guī)砹藦娏业某两小?/p>

背后的技術原理

從技術角度分析,YingGame通過整合跨模態(tài)特征、細粒度角色表征、運動增強以及多階段訓練策略,并建立高效、高質量的游戲視頻訓練數據生產管線,賦予了生成內容可交互性、多樣化動作控制、角色自定義與精細主體控制、復雜運動與動作連續(xù)性等特點。

在交互功能的實現(xiàn)上,YingGame引入了多個Interactive Network模塊:用于理解用戶輸入的多模態(tài)交互方式的多模態(tài)交互網絡 — MMIN (Multi-Modal Interactive Network);負責生成復雜連續(xù)角色動作的動作網絡 — IMN (Interactive Motion Network);用于自定義角色生成并提升角色質量的角色網絡 — ICN (Interactive Character Network)。

為了構建高質量的訓練數據,巨人AI團隊精心設計了一套高效的游戲視頻數據處理流程:

根據場景和高光片段挑選優(yōu)質視頻,并從中提取音頻信息作為V2A訓練集;基于運動得分、美學評分等因素篩選視頻;采用vLLM-based video caption方法,并利用clip score進行文本視頻對齊評分過濾;執(zhí)行多任務數據處理,例如分割、主體檢測、姿態(tài)估計、深度估計、相機運動估計等。

開啟有聲AI游戲新時代

除了YingGame之外,巨人還推出了一款針對視頻配音場景的多模態(tài)音效生成大模型 YingSound。

此前,AI游戲生成領域尚未實現(xiàn)這一功能,而“聲音”對于游戲來說至關重要。

YingSound由巨人網絡AI Lab、西工大ASLP Lab和浙江大學聯(lián)合開發(fā),其最突出的能力在于:為無聲視頻添加精準匹配的音效,確保音畫同步。

YingSound擁有卓越的時間對齊能力和視頻語義理解能力,能夠生成多種類型的高精度音效,并適用于廣泛的應用場景,如游戲視頻、動漫視頻、真實世界視頻、AI生成視頻等。

出色的視頻畫面理解能力

讓我們看看一段游戲配音示例。通過演示視頻可以看出,該模型能夠準確生成與場景相符的音效,如開鏡、炮轟、射擊等聲音,生動再現(xiàn)了坦克進攻與士兵防守射擊的場面,營造出沉浸式的游戲氛圍。

△視頻源自 《戰(zhàn)地游戲》錄屏

在動漫場景中,模型展現(xiàn)了對復雜劇情的強大理解力。例如,在一段鳥兒互相扔蛋的動畫里,模型生成了從驚訝到扔蛋、蛋飛行軌跡、接住蛋等一系列節(jié)奏感十足且貼合視頻內容的音效。

△視頻源自 動畫《Boom》片段

再看一個小球快速移動的畫面,模型生成的聲音完美契合畫面動態(tài)變化,根據不同狀態(tài)產生相應的場景音效,充分體現(xiàn)了其對動畫內容的深刻理解。

△視頻源自 3D動畫短片《The Marble》片段

在真實世界場景中,通過對一段激烈的乒乓球對戰(zhàn)視頻的處理,模型精確捕捉每次擊球產生的音效,甚至模擬出球員跑動時鞋底與地面摩擦的聲音,這表明 YingSound 在視頻整體語義理解和音效生成方面表現(xiàn)優(yōu)異。

測評結果優(yōu)異

研究團隊公開了 YingSound 的兩個核心組件:基于 DiT 的 Flow-Matching 音效生成模塊,以及多模態(tài)思維鏈(Multi-modal CoT)控制模塊,為音效生成提供了強有力的支持。

在音效生成模塊中,團隊基于 DiT 的 Flow-Matching 框架,創(chuàng)新性地提出了音頻-視覺融合結構(Audio-Vision Aggregator, AVA)。該模塊通過動態(tài)融合高分辨率視覺與音頻特征,確??缒B(tài)對齊效果。借助多階段訓練策略,從 T2A 到 V2A 逐步過渡,采用不同數據配比進行訓練,使模型具備從文本、視頻或兩者結合生成高質量音效的能力。

同時,團隊設計了多模態(tài)視頻-音頻鏈式思維結構(Multi-modal CoT),結合強化學習實現(xiàn)少樣本情況下音效生成的精細控制,適用于短視頻、動漫及游戲等多種配音場景。


團隊精心構建了一個符合行業(yè)標準的V2A(video-to-audio)數據集,涵蓋了電影、游戲、廣告等多個領域的音視頻素材。為確保數據質量,研究團隊制定了一套嚴格的數據處理流程,涉及數據收集、標注、過濾和剪輯。針對不同視頻類型的復雜性和差異性,團隊基于多模態(tài)大語言模型(MLLMs)及人工標注,完成了時間戳和聲音事件的高質量標注。同時,通過嚴格篩選,排除了背景音樂干擾及音視頻不同步的內容,最終生成符合行業(yè)標準要求的訓練數據,為后續(xù)研究與開發(fā)奠定了堅實基礎。


根據客觀指標評估,YingSound 大模型在整體效果、時間對齊和視頻語義理解等方面均達到業(yè)內領先水平。

長遠來看,視頻生成技術因其展現(xiàn)的巨大潛力,可能會對游戲產業(yè)帶來革命性的變革。

未來,僅靠文字描述就能創(chuàng)作出一款游戲將不再是夢想。隨著該領域的快速發(fā)展,AI將賦予游戲創(chuàng)作更多可能性,創(chuàng)作者們的想象力或許將成為唯一的限制因素。

今年年初,史玉柱曾表示巨人網絡正在探索打造一個AI游戲孵化平臺,旨在降低游戲制作門檻,讓更多人能夠參與其中。如今,他們已經提交了首份成果,期待他們在AI游戲賽道上的更多精彩表現(xiàn)。