
最新動態(tài)
《國產(chǎn)全AI游戲來了?大模型直接打造開放世界互動游戲》
2025-01-16我們正逐步邁向一個普通人僅憑創(chuàng)意就能輕松制作游戲的新時代。
今年以來,AI游戲生成技術(shù)不斷取得突破,而國內(nèi)游戲AI團(tuán)隊也于近日交出了一份令人矚目的答卷。
巨人網(wǎng)絡(luò)推出了“千影 QianYing”有聲游戲生成大模型,涵蓋游戲視頻生成大模型YingGame和視頻配音大模型YingSound。
用戶只需提供一段文字或一張圖片,即可生成具備開放世界游戲特性的視頻,并且這些視頻不僅有聲音,還支持交互,能操控角色完成多種動作。
無需游戲引擎的開放世界游戲體驗
簡而言之,YingGame是一個專為開放世界游戲打造的視頻生成大模型。其研發(fā)團(tuán)隊包括巨人網(wǎng)絡(luò)AI Lab和清華大學(xué)SATLab,實現(xiàn)了對游戲角色多樣動作的交互控制、自定義角色創(chuàng)建,同時在游戲物理仿真方面表現(xiàn)出色。
逼真的物理規(guī)律模擬
從生成的視頻來看,無論是汽車碰撞、火焰燃燒等宏大場景,還是水中漫步、自動繞過障礙物等細(xì)節(jié),都展現(xiàn)出高度遵循物理規(guī)律的效果。

豐富的動作交互
交互性是游戲的核心要素之一,YingGame能夠解析用戶的輸入,如文本、圖像或鼠標(biāo)、鍵盤操作信號,使玩家可以自由控制游戲角色的動作。
視頻展示了角色進(jìn)行射擊、變身、施法、使用道具、攀爬、匍匐、跑跳等多種肢體動作的交互過程,相較于其他同類模型更加流暢自然。

個性化角色與精細(xì)控制
YingGame允許用戶上傳一張角色圖片以實現(xiàn)角色的自定義生成,同時提供了對角色主體的精細(xì)化控制,實現(xiàn)了從AI捏臉到AI捏人的跨越。

第一人稱視角帶來的沉浸感
此外,該模型還能生成第一人稱視角的游戲畫面,這種視角為玩家?guī)砹藦?qiáng)烈的沉浸感。

背后的技術(shù)原理
從技術(shù)角度分析,YingGame通過整合跨模態(tài)特征、細(xì)粒度角色表征、運動增強(qiáng)以及多階段訓(xùn)練策略,并建立高效、高質(zhì)量的游戲視頻訓(xùn)練數(shù)據(jù)生產(chǎn)管線,賦予了生成內(nèi)容可交互性、多樣化動作控制、角色自定義與精細(xì)主體控制、復(fù)雜運動與動作連續(xù)性等特點。
在交互功能的實現(xiàn)上,YingGame引入了多個Interactive Network模塊:用于理解用戶輸入的多模態(tài)交互方式的多模態(tài)交互網(wǎng)絡(luò) — MMIN (Multi-Modal Interactive Network);負(fù)責(zé)生成復(fù)雜連續(xù)角色動作的動作網(wǎng)絡(luò) — IMN (Interactive Motion Network);用于自定義角色生成并提升角色質(zhì)量的角色網(wǎng)絡(luò) — ICN (Interactive Character Network)。

為了構(gòu)建高質(zhì)量的訓(xùn)練數(shù)據(jù),巨人AI團(tuán)隊精心設(shè)計了一套高效的游戲視頻數(shù)據(jù)處理流程:
根據(jù)場景和高光片段挑選優(yōu)質(zhì)視頻,并從中提取音頻信息作為V2A訓(xùn)練集;基于運動得分、美學(xué)評分等因素篩選視頻;采用vLLM-based video caption方法,并利用clip score進(jìn)行文本視頻對齊評分過濾;執(zhí)行多任務(wù)數(shù)據(jù)處理,例如分割、主體檢測、姿態(tài)估計、深度估計、相機(jī)運動估計等。
開啟有聲AI游戲新時代
除了YingGame之外,巨人還推出了一款針對視頻配音場景的多模態(tài)音效生成大模型 YingSound。
此前,AI游戲生成領(lǐng)域尚未實現(xiàn)這一功能,而“聲音”對于游戲來說至關(guān)重要。
YingSound由巨人網(wǎng)絡(luò)AI Lab、西工大ASLP Lab和浙江大學(xué)聯(lián)合開發(fā),其最突出的能力在于:為無聲視頻添加精準(zhǔn)匹配的音效,確保音畫同步。
YingSound擁有卓越的時間對齊能力和視頻語義理解能力,能夠生成多種類型的高精度音效,并適用于廣泛的應(yīng)用場景,如游戲視頻、動漫視頻、真實世界視頻、AI生成視頻等。
出色的視頻畫面理解能力
讓我們看看一段游戲配音示例。通過演示視頻可以看出,該模型能夠準(zhǔn)確生成與場景相符的音效,如開鏡、炮轟、射擊等聲音,生動再現(xiàn)了坦克進(jìn)攻與士兵防守射擊的場面,營造出沉浸式的游戲氛圍。
△視頻源自 《戰(zhàn)地游戲》錄屏
在動漫場景中,模型展現(xiàn)了對復(fù)雜劇情的強(qiáng)大理解力。例如,在一段鳥兒互相扔蛋的動畫里,模型生成了從驚訝到扔蛋、蛋飛行軌跡、接住蛋等一系列節(jié)奏感十足且貼合視頻內(nèi)容的音效。
△視頻源自 動畫《Boom》片段
再看一個小球快速移動的畫面,模型生成的聲音完美契合畫面動態(tài)變化,根據(jù)不同狀態(tài)產(chǎn)生相應(yīng)的場景音效,充分體現(xiàn)了其對動畫內(nèi)容的深刻理解。
△視頻源自 3D動畫短片《The Marble》片段
在真實世界場景中,通過對一段激烈的乒乓球?qū)?zhàn)視頻的處理,模型精確捕捉每次擊球產(chǎn)生的音效,甚至模擬出球員跑動時鞋底與地面摩擦的聲音,這表明 YingSound 在視頻整體語義理解和音效生成方面表現(xiàn)優(yōu)異。
測評結(jié)果優(yōu)異
研究團(tuán)隊公開了 YingSound 的兩個核心組件:基于 DiT 的 Flow-Matching 音效生成模塊,以及多模態(tài)思維鏈(Multi-modal CoT)控制模塊,為音效生成提供了強(qiáng)有力的支持。
在音效生成模塊中,團(tuán)隊基于 DiT 的 Flow-Matching 框架,創(chuàng)新性地提出了音頻-視覺融合結(jié)構(gòu)(Audio-Vision Aggregator, AVA)。該模塊通過動態(tài)融合高分辨率視覺與音頻特征,確??缒B(tài)對齊效果。借助多階段訓(xùn)練策略,從 T2A 到 V2A 逐步過渡,采用不同數(shù)據(jù)配比進(jìn)行訓(xùn)練,使模型具備從文本、視頻或兩者結(jié)合生成高質(zhì)量音效的能力。
同時,團(tuán)隊設(shè)計了多模態(tài)視頻-音頻鏈?zhǔn)剿季S結(jié)構(gòu)(Multi-modal CoT),結(jié)合強(qiáng)化學(xué)習(xí)實現(xiàn)少樣本情況下音效生成的精細(xì)控制,適用于短視頻、動漫及游戲等多種配音場景。

團(tuán)隊精心構(gòu)建了一個符合行業(yè)標(biāo)準(zhǔn)的V2A(video-to-audio)數(shù)據(jù)集,涵蓋了電影、游戲、廣告等多個領(lǐng)域的音視頻素材。為確保數(shù)據(jù)質(zhì)量,研究團(tuán)隊制定了一套嚴(yán)格的數(shù)據(jù)處理流程,涉及數(shù)據(jù)收集、標(biāo)注、過濾和剪輯。針對不同視頻類型的復(fù)雜性和差異性,團(tuán)隊基于多模態(tài)大語言模型(MLLMs)及人工標(biāo)注,完成了時間戳和聲音事件的高質(zhì)量標(biāo)注。同時,通過嚴(yán)格篩選,排除了背景音樂干擾及音視頻不同步的內(nèi)容,最終生成符合行業(yè)標(biāo)準(zhǔn)要求的訓(xùn)練數(shù)據(jù),為后續(xù)研究與開發(fā)奠定了堅實基礎(chǔ)。

根據(jù)客觀指標(biāo)評估,YingSound 大模型在整體效果、時間對齊和視頻語義理解等方面均達(dá)到業(yè)內(nèi)領(lǐng)先水平。

長遠(yuǎn)來看,視頻生成技術(shù)因其展現(xiàn)的巨大潛力,可能會對游戲產(chǎn)業(yè)帶來革命性的變革。
未來,僅靠文字描述就能創(chuàng)作出一款游戲?qū)⒉辉偈菈粝搿kS著該領(lǐng)域的快速發(fā)展,AI將賦予游戲創(chuàng)作更多可能性,創(chuàng)作者們的想象力或許將成為唯一的限制因素。
今年年初,史玉柱曾表示巨人網(wǎng)絡(luò)正在探索打造一個AI游戲孵化平臺,旨在降低游戲制作門檻,讓更多人能夠參與其中。如今,他們已經(jīng)提交了首份成果,期待他們在AI游戲賽道上的更多精彩表現(xiàn)。