實測阿里萬相 2.6:一張圖生成15秒分鏡大片,還有角色扮演功能!

更多實測:

嗨大家好!我是阿真!

搶到首發了!

阿里發布了萬相2.6系列模型。

其他的來不及猛猛測了,先上官方Demo

當視頻在手機上無法加載,可前往PC查看。

先說重點,主要更新點在下列幾個方面:

  1. 國內首個支持“角色扮演”功能,可以參考形象和人物音色,參考形象可以是人物、動物或者物體;
  2. 單人表現雙人合框都可以嘗試,人物音色也可以匹配;
  3. 可以多個鏡頭智能調度了,可以在一致性統一的基礎上智能分鏡;
  4. 視頻時長擴展,最長可以15秒了,分辨率最高1080P,敘事更完整,畫面也更豐富了。

現在可以將人物、動物、物體設定為角色,然后基于參考素材生成表演視頻了。在此前的AI視頻生成技術框架中,我們只能通過文本描述或單張圖片引導模型生成視頻內容,無法精確控制視頻中的角色形象。萬相2.6現在也引入了「角色扮演」能力,從根本上改變了這一創作邏輯。

設定元素為視頻主角后,輕松調用,模型會基于參考素材生成連續的表演內容。鏡頭也是有智能調度的分鏡,這個后面會提到。

此外,還有一個亮點,萬相2.6不僅能夠提取參考視頻和素材中的視覺特征,還能同步捕捉聲音特征,確保了角色生成視頻后在形象與聲音兩個維度上的一致性。現在處理多人同框對話的復雜場景的時候,角色的口型動作與各自的語音內容都能精確地對應了。

使用起來很簡單,在這里直接錄制或上傳自己錄制的視頻,然后通過@ 就可以調用了。

實測阿里萬相 2.6:一張圖生成15秒分鏡大片,還有角色扮演功能!

比如下面的女聲就是我上傳的視頻中我自己的聲音,然后參考自己的角色+音色的,后期配音就不用費老大勁了。

另外,視頻中合成的聲音也擺脫了明顯的機械感,現在的節奏和情感表達都比較趨近于真實的人聲了。

提示詞:
@Luminous_3524 站在黑板前,小聲發問:我14歲了,還沒學會微積分,以后還能當數學家嗎
@AlbertEinstein 盯著黑板看了兩秒,又看了看你,認真點頭:當然可以
@AlbertEinstein 指了指自己的頭發,補一句:你看,我到現在也沒學會梳頭

場景:老教室,黑板,粉筆灰,愛因斯坦的頭發在燈光下格外搶戲,整體輕松、荒誕、像一條冷笑話結尾

合拍包括了單人獨立表演與雙人同框合拍兩種模式,并且可以基于參考視頻中的IP形象進行視頻生成,保持角色外觀一致性,還可以同步參考輸入視頻中的聲音特征,實現聲畫匹配,也同時支持通過提示詞對視頻內容、動作、場景進行精細化控制。

AI視頻生成中的音頻處理一直是技術難點。早期模型生成的視頻都是默片,后續疊加了語音合成能力,也普遍存在口型與聲音不匹配、多人場景音色亂套、人聲質感機械麻木無感情純念稿等問題。

萬相2.6在聲畫同步方面基于之前也有針對性優化,上傳音頻,或者上傳音頻+圖片,都可以得到視頻情緒和口型音色都一致的視頻了。

比如這段,是基于我上傳《報菜名》驅動的音頻生成的視頻,只提供了圖片和音頻文件,沒有寫提示詞,它自己完成的口型匹配和音色情緒匹配,哪怕是很板正的正面圖,也加入了流暢的鏡頭切換

鏡頭智能調度是AI視頻領域的技術難題了,常規來說模型大都是擅長生成單一鏡頭的高質量畫面,一到了完成多個鏡頭的敘事角度就拉胯了。創作者制作多個鏡頭切換體現氛圍情緒的畫面的時候,往往都是一個一個鏡頭生成+剪輯。效率低、角色形象變化都是常有的事。

萬相2.6模型新的智能分鏡能力,允許我們可以通過簡潔的文本描述傳達敘事意圖,模型自動規劃鏡頭數量、景別切換及鏡頭時長分配。除了大全景或者太遠的景人物可能會糊掉以外,在從特寫到中全景的鏡頭方面的運鏡效果是較為穩定的。

另外,模型能夠在鏡頭切換過程中保持關鍵視覺信息的一致性。面部細節、服飾細節、背景環境等在鏡頭切換之間能相對比較好地維持一致性,人物變形甚至換臉的問題就大大減少了。同時,在聲畫同步上的匹配精度也是能聽出有優化了的,整體聽起來很和諧。

比如下面這個,只需要一張圖+提示詞,一次性完成寵物電臺搞笑視頻。在圖生視頻的基礎上,兩個角色的音色各有特色,細節到貓子離鏡頭遠的時候聲音會變小,鏡頭也會在發言對象說話的時候推進,整體還是比較絲滑的。

提示詞:
電影感視頻: 一只貓和一只狗一本正經地主持播客,但對話徹底跑偏,形成強烈反差喜劇。
場景1 — 開場 中遠景鏡頭,溫馨書房播客空間,書架背景,臺燈暖光,氣氛嚴肅。
場景2 — 細節 特寫鏡頭,話筒與防噴罩居中,環境安靜。
場景3 — 展開 貓咪坐得筆直,眼鏡微歪,直視前方;狗狗靠近麥克風,神情莊重。
場景4 — 強調 中景雙人鏡頭,桌面文件整齊。 狗狗說:“歡迎回來,今天我們討論責任。”
場景5 — 動態 鏡頭緩慢推進,貓咪微微轉向麥克風。 貓咪說:“我需要先聲明,這件事和我無關?!?
場景6 — 變奏 狗狗緩慢點頭,語氣冷靜。 他說:“沒錯,沒有人看到他動手?!?
場景7 — 變奏 貓咪調整坐姿,停頓一下。 他說:“而且,是那盆植物先挑釁我的?!?
場景8 — 高潮 更近的雙人鏡頭,短暫安靜。 狗狗總結:“本節目不接受任何追問。”
場景9 — 收尾 兩只動物同時看向鏡頭,保持專業沉默,麥克風立在中間。

視頻生成時長是衡量AI視頻模型能力邊界的重要指標之一。時長越長,模型就越需要在更大的時間跨度內維持畫面質量、運動連貫性及語義一致性,技術難度直接指數級上去了。

萬相2.6現在已將文生視頻與圖生視頻的生成時長提升至15秒,參考生視頻模式下的生成時長為10秒。15秒的連續視頻時長,可以輸出一個具備起承轉合的微型故事。對于短視頻平臺的內容創作者而言,這意味著幾乎可以直接生成一條完整的成品內容了。

當視頻在手機上無法加載,可前往PC查看。
提示詞:總體描述:這是一個硬科幻風格的短片,講述一名老年宇航員在荒蕪星球上完成最后使命的片段,主題是時間、孤獨與文明的余暉。
第1個鏡頭 [0–2秒]固定中近景,老年宇航員站在廢棄飛船前,面部細節清晰,風沙緩慢掠過他的肩部,他直視遠方,沒有說話,眼神沉靜而堅定。
第2個鏡頭 [2–4秒]硬切到特寫鏡頭,聚焦他的眼睛與臉部傷痕,細小塵埃在光線中漂浮,他緩緩眨眼,仿佛在回憶過去。
第3個鏡頭 [4–6秒]切至側面半身鏡頭,老年宇航員微微低頭,抬手觸碰胸前的宇航服接口裝置,金屬表面布滿磨損痕跡。
第4個鏡頭 [6–8秒]拉遠鏡頭,展示完整場景:孤獨的宇航員站在荒涼星球地表,破舊飛船作為背景,天空空曠冷清,他的身影顯得渺小卻堅定。

萬相2.6新模型這次從多個維度上進行了更新,每個功能也是在對應著專業影視創作流程中的核心的需求。甚至部分能力是有明顯的差異化優勢的,比如角色參考中的聲畫同步完成度,和多人合拍的配音也不串味不混淆等等。

相信未來在多個領域會有很多非常剛需的場景可以靠萬相2.6實現,比如用在短視頻、廣告、影視前期和虛擬 IP 等多種場景中,創作者或品牌只需使用固定的人物或形象素材,就能快速生成多條風格統一的視頻內容,減少反復制作的時間和成本。自動畫面順序和節奏,會相對降低剪輯和配音的工作量,讓團隊把更多精力放在內容想法和整體效果上,也更方便在早期就理清視頻呈現是否合適。

萬相2.6系列模型現已開放使用,已經在以下渠道上線:

阿里云百煉:https://bailian.console.aliyun.com/?tab=model#/model-market/all?providers=wan

萬相官網: https://tongyi.aliyun.com/wan/

好了,今天的最新快速資訊就到這里,感興趣的朋友們可以前往體驗,有更多玩法和經驗,歡迎一起交流討論。

期待大家的猛猛三連鼓勵,下期見~

收藏 2
點贊 13

復制本文鏈接 文章為作者獨立觀點不代表優設網立場,未經允許不得轉載。