<strong id="ctjbx"></strong>

  1. <strong id="ctjbx"></strong>
    <ruby id="ctjbx"></ruby>

    【播資訊】AI視頻「閃爍」難題攻破!輕松改變視頻風(fēng)格,北大校友一作

    來(lái)源:量子位時(shí)間:2023-06-16 23:42:53

    蕭簫 發(fā)自 凹非寺量子位 | 公眾號 QbitAI

    AI拍視頻,竟然已經(jīng)絲滑到這個(gè)程度了嗎?


    (資料圖)

    輸入一段視頻,念上一段“咒語(yǔ)”,AI瞬間就能秒懂,并當場(chǎng)給你把視頻重畫(huà)一遍:

    不僅完美hold住各類(lèi)風(fēng)格,最關(guān)鍵的是,幀幀絲滑流暢。

    就連建筑物這種細節較多的視頻,也幾乎看不出“AI出品”的bug:

    目前,無(wú)論是拍視頻還是制作動(dòng)畫(huà),依靠的都是“關(guān)鍵幀”。如果幀與幀之間聯(lián)系不緊密,就會(huì )出現這種詭異的“閃爍畫(huà)風(fēng)”——

    而這也是AI生成視頻最大的瓶頸之一。

    現在,來(lái)自南洋理工大學(xué)的團隊,終于解決了這個(gè)問(wèn)題,研究在推特上掀起了不小熱度:

    那么,這究竟是如何做到的?

    如何讓AI拍的視頻不“閃爍”?

    AI生成視頻會(huì )“閃爍”,本質(zhì)上是前后幀不連貫導致的。

    舉個(gè)例子,這是同一個(gè)視頻中截取的兩幀畫(huà)面:

    用AI根據這兩幀“重繪”圖像,乍一看問(wèn)題不大,細節上卻有不少差異。

    例如,一幀生成的人物頭上有“金色發(fā)帶”,另一幀中卻消失了:

    這樣一來(lái),看似AI生成的幾十幀圖像風(fēng)格差不多,連起來(lái)細節差異卻非常大,視頻也就容易出現閃爍現象:

    為此,研究人員提出了一種新框架,,核心是提升AI生成視頻時(shí)幀與幀之間的連貫性。

    這個(gè)框架包含關(guān)鍵幀翻譯(key frame translation)和完整視頻翻譯(full video translation)兩部分。

    第一部分基于擴散模型生成關(guān)鍵幀,基于跨幀約束加強這些關(guān)鍵幀之間的一致性;第二部分則通過(guò)基于時(shí)間感知的匹配算法將其他幀與關(guān)鍵幀“連接”起來(lái)。

    框架的核心,在于第一部分。

    研究人員給這部分提出了一種新的分層跨幀一致性約束方法,在原視頻基礎上,利用光流來(lái)約束幀與幀之間的關(guān)系。

    其中,第一幀相當于整個(gè)視頻的“錨點(diǎn)”,用于控制視頻的整體走向;后續的每一幀,則都會(huì )以前一幀作為參考,防止生成的圖像偏離最初的風(fēng)格、形狀、紋理和顏色等。

    至于視頻生成模型,核心采用的則是Stable Diffusion+ControlNet的組合,但經(jīng)過(guò)了改進(jìn)。

    如下圖所示,紅色虛線(xiàn)是原本Stable Diffusion等擴散模型采樣過(guò)程,黑色線(xiàn)條則是經(jīng)過(guò)調整后的過(guò)程:

    當然,在不同的采樣階段,跨幀約束也不一樣,包括形狀感知、像素感知等。

    相比之前的AI視頻生成模型,這個(gè)框架最大的優(yōu)勢在于,當輸入一個(gè)新視頻的時(shí)候,它不需要再用這個(gè)視頻材料重新進(jìn)行訓練,換而言之就是零樣本學(xué)習。

    只需要輸入一段提示詞+一段視頻,框架就能自動(dòng)將視頻“翻譯”出你想要的效果。

    例如,這是團隊利用改進(jìn)后的框架,重新生成的一段相同風(fēng)格視頻,和改進(jìn)前的擴散模型相比,幾乎看不出閃爍了:

    14秒生成一張關(guān)鍵幀

    所以,生成一段視頻是否需要很長(cháng)時(shí)間?

    至少從生成幀的效率來(lái)看,速度還是不慢的,其中關(guān)鍵幀和Stable Diffusion出圖的速度差不多,平均在14.23秒左右;非關(guān)鍵幀就非??炝?,每幀只需要1.49秒。

    如果視頻不長(cháng)、甚至只有十幾幀的話(huà),不到一分鐘就能搞定一段視頻的轉換。

    作者們將這個(gè)新框架和之前的幾類(lèi)文生視頻框架進(jìn)行了對比,包括FateZero、vid2vid-zero、Pxi2Video和Text2Video-Zero等,顯然新框架目前是最流暢、鬼影也最少的:

    不僅僅是單純的“視頻翻譯”,作者們還展示了提示詞對于視頻生成的控制效果。

    例如在相同輸入下,只要更改一段提示詞中的“關(guān)鍵字”,AI就能在幾乎不改動(dòng)其他元素的情況下,生成一段新的視頻,例如換個(gè)發(fā)型、換種風(fēng)格,或是將狗頭換成狐貍頭:

    除此之外,作者們還請來(lái)了23名志愿者,對新框架生成的視頻質(zhì)量進(jìn)行了綜合評分,評估指標有三個(gè),分別是提示詞和輸入幀的關(guān)聯(lián)度、時(shí)間一致性和視頻整體質(zhì)量。

    結果顯示,這個(gè)框架在“人類(lèi)評分”中均取得了不錯的水平:

    一作北大校友

    四位作者均來(lái)自南洋理工大學(xué)。

    一作楊帥,南洋理工大學(xué)助理教授,本科和博士畢業(yè)于北京大學(xué),目前的研究方向是基于人像的編輯、文本風(fēng)格化、圖像翻譯等。

    周弈帆,南洋理工大學(xué)研究工程師,本科畢業(yè)于北京理工大學(xué),拿過(guò)ACM-ICPC金牌,研究方向包括文本挖掘、基于機器學(xué)習重建入射光場(chǎng)等。

    劉子緯,南洋理工大學(xué)助理教授,香港中文大學(xué)博士,研究方向是計算機視覺(jué)、機器學(xué)習和計算機圖形學(xué)等。

    Chen Change Loy,南洋理工大學(xué)和香港中文大學(xué)副教授,他的研究興趣集中在計算機視覺(jué)和深度學(xué)習方向,包括圖像、視頻恢復和生成,以及表征學(xué)習等。

    目前這個(gè)項目的代碼還沒(méi)開(kāi)源,不過(guò)論文表示“會(huì )有的”。

    實(shí)測效果如何,我們可以期待一波。

    項目地址:https://anonymous-31415926.github.io/

    論文地址:https://arxiv.org/abs/2306.07954

    — 完 —

    量子位 QbitAI · 頭條號簽約

    標簽:

    責任編輯:FD31
    上一篇:家庭圖書(shū)館:讓讀書(shū)從“一時(shí)間的熱度”變成學(xué)生“一輩子的厚度”
    下一篇:最后一頁(yè)

    精彩圖集(熱圖)

    熱點(diǎn)圖集

    最近更新

    信用中國

    • 信用信息
    • 行政許可和行政處罰
    • 網(wǎng)站文章

    久爱免费观看在线精品_亚洲综合一区二区三区_最新国产国模无码视频在线_中文字幕无码精品亚洲资源网久久

      <strong id="ctjbx"></strong>

    1. <strong id="ctjbx"></strong>
      <ruby id="ctjbx"></ruby>