昨天,一條“100 年前北京晚清的影像”喜提熱搜,博主用 AI 技術(shù)修復(fù)了一段 10 多分鐘的古董視頻,使得 100 多年前老舊的黑白影像變得更加清晰,甚至有了顏色。
AI 還原100 年前晚清影像
這段時(shí)長(zhǎng) 10 多分鐘視頻使用了 AI 修復(fù)技術(shù),評(píng)論中有人表示,隔著屏幕與畫(huà)面中的人物對(duì)視,恍然間有種時(shí)空交錯(cuò)的感覺(jué),很神奇。對(duì)著這段視頻仔細(xì)觀察的筆者,其實(shí)也產(chǎn)生了這種恍惚的感覺(jué)。
除了被修復(fù)的珍貴影視資料本身,筆者更加關(guān)心的是修復(fù)影像背后使用的神奇 AI 修復(fù)技術(shù)。
在微博 Up 主的文案標(biāo)明,修復(fù)影像的技術(shù)管線參考自開(kāi)發(fā)人員,同時(shí)是一名 YouTuber 的 Denis Shiryae 上傳的影像修復(fù)教程。
循著這個(gè)線索,筆者發(fā)現(xiàn)原來(lái)這位大神早就在 YouTube 上發(fā)布過(guò)一些關(guān)于 AI 修復(fù)影像的視頻。比如這段用神經(jīng)網(wǎng)絡(luò)對(duì) 1906 年大地震前的舊金山影像進(jìn)行修復(fù)的視頻,解說(shuō)中說(shuō)到,他只做了一套神經(jīng)網(wǎng)絡(luò)工作流來(lái)做視頻的修復(fù)與像素倍增,其中用到了 DAIN 進(jìn)行幀內(nèi)插,ESRGAN 在自定義數(shù)據(jù)集上進(jìn)行幀升級(jí),然后用 DeOdify 來(lái)做視頻著色,這些算法都是公開(kāi)的,感興趣的話都可以搜索軟件,然后搞事情。
另外,Denis 修復(fù)的一部 1896 年的黑白短片 The Arrival of a Train at Station 項(xiàng)目也非常有趣,同樣也是使用公開(kāi)的 AI 技術(shù)將其轉(zhuǎn)換成了 4k 高清視頻,并且可以以每秒 60 幀進(jìn)行播放。結(jié)果雖然不完美,但同樣讓人驚艷。
不過(guò),修復(fù)的結(jié)果并不十分完美。整個(gè)畫(huà)面和動(dòng)態(tài)中都存在一些特征性的“平滑”和奇怪的偽像,這都是在大量插幀時(shí)會(huì)出現(xiàn)的典型現(xiàn)象。但是對(duì)于大多數(shù)人(在大多數(shù)設(shè)備上)來(lái)說(shuō),這種效果還是像魔術(shù)一樣神奇,修復(fù)后的畫(huà)面中,人們的衣服和火車(chē)的細(xì)節(jié)清晰可見(jiàn),畫(huà)面流暢同步,可視距離變長(zhǎng)。
有意思的是,這部電影上映時(shí),因?yàn)槿藗儚奈匆?jiàn)過(guò)一輛火車(chē)徑直沖著觀眾沖過(guò)來(lái)的動(dòng)態(tài)鏡頭,很多觀眾一度受驚被嚇得跑出電影院,這部短片也被稱(chēng)為“電影的奠基神話”,流傳為一段佳話。
Google 的 DAIN 和 Topaz Labs的 Gigapixel AI
言歸正傳,為了實(shí)現(xiàn)高清修復(fù),Shiryaev 使用了兩種神經(jīng)網(wǎng)絡(luò):Google 的 DAIN(深度感知視頻幀插值,Depth-Aware Video Frame Interpolation)和 Topaz Labs的 Gigapixel AI。其中,Gigapixel AI 用于將微弱分辨率的視頻一直擴(kuò)展到 4K,而 DAIN 用于創(chuàng)建和插入之前不存在的幀,從而將視頻的 FPS 增加到 60。
首先來(lái)看 Gigapixel AI,隨著圖片放大,它可以對(duì)圖片進(jìn)行細(xì)節(jié)填充。具體的實(shí)現(xiàn)方法,是通過(guò)分析按比例縮小的大量圖像,了解丟失的信息。經(jīng)過(guò)訓(xùn)練,當(dāng)圖片放大時(shí),Gigapixel AI 可以自動(dòng)彌補(bǔ)圖像損失的細(xì)節(jié),讓畫(huà)質(zhì)效果更佳。
這項(xiàng)技術(shù)也被打包放進(jìn)了 Topaz Gigapixel AI 軟件中,使用軟件就可以對(duì)圖像“無(wú)損”放大,親測(cè)效果還不錯(cuò)。
第二個(gè)算法是由 Google 工程師團(tuán)隊(duì)和一些研究員開(kāi)發(fā)的插幀算法 DAIN 添加的。
DAIN 也像 Gigapixel AI 一樣可以填充細(xì)節(jié),但卻是插入整個(gè)圖片而不是單個(gè)像素,從而將幀速率提高到每秒 60 幀。
當(dāng)然,AI 使用現(xiàn)有的大量視頻作為訓(xùn)練材料,通過(guò)評(píng)估前后幀以及鏡頭中的不同深度水平,以找出缺失的信息。
上圖為 DAIN 的架構(gòu)圖,工作原理大致為給定兩個(gè)時(shí)刻的輸入幀,先估計(jì)光流和深度圖,然后使用建議的深度感知流投影層生成中間流。
然后,模型基于光流和局部插值內(nèi)核對(duì)輸入幀、深度圖和上下文特征進(jìn)行扭曲,合成輸出幀。
這種模型緊湊、高效且完全可微分。定量和定性的結(jié)果表明,DAIN 在各種數(shù)據(jù)集上均優(yōu)于最新的幀插值方法。
有一點(diǎn)需要說(shuō)明,我們?cè)诖诵迯?fù)中看到的所有額外細(xì)節(jié)可能實(shí)際上并不是鏡頭中的真實(shí)內(nèi)容,而是算法在經(jīng)過(guò)大量類(lèi)似照片和視頻庫(kù)中訓(xùn)練給出的最接近真相的預(yù)測(cè)。
原版短片是由 Lumière brothers 拍攝的,攝像機(jī)使用了 35mm 膠卷(這種膠卷還可以作為投影儀使用)。
另外還應(yīng)該指出的是,和線上那些低分辨率的盜版電影相比,Shiryaev 使用的原始視頻質(zhì)量相對(duì)較高,這可能要?dú)w功于先前的修復(fù)技術(shù)。
不幸的是,源視頻并沒(méi)有提供任何有關(guān)制作方式的詳細(xì)信息,但似乎已經(jīng)用某種方法進(jìn)行了數(shù)字化增強(qiáng)。
無(wú)論原版影片是否經(jīng)過(guò)處理,修復(fù)后的新版本的分辨率和流暢度都有了明顯的提高,這就夠了,因?yàn)檫@為我們用 AI 引擎構(gòu)建虛擬現(xiàn)實(shí)提供了很多靈感。
盡管人們對(duì) Deepfake 的照片和視頻憂慮重重,這門(mén)可以虛構(gòu)從未存在場(chǎng)景的技術(shù)經(jīng)常因?yàn)樨?fù)面新聞出現(xiàn)在頭條,但是類(lèi)似的修復(fù)圖像技術(shù)可以還原歷史,帶給人們的價(jià)值,顯示出神經(jīng)網(wǎng)絡(luò)的積極作用。
總之,任何好用的技術(shù)本質(zhì)上都是一把雙刃劍,不能因噎廢食,為了更好地使用這把利器,更多地需要從法律法規(guī)等途徑進(jìn)行約束,創(chuàng)造更好的環(huán)境,是不是這個(gè)理兒?
(轉(zhuǎn)載)