siemens x
人工智能

AI修復(fù)100年前晚清影像喜提熱搜,這兩大算法立功了

2025China.cn   2020年05月11日

  昨天,一條“100 年前北京晚清的影像”喜提熱搜,博主用 AI 技術(shù)修復(fù)了一段 10 多分鐘的古董視頻,使得 100 多年前老舊的黑白影像變得更加清晰,甚至有了顏色。

  AI 還原100 年前晚清影像

  這段時(shí)長(zhǎng) 10 多分鐘視頻使用了 AI 修復(fù)技術(shù),評(píng)論中有人表示,隔著屏幕與畫(huà)面中的人物對(duì)視,恍然間有種時(shí)空交錯(cuò)的感覺(jué),很神奇。對(duì)著這段視頻仔細(xì)觀察的筆者,其實(shí)也產(chǎn)生了這種恍惚的感覺(jué)。

  除了被修復(fù)的珍貴影視資料本身,筆者更加關(guān)心的是修復(fù)影像背后使用的神奇 AI 修復(fù)技術(shù)。

  在微博 Up 主的文案標(biāo)明,修復(fù)影像的技術(shù)管線參考自開(kāi)發(fā)人員,同時(shí)是一名 YouTuber 的 Denis Shiryae 上傳的影像修復(fù)教程。

  循著這個(gè)線索,筆者發(fā)現(xiàn)原來(lái)這位大神早就在 YouTube 上發(fā)布過(guò)一些關(guān)于 AI 修復(fù)影像的視頻。比如這段用神經(jīng)網(wǎng)絡(luò)對(duì) 1906 年大地震前的舊金山影像進(jìn)行修復(fù)的視頻,解說(shuō)中說(shuō)到,他只做了一套神經(jīng)網(wǎng)絡(luò)工作流來(lái)做視頻的修復(fù)與像素倍增,其中用到了 DAIN 進(jìn)行幀內(nèi)插,ESRGAN 在自定義數(shù)據(jù)集上進(jìn)行幀升級(jí),然后用 DeOdify 來(lái)做視頻著色,這些算法都是公開(kāi)的,感興趣的話都可以搜索軟件,然后搞事情。

  另外,Denis 修復(fù)的一部 1896 年的黑白短片 The Arrival of a Train at Station 項(xiàng)目也非常有趣,同樣也是使用公開(kāi)的 AI 技術(shù)將其轉(zhuǎn)換成了 4k 高清視頻,并且可以以每秒 60 幀進(jìn)行播放。結(jié)果雖然不完美,但同樣讓人驚艷。

  不過(guò),修復(fù)的結(jié)果并不十分完美。整個(gè)畫(huà)面和動(dòng)態(tài)中都存在一些特征性的“平滑”和奇怪的偽像,這都是在大量插幀時(shí)會(huì)出現(xiàn)的典型現(xiàn)象。但是對(duì)于大多數(shù)人(在大多數(shù)設(shè)備上)來(lái)說(shuō),這種效果還是像魔術(shù)一樣神奇,修復(fù)后的畫(huà)面中,人們的衣服和火車(chē)的細(xì)節(jié)清晰可見(jiàn),畫(huà)面流暢同步,可視距離變長(zhǎng)。

  有意思的是,這部電影上映時(shí),因?yàn)槿藗儚奈匆?jiàn)過(guò)一輛火車(chē)徑直沖著觀眾沖過(guò)來(lái)的動(dòng)態(tài)鏡頭,很多觀眾一度受驚被嚇得跑出電影院,這部短片也被稱(chēng)為“電影的奠基神話”,流傳為一段佳話。

  Google 的 DAIN 和 Topaz Labs的 Gigapixel AI

  言歸正傳,為了實(shí)現(xiàn)高清修復(fù),Shiryaev 使用了兩種神經(jīng)網(wǎng)絡(luò):Google 的 DAIN(深度感知視頻幀插值,Depth-Aware Video Frame Interpolation)和 Topaz Labs的 Gigapixel AI。其中,Gigapixel AI 用于將微弱分辨率的視頻一直擴(kuò)展到 4K,而 DAIN 用于創(chuàng)建和插入之前不存在的幀,從而將視頻的 FPS 增加到 60。

  首先來(lái)看 Gigapixel AI,隨著圖片放大,它可以對(duì)圖片進(jìn)行細(xì)節(jié)填充。具體的實(shí)現(xiàn)方法,是通過(guò)分析按比例縮小的大量圖像,了解丟失的信息。經(jīng)過(guò)訓(xùn)練,當(dāng)圖片放大時(shí),Gigapixel AI 可以自動(dòng)彌補(bǔ)圖像損失的細(xì)節(jié),讓畫(huà)質(zhì)效果更佳。

  這項(xiàng)技術(shù)也被打包放進(jìn)了 Topaz Gigapixel AI 軟件中,使用軟件就可以對(duì)圖像“無(wú)損”放大,親測(cè)效果還不錯(cuò)。

  第二個(gè)算法是由 Google 工程師團(tuán)隊(duì)和一些研究員開(kāi)發(fā)的插幀算法 DAIN 添加的。

  DAIN 也像 Gigapixel AI 一樣可以填充細(xì)節(jié),但卻是插入整個(gè)圖片而不是單個(gè)像素,從而將幀速率提高到每秒 60 幀。

  當(dāng)然,AI 使用現(xiàn)有的大量視頻作為訓(xùn)練材料,通過(guò)評(píng)估前后幀以及鏡頭中的不同深度水平,以找出缺失的信息。

  上圖為 DAIN 的架構(gòu)圖,工作原理大致為給定兩個(gè)時(shí)刻的輸入幀,先估計(jì)光流和深度圖,然后使用建議的深度感知流投影層生成中間流。

  然后,模型基于光流和局部插值內(nèi)核對(duì)輸入幀、深度圖和上下文特征進(jìn)行扭曲,合成輸出幀。

  這種模型緊湊、高效且完全可微分。定量和定性的結(jié)果表明,DAIN 在各種數(shù)據(jù)集上均優(yōu)于最新的幀插值方法。

  有一點(diǎn)需要說(shuō)明,我們?cè)诖诵迯?fù)中看到的所有額外細(xì)節(jié)可能實(shí)際上并不是鏡頭中的真實(shí)內(nèi)容,而是算法在經(jīng)過(guò)大量類(lèi)似照片和視頻庫(kù)中訓(xùn)練給出的最接近真相的預(yù)測(cè)。

  原版短片是由 Lumière brothers 拍攝的,攝像機(jī)使用了 35mm 膠卷(這種膠卷還可以作為投影儀使用)。

  另外還應(yīng)該指出的是,和線上那些低分辨率的盜版電影相比,Shiryaev 使用的原始視頻質(zhì)量相對(duì)較高,這可能要?dú)w功于先前的修復(fù)技術(shù)。

  不幸的是,源視頻并沒(méi)有提供任何有關(guān)制作方式的詳細(xì)信息,但似乎已經(jīng)用某種方法進(jìn)行了數(shù)字化增強(qiáng)。

  無(wú)論原版影片是否經(jīng)過(guò)處理,修復(fù)后的新版本的分辨率和流暢度都有了明顯的提高,這就夠了,因?yàn)檫@為我們用 AI 引擎構(gòu)建虛擬現(xiàn)實(shí)提供了很多靈感。

  盡管人們對(duì) Deepfake 的照片和視頻憂慮重重,這門(mén)可以虛構(gòu)從未存在場(chǎng)景的技術(shù)經(jīng)常因?yàn)樨?fù)面新聞出現(xiàn)在頭條,但是類(lèi)似的修復(fù)圖像技術(shù)可以還原歷史,帶給人們的價(jià)值,顯示出神經(jīng)網(wǎng)絡(luò)的積極作用。

  總之,任何好用的技術(shù)本質(zhì)上都是一把雙刃劍,不能因噎廢食,為了更好地使用這把利器,更多地需要從法律法規(guī)等途徑進(jìn)行約束,創(chuàng)造更好的環(huán)境,是不是這個(gè)理兒?

(轉(zhuǎn)載)

標(biāo)簽:人工智能 我要反饋 
2024世界人工智能大會(huì)專(zhuān)題
即刻點(diǎn)擊并下載ABB資料,好禮贏不停~
優(yōu)傲機(jī)器人下載中心
西克
2024全景工博會(huì)
專(zhuān)題報(bào)道
2024 工博會(huì) | 直播探館 · 全景解讀
2024 工博會(huì) | 直播探館 · 全景解讀

第二十四屆中國(guó)工博會(huì)于9月24日至28日在國(guó)家會(huì)展中心(上海)舉行,展會(huì)以“工業(yè)聚能 新質(zhì)領(lǐng)航”為全新主題。 [更多]

2024世界人工智能大會(huì)
2024世界人工智能大會(huì)

WAIC 2024將于7月在上海舉行,論壇時(shí)間7月4日-6日,展覽時(shí)間7月4日-7日。WAIC 2024將圍繞“以共商促... [更多]

2024漢諾威工業(yè)博覽會(huì)專(zhuān)題
2024漢諾威工業(yè)博覽會(huì)專(zhuān)題

2024 漢諾威工業(yè)博覽會(huì)將于4月22 - 26日在德國(guó)漢諾威展覽中心舉行。作為全球首屈一指的工業(yè)貿(mào)易展覽會(huì),本屆展覽會(huì)... [更多]