siemens x
人工智能

商湯科技顧金偉:從計算機科學教授到科技美學的原創(chuàng)者

2025China.cn   2022年02月18日

  編者按:自成立以來,商湯秉持著堅持原創(chuàng)的初心,穩(wěn)步前行。在商湯,有40位教授引領研發(fā)工作,他們?yōu)榧夹g創(chuàng)新提供了強大后盾,也進一步推動了商業(yè)化成功。

  在智能影像領域,商湯的AI技術已經應用在上億臺手機之中,并成功探索出軟硬一體化的業(yè)務模式。最近,商湯君采訪了智能影像首席科學家顧金偉,聊了聊他對前沿技術及應用的心得,以及如何帶領團隊披荊斬棘,闖出一條少有人走的路。

  “艷陽十六陰天八,多云十一日暮四”,這樣的光圈口訣曾是很多攝影愛好者熟稔的法則。光圈、快門、感光度、白平衡…… 復雜的攝影參數,在自動化相機出現之前,對大眾用戶來說并不友好。

  如今,智能影像技術,正在讓攝影擺脫沉重的設備,幫助小白們成為攝影高手。超分辨率、夜景增強、超清人像、高動態(tài)HDR、景深合成、拍后對焦、全景拼接等技術已然成為智能手機的標配,用AI算法使成像更加通透且富有層次感,在畫質和美學上進行全自動化的提升。

  在這一領域,商湯通過多年AI技術積累,研發(fā)了大量智能影像技術,為業(yè)內輸出專業(yè)而優(yōu)質的多樣化的圖像處理方案,支持400多個手機型號,已應用在上億臺手機相機中。

  圍繞智能影像和計算攝影這個話題,商湯君在近日采訪了商湯智能影像首席科學家顧金偉,深入了解相關技術的底層邏輯,以及他對未來影像技術的思考。

  一篇論文背后的緣分

  金偉的研究領域,一直是在計算攝影與成像。

  他曾擔任美國羅徹斯特理工學院助理教授,并先后在華為北美研究中心及NVIDIA擔任資深研究員,在學術上有深厚造詣。

  生活中,金偉亦酷愛手機攝影,他習慣用手機記錄自己和家人每一個或平凡、或精彩的時刻。

  “工作與興趣的契合,是一件非常美好的事?!?/FONT>

  2014年底,一篇論文進入了他的視野。這篇論文叫做ImageSuper-Resolution Using Deep Convolutional Networks,來自香港中文大學信息工程系及微軟亞洲研究院,其中介紹了一種用深度卷積網絡做圖像超分辨率處理的方法。

  “計算攝影與成像在工業(yè)界的應用非常多,那時候用的都是基于特征的傳統圖像處理算法。用深度學習網絡做圖像超分辨率的論文,這算是第一篇?!?/FONT>

  也正是這篇論文,冥冥之中帶來了某種緣分。

  在2018年的CVPR(國際計算機視覺與模式識別會議)上,金偉見到了商湯科技創(chuàng)始人、香港中文大學信息工程系教授湯曉鷗,與商湯科技聯合創(chuàng)始人王曉剛教授。湯曉鷗教授正是那篇圖像超分辨率論文的重要參與者。

  彼時商湯正考慮在北美駐點,擴展國際業(yè)務,吸納更多優(yōu)秀人才。湯曉鷗教授與王曉剛教授希望金偉能幫助商湯在硅谷建立研究中心。接觸之后,金偉感到雙方理念一致,于是不久后正式加入商湯,擔任研究執(zhí)行總監(jiān),負責硅谷研究中心的工作。

  回憶當時剛加入時的情景,金偉仍然歷歷在目,招人、辦公選址,很多事、各種細節(jié)都需要計劃和解決。

2018年,商湯科技硅谷辦公室成立不久時,顧金偉(右)與商湯聯合創(chuàng)始人王曉剛教授的合影

  “當時只有一個小小的辦公室,但大家工作熱情都很高?!边@段時間也是他加入商湯幾年中,最為深刻的一段記憶之一。

  持續(xù)創(chuàng)新,是最大的核心競爭力

  2018年正是智能手機市場進入白熱化競爭的階段,整體增長越來越趨于瓶頸,各家必須拿出最硬核的技術打動消費者,而手機的影像畫質正是核心賣點之一。

  這推動了整個手機產業(yè)鏈都積極將各種最先進的智能化黑科技,應用在手機影像系統中,比如近些年出現的拍月亮、拍太空夜景、視頻超級夜景等創(chuàng)新功能。

  “這些對科技創(chuàng)新的真實需求,給我們算法公司提供了非常多難得的機會。”

  得益于影像需求的增長,商湯的AI算法SDK產品成功應用在了各大主要手機廠商的系列產品中,提供包括超分辨率、雙攝虛化、人像修復、超級夜景等功能。到目前,已有數億部手機搭載了商湯的影像技術。

 AI夜景增強效果

  但金偉沒有為此而滿足,他很快意識到,手機行業(yè)的影像技術更新非???,這樣的機會可能轉瞬即逝,而且也暗藏不少新挑戰(zhàn)。

  “做好一個產品,就算其中90%是靠人工智能技術解決,但并不是說把人工智能算法做好就夠了,可能剩下70%的工作量是解決剩下的10%,這才決定了產品最終的差異化?!?/FONT>

  影像畫質產品也是這樣一個系統工程,最后的產品競爭力,不僅僅是取決于軟件算法公司自身,還取決于與上下游廠商的溝通與合作,整個鏈條非常長,存在很多不可控的因素。

  另一方面,手機廠商也組建有自研算法團隊,他們直接接觸廣大的終端用戶,對于產品需求有更快、更準確的判斷,而且在引入三方算法的時候,其自研團隊可以說既是“裁判”又是“運動員”。

  “商湯在產品和技術先進性等方面,必須要有比較大的創(chuàng)新和優(yōu)勢,才有可能在客戶那里保持競爭力。所以,我們的技術路徑還有合作布局,都是圍繞這種領先性的?!?/FONT>

  在軟件方案競爭白熱化的趨勢下,金偉帶領團隊做出了軟硬一體化的前瞻性轉變。

  2019年,商湯開始尋求與全球主流的圖像傳感器廠商開展緊密合作,將AI算法和傳感器進行直接融合,研發(fā)軟硬一體的解決方案。

  同時,商湯還獨立開發(fā)AI ISP芯片,充分發(fā)揮新型傳感器的性能,根據AI算法特點重新設計最優(yōu)的ISP鏈路,這是目前市面上很多手機芯片做不到的。

  再加上商湯在AI畫質算法的積累,如圖像分割、場景的識別和理解等等,將這些結合起來,就形成了在智能影像上的綜合優(yōu)勢。

  如今,金偉領導的智能影像部門,可以為移動端提供軟硬一體的高清畫質解決方案,帶來極致和流暢的拍照和視頻體驗。

  這種解決方案中,硬件包含圖像傳感器、光學鏡頭、圖像畫質處理芯片(ISP)上的算法開發(fā)和IP固化,軟件則主要包含多幀融合、多攝融合等算法SDK。兩者互為一體,能發(fā)揮最大的優(yōu)勢。

  曾經一波三折,卻打通新的業(yè)務模式

  軟硬一體的解決方案,相比于僅僅提供算法SDK,更加具有技術壁壘,但其發(fā)展過程也是一波三折。

  基于圖像傳感器的AI算法開發(fā)難度十分大,因為硬件的計算能力非常有限,但需要處理的數據卻非常大,對畫質和功耗的要求也十分嚴格,這種矛盾讓開發(fā)難度呈指數級增長。

  “有一家國際領先的影像傳感器公司曾經嘗試過兩次,但都失敗了,所以我們一開始找到他們合作的時候,對方也沒什么信心。”

  但事件很快迎來轉機,2019年一家國內頭部的手機廠商希望做基于成像傳感器相關的算法開發(fā),這讓金偉及部門的同事非常興奮。

  當時,項目時間非常緊張,很多同事春節(jié)也沒有休假,最終趕在時間截止前完成了交付。但到了次年初,對方的需求又變了,更希望將這種核心的技術方案交由自研團隊去做,合作也因此不了了之。這讓金偉和同事們備受打擊。

  慶幸的是,在這些波折中,智能影像團隊沒有落下研發(fā)的進度,技術效果與性能都在持續(xù)提升。抱著試一試的心態(tài),他們又將技術方案推給了前述的傳感器廠商,并最終在2020年7月正式立項。

  但立項只是長征的第一步。

  “一方面,技術上有挑戰(zhàn),我們對將算法轉換成硬件語言代碼的經驗不足;另一方面,人手不夠,當時做傳統算法SDK的業(yè)務也很缺人,我們的硬件語言開發(fā)只有兩位同事支持,節(jié)奏非常緊。”

  更要命的是,項目計劃在2021年2月驗收,而到1月時,在成像速度與畫質達標后,功耗又出現了問題,這在移動端是非常致命的。好在團隊成員齊心協力,最終完成交付。

  對于當時的感受,金偉記憶猶新。

  “大家都不知道能不能成功,因為有很多的不確定性,就算做成了,也不確定能否在手機市場上成為爆點?!?/FONT>

  最終,市場獎勵了那些勇于堅持創(chuàng)新的人。開發(fā)成功后,三四個同類項目緊隨而來,更重要的是,這次突破為公司帶來了新的業(yè)務合作模式,護城河進一步加深。

  現在,商湯的算法在多款新型圖像傳感器上成功落地,包括新型的RGBW圖像傳感器,2億像素全方向對焦的圖像傳感器,以及多光譜圖像傳感器。

  這些產品近期將會大規(guī)模量產,應用在一些新旗艦手機上,未來還會推廣到車載、互娛、機器視覺等領域。

  深挖行業(yè)需求,研發(fā)可調可控畫質技術

  談及影像技術的未來,金偉認為,可控可調的深度學習技術和基于場景理解的畫質提升,會是大趨勢。

  “可控可調的深度學習技術,是現在圖像畫質算法方面非常缺乏的一點。”

  傳統的圖像處理算法一般有很多有物理意義的參數,可以留給客戶去控制調試。圖像畫質有時候也是一種主觀的體驗,這種選擇權可以讓手機廠商靈活地根據用戶喜好或者硬件配置去調整調試算法效果。

  但這種可調可控,目前在深度學習中還沒有成熟的技術。深度學習技術訓練完的網絡模型,萬一出現問題,只能重新收集數據再訓練,它沒有辦法在運行時去調整。

  “所以,我們在畫質方面會強調如何開發(fā)可控可調的深度學習算法,讓它能夠根據客戶的需求、硬件的配置,做到更加方便的調控?!?/FONT>

  基于場景理解的畫質提升,具體來說,就是讓算法識別出拍攝時的場景,比如當按下快門時,如果相機會知道是室內還是室外、夕陽還是婚禮,那這些場景信息會有助于算法調整顏色、對比度、細節(jié)等,最終合成出最符合場景畫質的圖片和視頻。

  其實這不僅是一種技術趨勢,也隱含了金偉本人樸素的期待。采訪中,商湯君問到,智能影像部的愿景是什么?

  金偉說,“我希望所有這些相關的技術和產品,會使手機拍照和視頻畫質在不久的將來大幅超越單反相機,能更好地記錄我們生活中每一個美好的瞬間。”

(轉載)

標簽:商湯科技 我要反饋 
2024世界人工智能大會專題
即刻點擊并下載ABB資料,好禮贏不停~
優(yōu)傲機器人下載中心
西克
2024全景工博會
專題報道
2024 工博會 | 直播探館 · 全景解讀
2024 工博會 | 直播探館 · 全景解讀

第二十四屆中國工博會于9月24日至28日在國家會展中心(上海)舉行,展會以“工業(yè)聚能 新質領航”為全新主題。 [更多]

2024世界人工智能大會
2024世界人工智能大會

WAIC 2024將于7月在上海舉行,論壇時間7月4日-6日,展覽時間7月4日-7日。WAIC 2024將圍繞“以共商促... [更多]

2024漢諾威工業(yè)博覽會專題
2024漢諾威工業(yè)博覽會專題

2024 漢諾威工業(yè)博覽會將于4月22 - 26日在德國漢諾威展覽中心舉行。作為全球首屈一指的工業(yè)貿易展覽會,本屆展覽會... [更多]