擔心視訊開會醜醜的嗎?有了NVIDIA就再也不用擔心!(下)

擔心視訊開會醜醜的嗎?有了NVIDIA就再也不用擔心!(下)
擔心視訊開會醜醜的嗎?有了NVIDIA就再也不用擔心!(下)

常常視訊開會的你一定要知道NVIDIA!!不論是來不及打扮還是不想打扮~都能幫你體面示人,亮麗開會!!(下)

本篇為下篇,上篇請點擔心視訊開會醜醜的嗎?有了NVIDIA就再也不用擔心!(上)

Vid2Vid Cameo:完美結合 2D 照片與 3D 動態

Vid2Vid Cameo 是 NVIDIA Maxine AI 視訊串流平台背後、以生成對抗網絡(Generative Adversarial Network,GAN)為基礎的深度學習模型之一。

根據相關論文的解釋,該模型在 NVIDIA DGX 系統上使用 18 萬高品質的對話頭像資料集來進行訓練,學習辨識20 個關鍵點(用來建模「臉部表情」與「頭部運動」所必備的關鍵點),以便在沒有人類加以標註的情況下,能針對臉部動作建立模型。關鍵點中,包含針對眼睛、嘴巴、鼻子等特徵位置進行編碼。

下圖展示了 20 個關鍵點當中,前 5 個關鍵點的計算流程,給來源圖像及預測模型來規範關鍵點。

NVIDIA 的研究人員表示:從用戶的參考圖片中抓取這些關鍵點,用戶的參考圖片可事先發給其他的視訊與會者,或是從過往的視訊會議中擷取並重複使用。如此一來,視訊會議平台只需傳送用戶臉部特徵的動作數據,而不需要在每一個與會者間傳送龐大的即時視訊資料。對接收者來說,GAN 模型使用這些資料,在接收端合成一個模擬參考圖片外觀的視訊畫面。

整體來說,NVIDIA 去年推出的「會議神器」Maxine 平台就使用 AI 驅動來實現高解析度、背景噪音消除、眼神校正等功能,讓你不需升級電腦效能也能擁有高品質的視訊會議。近期新推 Maxine 平台的深度學習模型 Vid2Vid Cameo 更讓你體面開會,AI 技術完美掩蓋鏡頭前的蓬頭亂髮!Vid2Vid Cameo 目前已可在 NVIDIA AI Playground 上測試使用,其開發套件也將在不久後推出,讓開發人員可以運用優化後的訓練模型,為視訊、直播串流強化效果。

更多AI人工智慧相關文章請點閱下方連結!!

其他閱讀

再邋遢都能體面開會!NVIDIAAI視訊會議神器Maxine

AI打造史上最難「惡」羅斯方塊!世界紀錄僅消去41

AI 人工智慧「Nadine」能說能笑 還能陪老人玩賓果

你笑,AI也笑!人工智慧也能用「表情」回應「感情」了

偶像輸出國南韓這次打造了全員AI的人工智慧女子偶像團體?!

停電就停學?!國小人工智慧虛擬電廠不讓電力問題成為學習阻礙!

AI客服打破傳統生硬印象~對答如流還成本低效率高!!

擔心視訊開會醜醜的嗎?有了NVIDIA就再也不用擔心!(上)

擔心視訊開會醜醜的嗎?有了NVIDIA就再也不用擔心!(上)
擔心視訊開會醜醜的嗎?有了NVIDIA就再也不用擔心!(上)

常常視訊開會的你一定要知道NVIDIA!!不論是來不及打扮還是不想打扮~都能幫你體面示人,亮麗開會!!(上)

視訊會議邋遢怎辦?AI 讓正式照片中的你「動起來」當替身!

COVID-19 疫情持續影響我們的工作與生活,視訊會議讓我們的房間取代了原本的會議室,大家也希望自己能在鏡頭前體面的呈現。繪圖晶片大廠 NVIDIA 於去年 10 月在 GPU 技術大會(GTC)上發表了全新雲端的視訊串流平台「Maxine」,整合各種人工智慧輔助功能,能即時美化鏡頭前「太過真實」的畫面、或優化不佳的音訊。

大家都希望在每次的視訊會議中,保持個人最佳狀態。但是辦公室移到家裡後,難免會因剛睡醒、或是小孩、寵物吵鬧等,導致自己蓬頭亂髮,無法在會議平台中顯現出體面的打扮。針對此問題,NVIDIA 研究團隊在 2021 年的 CVPR 會議發表論文中,提出全新的解決方案——Vid2Vid Cameo,如以下影片所示:

Vid2Vid Cameo:AI 讓人像照跟著你擠眉弄眼!

「Vid2Vid Cameo」是新的深度學習模型,利用生成對抗網路 (GAN) ,只需一張使用者的臉部照片以及一段視訊串流內容,就能利用這兩種素材建立出可動的、用於視訊的擬真對話頭像。這意味著我們只需在會議前上傳一張體面、正式的個人照片,平台系統就會自動抓取照片中的幾個關鍵點,開會時 AI 模型再抓取個人在鏡頭前的即時動作,再將這些動作套用在先前上傳的靜態圖片上。

如此一來,鏡頭前的你無論是多麼蓬頭垢面,在視訊中都可以如同照片中的你一樣衣冠楚楚的參與會議!也藉著Vid2Vid Cameo 的 AI 把你的臉部動作與即時動作轉移到照片上,你就像是如同照片中體面地參加會議!

Vid2Vid Cameo 的功能如下:

真人視角調整方向

透過 Vid2Vid Cameo,使用者能自由調整所生成的人臉視角

透過 Vid2Vid Cameo,使用者能自由調整所生成的人臉視角,人臉的角度可選側面(上圖左)或正面(上圖右)、或是透過調整攝影機的的角度高低來顯示對話時的頭像視角。

虛擬角色逼真動態

在視訊通話越來越普遍的當下,親和力高的卡通人物有助於緩解網絡社交的壓力。Vid2Vid Cameo 亦可將卡通形象與真人進行即時合成。

AI演算法節省頻寬,保留絕佳視訊通話品質

透過 Vid2Vid Cameo 的新 AI 演算法 ,視訊會議只需傳送用戶的臉部關鍵點的動作資料,接著在所有與會者的視訊中即時模擬出立體頭像即可,而不需像以往的視訊會議中,每個與會者之間都要互相發送龐大的即時視訊串流內容。

這樣的技術可將視訓通話的流量需求減少十倍,讓通話品質更流暢、也不影響視訊畫質。

本篇為上篇,下篇請點擔心視訊開會醜醜的嗎?有了NVIDIA就再也不用擔心!(下)

更多AI人工智慧相關文章請點閱下方連結!!

其他閱讀

再邋遢都能體面開會!NVIDIAAI視訊會議神器Maxine

AI打造史上最難「惡」羅斯方塊!世界紀錄僅消去41

AI 人工智慧「Nadine」能說能笑 還能陪老人玩賓果

你笑,AI也笑!人工智慧也能用「表情」回應「感情」了

偶像輸出國南韓這次打造了全員AI的人工智慧女子偶像團體?!

停電就停學?!國小人工智慧虛擬電廠不讓電力問題成為學習阻礙!

AI客服打破傳統生硬印象~對答如流還成本低效率高!!

最新AI技術Maxine讓你來不及刷牙洗臉也能體面開會(下)

最新AI技術Maxine讓你來不及刷牙洗臉也能體面開會(下)
最新AI技術Maxine讓你來不及刷牙洗臉也能體面開會(下)

又有一項 AI 科技要來造福大家啦!!有了Maxine就能體面上鏡!!還有許多強大功能等你來體驗喔!!(上)

本篇為下篇,上篇請點最新AI技術Maxine讓你來不及刷牙洗臉也能體面開會(上)

眼神接觸、臉部對齊……人工智慧提升視訊會議的體驗

臉部眼神校正功能:模擬面對面開會

Maxine 還應用了 NVIDIA 在生成對抗網路 (GAN) 的優勢,讓視訊會議服務供應商能為用戶提供各種 AI 功能,讓用戶有真實「面對面」的感受。

例如:「臉部對齊」功能可自動調整臉部角度,讓用戶在參與會議的過程中,看起來像是彼此相對、「眼神校正」能模擬眼神接觸、校正會議參與者的視線。這些功能能幫助與會者保持互動,無需一直盯著攝影機。

「臉部對齊」功能可自動調整臉部角度,讓用戶在參與會議的過程中,看起來像是彼此相對。

替身與虛擬背景:人再邋遢、家中再亂都能體面開會!

除此之外,視訊會議服務的供應商也能增加替身功能,讓用戶選擇自己的動畫當替身,能即時地透過用戶的聲音、情緒音調,自動生成逼真的動畫。

除了替身功能,Nvidia 也在今年六月 CVPR 大會,發表 Maxine 平台最新的「Vid2Vid Cameo」的深度學習模型:採用生成對抗網絡(GAN)的技術,只需將一個人的 2D 照片合成至談話影像中,就能輕易地打造數位虛擬化身、節省視訊頻寬,並能夠進行人臉辨識等強大功能。如此一來,就算鏡頭另一端的用戶衣衫不整、頭髮凌亂也不怕了!只要你在會議前拿出一張自己穿正式衣服的照片,就能讓穿著得體的自己當成替身參與視訊會議喔!

假如家中小孩太吵、或是燈光太暗的話,也不用怕!Maxine 的人工智慧技術可以移除背景噪音、並且提供超高解析度的畫面,也提升光線較暗時的清晰度,甚至為臉重新打光!

有了參與會議時,若家中小孩太吵也不用擔心,因為 Maxine 的人工智慧技術可以移除背景噪音!


若上述的都不行的話,你也可以乾脆直接更換成虛擬背景!

若家中真的有見不得人的場景的話,試試 Maxine 的虛擬背景吧!

Jarvis 對話式 AI:即時翻譯、會議記錄

透過 NVIDIA 對話式人工智慧功能 Jarvis SDK,開發人員可藉由整合使用虛擬助手,在視訊會議服務中進行語音辨識、語言理解與語音生成的功能。虛擬助手可做紀錄、設置執行項目,並以人聲回答問題,也能提供即時翻譯、即時字幕和逐字稿等,有助與會者了解會議中正在討論的內容。

Jarvis 對話式 AI,可以在會議中即時翻譯

Maxine 平台整合多個 NVIDIA 人工智慧 SDK 和 API 技術。除了上述的 Jarvis 外,還有強化音訊和視訊功能的  NVIDIA DeepStream ,並以 TensorRT SDK 執行高效能深度學習推理。官方提到,Maxine 平臺的人工智慧運算,因為都在雲端處理,所以終端用戶不需升級任何硬體,就能獲得這些功能。

以下為 Maxine 的串流視訊 AI SDK 展示影片:

 

 

更多人工智慧相關文章請點閱下方連結~

 

 

 

其他閱讀

3款人工智慧彩妝,讓你在家就可試妝、立馬客製粉底液!

人工智慧成最強替身演員 還可能得奧斯卡?

隱私是基本人權!蘋果新功能「App 追蹤透明度」讓 Facebook 急跳腳?

AI判定洋蔥照片「太性感」、乳癌文宣為色情,FB人工智慧出包!

人工智慧連導盲犬的工作也要搶?!導盲犬要被取代了?!

停電就停學?!國小人工智慧虛擬電廠不讓電力問題成為學習阻礙!

南韓偶像製造機這次把腦筋動到人工智慧虛擬偶像身上去了!!

最新AI技術Maxine讓你來不及刷牙洗臉也能體面開會(上)

最新AI技術Maxine讓你來不及刷牙洗臉也能體面開會(上)
最新AI技術Maxine讓你來不及刷牙洗臉也能體面開會(上)

又有一項 AI 科技要來造福大家啦!!有了Maxine就能體面上鏡!!還有許多強大功能等你來體驗喔!!(上)

疫情期間,WFH 已成常態,全球有數百萬人使用視訊來開會、學習、娛樂,甚至就診。IT 大廠紛紛發展視訊會議能應用的人工智慧技術。微軟甚至聯合美妝大廠資生堂,共同推出能「立即上妝」的視訊會議 AI 技術呢

而顯示卡大廠 NVIDIA 去年末推出的雲端視訊串流 AI 平台「Maxine」,能使用人工智慧視訊壓縮技術—只要從人臉上「抓到」幾個關鍵點後,就能在另一端依據這些臉部特徵關鍵點  (facial points),重建人臉動畫。如此一來,就不需串流整個影像的畫素,大幅度降低視訊傳輸所需的頻寬。

以下影片為 NVIDIA Maxine 的各種功能介紹:

無需強大硬體,即可享有高解析.無噪音的視訊會議體驗

NVIDIA Maxine 是雲端原生的視訊串流 AI 平台,其嶄新的 AI 功能可被導入到各式各樣的網路視訊會議中。視訊會議的服務供應商可透過 NVIDIA 的雲端 GPU(沒錯!此款 GPU 真的就在雲端上,因此你無需添購任何專業的設備~)上運行該平台,為用戶提供全新的 AI 功能,包括視線校正(Gaze Correction)、超高解析度、噪音消除和臉部打光等功能。

由於資料是在雲端而不是在本地設備上處理,因此使用者無需任何強大的硬體設備,即可享受高解析度、無背景噪音、自動修正的角度、甚至虛擬背景、替身、即時翻譯等進階功能!

AI 捕捉臉部關鍵點,所需頻寬減至原本一成

以下為 NVIDIA Research AI 視訊壓縮展示影片:

NVIDIA 使用的人工智慧技術可以分析每個會議參與者的臉部關鍵點(眼、鼻、口等周圍的要點 key points),並在接收器端運用所抓到的臉部要點來重建臉部動畫。如此一來就不需要傳輸完整的畫面,傳輸的資料減少了,所需的頻寬也因而大大減少。

Nvidia 使用的人工智慧技術可以抓住會議參與者的臉部關鍵點

透過上述人工智慧抓住臉部關鍵點的影像壓縮技術,視訊頻寬消耗減少至原本 H.264 串流視訊壓縮標準要求的十分之一,讓服務供應商的成本也跟著減少、終端用戶也可獲得順暢的視訊會議體驗。


透過抓住臉部關鍵點的 AI 影像壓縮技術,視訊頻寬消耗減少至原本 H.264 串流視訊壓縮標準要求的十分之一

 

 

本篇圍上篇,下篇請點最新AI技術Maxine讓你來不及刷牙洗臉也能體面開會(下)

更多人工智慧相關文章請點閱下方連結~

 

 

 

其他閱讀

3款人工智慧彩妝,讓你在家就可試妝、立馬客製粉底液!

人工智慧成最強替身演員 還可能得奧斯卡?

隱私是基本人權!蘋果新功能「App 追蹤透明度」讓 Facebook 急跳腳?

AI判定洋蔥照片「太性感」、乳癌文宣為色情,FB人工智慧出包!

人工智慧連導盲犬的工作也要搶?!導盲犬要被取代了?!

停電就停學?!國小人工智慧虛擬電廠不讓電力問題成為學習阻礙!

南韓偶像製造機這次把腦筋動到人工智慧虛擬偶像身上去了!!

不會畫風景圖?別擔心!!讓人工智慧幫你搞定!!

不會畫風景圖?別擔心!!讓人工智慧幫你搞定!!
不會畫風景圖?別擔心!!讓人工智慧幫你搞定!!
人工智慧還能這樣用?只要隨意畫個幾筆,就能幫你變出一幅美麗風景圖?外來看看要怎麼做吧!!
 

 

 

 

Nvidia 非常擅長將人工智慧技術用於創造擬真的圖像,像是之前的 StyleGEN 就可以合成幾可亂真的虛擬人臉(雖然合成貓咪有點失敗)。去年他們又出了一款 AI 工具「GauGAN」可將信手捻來的線搞草圖,化為擬真的風景圖。

該軟體使用一種被稱為「生成對抗網絡(GAN)」的人工智慧模型,提供一種被 Nvidia 稱為「智能畫筆(smart paint brush)」的工具。 這意味著用戶只需繪製基本的線條輪廓,軟體可以自動以自然紋理(例如草,雲,森林或岩石)填充,最後一個擬真的自然風景就這樣呼之欲出了!

雖然 Nvidia 的「GauGAN」並非是此類 AI 軟體的創舉,但是生成的效果讓人讚為觀止——該人工智慧軟體可讓用戶以極其直觀的方式,生成幾可亂真的景觀。例如,當用戶隨性繪製一棵樹,然後在其下繪製水池時,AI 模型還可將樹的倒影添加到水池中呢!

儘管 Nvidia 提供的 demo 看起來很強大,但是 GauGAN 仍有他的限制。因為生成草地、水等自然物質所涉及的視覺模式是非結構化的。相比之下,生成建築物和家具的圖片要復雜得多,而且結果也差強人意——那是因為這些物體涉及到人類敏銳的邏輯和結構。正如之前我們所看到的 Nvidia 人工智慧生成人臉,雖然 GAN 可說是表現的有模有樣,但這也是拜大量的額外工作所賜。

而 Nvidia 也未透露是否有任何讓該軟件商品化的計畫,但暗示這樣的工具將來可以幫助「建築師、城市規劃師、園藝設計師和遊戲開發商的從業人員」。

NVIDIA 應用深度學習研究部門副總裁 Bryan Catanzaro 表示:「使用簡單的草圖來集思廣益做設計,是要容易得多了!並且該技術能將草圖轉換為高擬真的圖像。」