來源:映維網(wǎng) 作者 夢秋
復(fù)雜的捕獲設(shè)備可用于生成非常高質(zhì)量的人類體三維重建。這種系統(tǒng)主要依靠昂貴的高端基礎(chǔ)設(shè)施來處理捕獲的大量數(shù)據(jù)。由于每幀需要數(shù)分鐘的計(jì)算時間,所以當(dāng)前的技術(shù)不適合實(shí)時應(yīng)用。
關(guān)于“volumetric”翻譯:
volumetric是volume的變形,主要含義指“體積”,是一種“體積”上度量。行業(yè)常見翻譯“容積”是一種錯誤的翻譯,映維網(wǎng)也曾錯誤用過。“容積(容量)”在英語中一般用 capacity 來表達(dá),而不是用volume 。
假設(shè)一個金字塔體積是A,內(nèi)部容量(容積)是B,金字塔墻壁的體積是C,則A=B+C。如果對該金字塔進(jìn)行volumetric度量,那結(jié)果是跟A相關(guān)的,但如果翻譯成“容積”結(jié)果就是跟B相關(guān),所以用“容積”是不對的。一個物體有體積,但不一定有容積。 在計(jì)算機(jī)里,volumetric指三維立體上的度量,相關(guān)詞組映維網(wǎng)最早在2015年翻譯成“體式/體式三維/體式視頻”等,后經(jīng)多次反復(fù)研究論證后,統(tǒng)一簡化成更恰當(dāng)直觀的“體三維”,也更有專業(yè)術(shù)語的味道。
另一種進(jìn)行人類體三維重建的方法是將實(shí)時非剛性融合管道擴(kuò)展到多視圖捕獲設(shè)置中。然而,相關(guān)的結(jié)果存在幾何失真、紋理質(zhì)量差和光照不準(zhǔn)確等問題,難以達(dá)到增強(qiáng)現(xiàn)實(shí)/虛擬現(xiàn)實(shí)應(yīng)用所要求的質(zhì)量水平。
針對這個問題,谷歌正在積極探索可行的實(shí)時解決方案。
美國專利商標(biāo)局日前公布了一份名為“Volumetric Capture Of Objects With A Single Rgbd Camera”的專利申請。其中,谷歌描述了一種利用單個RGBD攝像頭對對象進(jìn)行體三維捕捉的方法和系統(tǒng)。
在一個實(shí)施例中,一種方法包括使用單個RGBD攝像頭接收包括顏色數(shù)據(jù)和深度數(shù)據(jù)的第一圖像;確定與顯示第二圖像的增強(qiáng)現(xiàn)實(shí)和/或虛擬現(xiàn)實(shí)顯示器相關(guān)聯(lián)的視點(diǎn);接收包括第一圖像中的對象的至少一個校準(zhǔn)圖像;并且根據(jù)所述第一圖像、所述視點(diǎn)和所述至少一個校準(zhǔn)圖像生成第二圖像。
在一個實(shí)施例中,所述的至少一個校準(zhǔn)圖像可以是對象的輪廓圖像。第二圖像的生成可以包括,通過將二維關(guān)鍵點(diǎn)映射到與至少一個校準(zhǔn)圖像相關(guān)聯(lián)的深度數(shù)據(jù)的相應(yīng)三維點(diǎn),確定對象的目標(biāo)姿態(tài)。第二圖形的生成同時可以包括,使用卷積神經(jīng)網(wǎng)絡(luò)將所述至少一個校準(zhǔn)圖像和所述對象的目標(biāo)姿態(tài)作為輸入,通過在所述至少一個校準(zhǔn)圖像中翹曲所述對象來生成所述第二圖像。
進(jìn)一步而言,第二圖像的生成可以包括,在具有至少一個校準(zhǔn)圖像作為輸入的卷積神經(jīng)網(wǎng)絡(luò)的第一通道中生成至少一個部分掩模(Part Mask),在卷積神經(jīng)網(wǎng)絡(luò)的第一通道中生成至少一個部分圖像(Part-Image)。然后,卷積神經(jīng)網(wǎng)絡(luò)將至少一個部分掩模和至少一個部分圖像作為輸入,并在第二通道中生成第二圖像。第二圖像的生成可以包括使用卷積神經(jīng)網(wǎng)絡(luò)的兩個通道,所述卷積神經(jīng)網(wǎng)絡(luò)通過最小化與對象翹曲相關(guān)的至少兩個損失來訓(xùn)練。可以使用神經(jīng)網(wǎng)絡(luò)混合第二圖像以生成第二圖像的缺失部分。第二圖像可以是對象的輪廓圖像。所述方法同時包括將第二圖像與背景圖像合并。
在一個實(shí)施例中,所述方法同時可以包括預(yù)處理階段。在預(yù)處理階段中,可以在對象姿態(tài)改變的同時捕獲多個圖像;將所述多個圖像存儲為至少一個校準(zhǔn)圖像;根據(jù)目標(biāo)姿態(tài)為所述至少一個校準(zhǔn)圖像中的每一個生成相似性得分;以及根據(jù)相似度得分從所述至少一個校準(zhǔn)圖像中選擇所述至少一個校準(zhǔn)圖像。
簡單來說,系統(tǒng)可以首先通過RGBD攝像頭捕獲包含顏色數(shù)據(jù)和深度數(shù)據(jù)的第一圖像并確定第一圖像中的對象的姿態(tài);系統(tǒng)可以同時根據(jù)眼動追蹤確定用戶的視點(diǎn);根據(jù)對象姿態(tài)和用戶視點(diǎn),系統(tǒng)可以確定校準(zhǔn)圖像;最后,根據(jù)第一圖像、用戶視點(diǎn)和校準(zhǔn)圖像,系統(tǒng)利用卷積神經(jīng)網(wǎng)絡(luò)實(shí)時生成在AR/VR顯示器顯示的第二圖像。其中,第二圖像為體三維多視圖圖像。
谷歌在專利中寫道:“通過利用卷積神經(jīng)網(wǎng)絡(luò),單個RGBD攝像頭可以實(shí)時地捕獲和儲存校準(zhǔn)圖像,并用于為增強(qiáng)現(xiàn)實(shí)和虛擬現(xiàn)實(shí)生成高質(zhì)量的體三維重建多視圖圖像。”
相關(guān)專利:Volumetric Capture Of Objects With A Single Rgbd Camera
名為“Volumetric Capture Of Objects With A Single Rgbd Camera(使用單個RGBD攝像頭對對象進(jìn)行體三維捕捉)”的谷歌專利申請最初在2020年4月提交,并在日前由美國專利商標(biāo)局公布。需要注意的是,這只是一份專利申請,尚不確定實(shí)際的應(yīng)用效果,而且不確定谷歌是否會或?qū)⒂诤螘r商業(yè)化所述的發(fā)明技術(shù)。
原文鏈接:https://yivian.com/news/79741.html