大多數人對于預測三維人體姿態可能不太關注,但機器人、計算機圖形學和有關物體運動的力學分支等其它關注運動學的領域,將能從這點系統中受益。
姿勢預測是人工智能(AI)以前就已經應用的一項任務,最近,谷歌在一定程度上開始應用,但之前的一些工作遇到了障礙:它以非自然的方向拉伸數字關節和骨骼,尤其是當關節旋轉時。
幸運的是,Facebook人工智能研究部門、谷歌大腦以及蘇黎世聯邦理工學院的最新研究都承諾將解決這個問題。本周,在Arxiv.org上發表的一篇論文“模擬人類運動的模型”中,研究人員描述了一個人工智能系統,它通過將關節旋轉作為一種復雜的數字系統,并通過懲罰關節位置錯誤來改進姿態的生成。
圖:AI系統生成的人體姿態
作為論文的合著者解釋,復發性神經網絡——一種人工智能算法具有學習能力的長期依賴,歷來都被用來執行短期和長期預測,而卷積神經網絡算法非常善于分析視覺表象,已經成功地應用于長期代運動(從一個位置到另一個位置的運動)。但由于人體姿勢的固有隨機性,完美的模型仍然難以獲得。
“人類的運動是一個具有高度不確定性的隨機過程,”研究人員寫道,“對于給定的過去,未來可能會有多個框架序列,不確定性會隨著時間的推移而增加。”
大多數模型都運用了過渡運算來預測下一個姿勢,它們從攝取的記錄幀中輸出記錄的目標幀,這在很大程度上是有效的。但它不會讓他們暴露自己的錯誤,因此會阻止他們從這些錯誤中恢復。
圖:AI模型生成的姿態
相比之下,研究人員提出的系統使用了一個卷積神經網絡,該網絡可以查看過去的幀,隨著時間的推移,逐漸暴露在自己的預測中,并學習如何進行長期預測。同時,損失函數——將一個或多個變量的值映射到實數上的函數,作為輸入關節旋轉并計算每個關節的位置。這兩位作者說,這既提高了模型的穩定性,又減少了誤差。
為了驗證模型的短期姿態預測能力,研究人員搜集了360萬份人體姿態數據,這是一個開源的三維人體姿態數據集,其中360萬份人體姿態來自于7位演員執行15個動作時的姿態,以及相應的圖像,并對包含運動樣本的不同數據集進行了長期生成測試。
在短期預測任務中,合著者報告了人類3.6米基線的改善。在長期姿態生成的情況下,目標是生成給定平均速度和地面軌跡的姿態序列,他們將模型描述為與最近的工作相比具有“定性”,同時允許更好地控制時間和空間約束。他們把四元數神經網絡擴展到其他與運動相關的任務,如視頻中的動作識別或姿態估計,并使用“直接在四元數領域執行計算”的神經網絡。
【來源:千家網】