我們生活在物理世界里,但往往沒有深入思考這樣一個問題:本身是如何迅速理解周邊事物的?
人類能夠對布景的變化、事物之間的彼此關聯等等做出非常自然的反映。而且,這些反映并不會耗費我們多少注意力,同時還能措置得非常妥帖。
但是,人類的這種與生俱來的能力對于機器來說就沒那么簡單了。對于一個事物,其潛在成長的變化方式有成千上萬種可能,這讓計算機學會如何正確地做出預測長短常困難的。
近期,麻省理工學院(MIT)計算科學與人工智能嘗試室(CSAIL)的研究工作者的一項研究成果再次推進了機器學習的成長。深度學習算法僅僅通過一張圖片,就可以讓計算機便生成一小段視頻來模擬圖中場景,并預測接下來會發生的情景。
訓練過程使用了 200 萬個無標簽的鏡頭,視頻總時長達一年。對比使用基準模型算法,營銷網站建設,這一算法生成的視頻更真實。在測試過程中,深度學習算法生成的視頻和比基準模型算法真實度高了 20%。
研究團隊稱,這項技術可以用于改良安檢策略、提高自動駕駛安全性等諸多范圍。據該嘗試室博士生與第一作者透露,這一算法能夠實現人類活動的機器識別從而擺脫人工識此外昂揚費用。“這些視頻展現了電腦認為將會發生的場景,”Vondrick 暗示,“如果你可以預測未來,那么你必需能夠理解目前發生的事情。“Vondrick、MIT 傳授 Antonio Torralba 還有 Hamed Pirsiavash 傳授共同發表的這一成果。Pirsiavash 傳授是 CSAIL 的博士后,現于馬里蘭大學擔任傳授。這項工作將于下周在巴塞羅那召開的神經信息措置系統大會(NIPS)上展出。
MIT人工智能嘗試室使用深度學習算法生成預測性視頻。圖為沙灘、運動、火車站及病院的預測成果
此項目花費了近兩年的時間讓算法“學習”兩百萬幅未加標簽的視頻。
動態視覺許多計算機視覺范圍的研究工作都研究過類似的課題,包羅 MIT 傳授 Bill Freeman。Freeman 傳授近期的關于“動態視覺”的課題同樣是研究對一個場景主動生成未來幾幀的圖像,不外他所提出的問題模型集中在解決未來視頻的揣度上。這是先前研究成果中未呈現過的。
以往的系統模型逐幀重建場景,凡是會在邊緣有較大誤差。與此相反,這項研究并吞了“成立整個場景”的難題,算法從一開始就能發生幀率為 32 的視頻。
“逐幀成立場景就像玩 Telephone Game 一樣(Telephone Game 是什么?傳送門:),在屋里轉一圈后信息便已經大相徑庭了。”Vondrick 說道,“一次性地措置一整個場景,就比如這個游戲中你能將動靜傳給所有人一樣。”
當然,在同時出產所有場景時會有一些權衡,而且針對長視頻,計算機模型也長短常復雜的,但這一成果在逐漸變得準確。這種精準的預測相對于增加的復雜度長短常值得的。為了成立多幀場景,研究工作者訓練計算機來區分前景和布景。爾后將提取的對象放回視頻中再訓練,哪個部門是靜止的,哪個部門是運動的。
研究團隊使用稱作“adversarial learning”的深度學習算法,該方式訓練兩個競爭神經網絡。此中一個神經網絡生成視頻,另一個作為檢測器尋找生成視頻與原視頻的分歧。
通過訓練,視頻生成的成果便可以騙過檢測器。此時,這一模型可以生成諸如海灘、火車站、病院、高爾夫球場等場景。比如,海灘模型可以生成波浪,高爾夫球場模型可以生成草坪上走動的人群。
團隊使用兩個彼此競爭的神經網絡。高斯白噪聲輸入到系統G發生虛假視頻,選擇性的將真是視頻或是虛假視頻送入到系統D中,輸出后得到真實的視頻。
此中一個網絡的工作過程具體如上圖,將 100dB 的白噪聲分袂輸入到前景和布景圖流中,在進行采樣和 Sigmoid 蒙版措置,得到參數并按照公式生成空時圖像矩陣,從而發生視頻。