<strike id="qn3sz"></strike>

<rp id="qn3sz"></rp><rp id="qn3sz"></rp>
<tbody id="qn3sz"></tbody>

<button id="qn3sz"><acronym id="qn3sz"></acronym></button>
<form id="qn3sz"><tr id="qn3sz"></tr></form>

<li id="qn3sz"><acronym id="qn3sz"></acronym></li>
技術動態 > 正文
AI目標檢測新突破 商湯提出全新弱監督目標檢測框架
2020/2/13 8:55:00   商湯      關鍵字:AI 目標檢測 商湯 弱監督目標      瀏覽量:
商湯科技視頻大數據研究團隊提出了一種全新的基于物體實例挖掘(Object Instance Mining, OIM)的弱監督目標檢測框架,只需要標注圖像中出現的目標物體類別,通過算法“觸類旁通”找出圖像中的全部物體,并進一步確定全部目標物體的類別和位置信息。
  目標檢測領域,又迎來新突破。

  目標檢測,簡而言之就是檢測出圖像中所有感興趣的物體,并確定它們的類別和位置,它在自動駕駛、圖像理解、智慧城市等領域都有非常廣泛的應用。

  然而,現有的基于深度學習的目標檢測方法成本甚高——需要標注每個圖片/視頻中的所有目標物體的類別和位置信息,這種方法也叫強監督目標檢測方法。

  商湯科技視頻大數據研究團隊提出了一種全新的基于物體實例挖掘(Object Instance Mining, OIM)的弱監督目標檢測框架,只需要標注圖像中出現的目標物體類別,通過算法“觸類旁通”找出圖像中的全部物體,并進一步確定全部目標物體的類別和位置信息。

  與強監督目標檢測所需的標注相比,該方法極大地降低了標注的成本,加快了算法的產品落地速度,該論文被AAAI 2020收錄。

  那么他們是如何實現的呢?

  ▎全新弱監督目標檢測框架

  該目標檢測框架主要由多實例檢測(MID,Multiple Instance Detection)及目標實例挖掘(OIM,Object Instance Mining)兩個部分構成,具體如下圖1:

  圖1:物體實例挖掘弱監督目標檢測框架
  比如你輸入一張圖片,系統會預先提取出來潛在的物體候選框(Region Proposals,圖中藍色框),再和原圖一起,送入到神經網絡(Backbone Network)進行模型訓練,將這些潛在的框進行分類,并分離出圖中的物體和背景。

  這個過程都是通過現有的MID方法實現,但這種方法的結果不夠準確。

  商湯研究團隊在MID方法的基礎上創新性地融入了OIM方法;诤蜻x區域的特征,OIM方法建了空間圖(Spatial Graph)和外觀圖(Appearance Graph)。

  圖2:物體實例挖掘過程示例
  可能很多人有疑問:空間圖和外觀圖是個啥?

  空間圖的官方解釋是,基于特征最明顯的候選框,通過IOU(Intersection over Union,即重疊部分)>0.5的條件,尋找與該候選框空間相似的其他候選框構成的空間圖,并給這些候選框賦同樣的類別信息,加入模型訓練。

  比如圖2中的(a)就是空間圖,這張圖最先檢測到一輛銀色車,它的特征很容易被學到,對應的物體框精度也比較高,根據空間相似度,挖掘到其他含銀色車的候選框。

  基于外觀相似度,可以計算它與其他候選框之間的外觀相似度,挖掘圖片中可能屬于同一類別的物體實例,建立外觀圖,比如圖b和c,通過外觀相似度找到了另外兩輛黑色車。

  找到之后,再建立和圖(a)類似的空間圖——包含更多物體實例,進而不斷循環,這個模型就可以識別不同類別的物體,識別越來越多的物體實例。

  再把所有潛在的物體加入到網絡學習過程中,就能學到更魯棒的特征,最終輸出的檢測結果精度更高。

  除此之外,本文還引入了物體實例權重調整損失函數(Reweighted loss),使網絡可以同時學習到更完整的物體實例,從而讓弱監督目標檢測方法得到更加準確的檢測框。

  因為對于圖像中的一些非剛性物體,比如人體、貓狗等,由于其局部區域非常具有辨識力(如貓臉),弱監督檢測算法檢測到的框可能是貓臉的框,但通過本文提出的損失函數可以學習到完整的貓,使檢測結果更完整。

  ▎檢測準確率行業領先

  本文在PASCAL VOC 2007訓練集上進行了弱監督物體實例挖掘過程的可視化,如下圖3所示(從左到右),隨著網絡的迭代學習,更多更準確的物體實例可以被檢測出來并加入訓練中。

  圖3:目標實例挖掘過程,藍色框是指檢測不正確的框(overlap<=0.5),紅色框是指正確檢測到的框(overlap>0.5),下半部分是指候選框的響應及變化

  圖3是檢測奶牛的過程,第一張第一列是隨機初始化的結果,網絡還沒進行學習;第二列至第四列是網絡迭代的不同階段(第一個迭代, 第三個迭代,和最后的迭代),可以看出,訓練到一定階段,算法不僅能檢測出所有的奶牛,而且奶牛的檢測框也越來越精確。

  本文使用PASCAL VOC 2007及VOC 2012數據進行了測試,比較了物體實例挖掘(OIM)方法與其他弱監督檢測方法的效果。結果表明,本文提出的弱監督物體實例挖掘方法在定位精確率以及檢測準確率均達到或超過目前最先進的方法。

  表1:OIM與其他目前最先進的方法在PASCAL VOC 2007 測試集上檢測精確度的比較(AP) (%),mAP是指平均檢測精度

  表2:OIM與其他目前最先進的方法在PASCAL VOC 2007訓練驗證集上定位精確度的比較(CorLoc) (%)

  表3:OIM與其他目前最先進的方法在PASCAL VOC 2012 驗證集/測試集上檢測精確度的比較(AP) (%)

  表4:OIM與其他目前最先進的方法在PASCAL VOC 2012訓練驗證集上定位精確度的比較(CorLoc) (%)
能下分的捕鱼