高新波：異質圖像合成與識別（1）

發布人：深度學習大講堂時間：2020-11-12 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

發布文章

編者按：在機器視覺普及之前，傳統模式識別系統都是基于高質量的輸入圖像的，要求待識別對象與圖像采集設備之間很好的配合，只有這樣才能獲得較好的識別效果。隨著圖像采集設備的普及，獲得目標圖像的代價越來越小，由此而造成所采集到的圖像質量參差不齊。在一些敏感的場合，還會出現擬識別對象與采集設備之間的不配合，造成無法獲得對象的正面清晰圖像，使得傳統模式識別系統難以奏效。而通過引入人類智慧，利用畫家經驗，可以根據低質量的圖像或圖像序列，來生成素描畫像，基于機器學習方法可以學習畫像與圖像之間的復雜映射關系，從而由畫像合成出可用來進行模式識別的圖像信息，進而取得良好的識別結果，我們可以稱之為異質圖像識別，或模式識別2.0。

本文中，來自西安電子科技大學的高新波教授將為大家介紹，如何通過數據驅動和模型驅動兩類方法，實現異質圖像的合成與識別。

文末，提供文中提到參考文獻的下載鏈接。

我陪伴VALSE度過了七年之癢，今年就堅持到八年抗戰了。今天可能是我最后一次在VALSE上做學術交流，所以我希望能系統總結一下我們團隊這八年以來在異質圖像合成和識別方面的工作。

首先，我們來看一下異質圖像合成與識別的背景。對于模式識別任務來說，理想的識別系統經過比對以后可以很容易地識別出這個人的身份。上圖是理想的人臉識別系統。

實際系統是當人站在攝像機前面時，攝像機可能是低分辨的，也可能人是不配合的，因而得到的圖像質量是非常差的。在《今日說法》節目中發生案件時我們得到的圖像總是不清楚，這樣的話識別的效果就大打折扣了。

上圖是一個真實案例，有人在河的對面發現了兩個逃犯，于是拍了照片發給公安部門，由于分辨率太低公安部門的識別系統根本識別不出來，但是善于素描的人員可以通過想象、經驗畫出畫像，再利用畫像來排查嫌疑犯。

上圖左側是春秋戰國時期利用畫像追兇的例子，由于伍子胥的畫像被掛在了城墻上，他過昭關的時候一夜急白了頭。右側是歐洲1881年報紙上關于鐵路殺手追兇的報道，比我們整整晚了2000多年。

基于畫像追兇有實際案例。上圖中上方的吉布森女士是休斯敦警察局的職員，她有一次下班時遭到搶劫，因為她是畫家就把畫像畫出來，結果第二天就破案了，從那之后她已經破了2000多個案件。畫像追兇來自中國，為什么成功在美國呢？我就在網上搜索了一下，發現我們國家也有這樣的人才，比如深圳警察局的李建華同志，利用他的畫像追兇已經成功偵破了幾個大案，所以畫像追兇確實可行。

這樣一來，當我們得到的圖像是不清晰或者是非正面圖像的時候，是不是可以通過引入人的智慧，利用畫家得到清晰畫像，用畫像直接進行識別是否可行呢？上圖是我們加入人為畫像的識別系統。我們測試了一下，結果也不盡如人意。因為我們的畫像主要是通過線條疏密來表現圖像的變化的，而照片則是靠灰度深淺來反映，最終的結果是把紋理比較豐富的孫悟空識別出來了。

我們做了如上圖所示的很多實驗，結果都不太好。

原因在于圖像和畫像兩者之間的表達方式不同。這樣一來我們就考慮可能需要做一個從畫像到照片的轉換系統。這就是上圖所示的異質圖像變換所做的工作。

如上圖所示，通過把畫像轉化為照片，我們發現轉化之后的識別結果就正確了。所以我今天報告的主題就是異質圖像變換，主要包括畫像和照片之間的轉換。其實不僅僅局限畫像到照片，其他異質照片也可以通過機器學習來轉化。

上圖顯示了我們做的工作，證明了經過轉化以后識別率都非常高。

傳統的模式識別系統中物理空間的人通過傳感器就轉變到信息空間去，現在又把人的智慧加進來，形成上圖中物理空間、信息空間、認知空間三元融合的空間，這與今天人工智能的一個分支----混合增強智能是完全相關的。

它的哲學基礎就是上圖李國杰院士提出的新信息世界觀：物理世界、信息世界和人類社會組成的三元世界。

去年北大女碩士生章瑩穎在美國失蹤，最后找到如上圖的監控錄像。從監控錄像中基本上只能看出人的形狀，中國的警察林宇輝根據經驗畫出了畫像。我們這個系統把畫像轉成照片，在人臉識別系統中前10個人里面就把犯罪嫌疑人找出來了。所以，這個系統確實是有用的。

為此，我們也和相關公安部門進行合作，在很多案件里面都發揮了作用。

所以將來可能是這樣的，通過不太清晰的監控或者非正面的圖像監控，還有目擊證人的描述可以形成畫像，利用我們這個系統轉成照片，轉成照片以后利用人臉識別系統進行識別，識別以后就可以實施抓捕了。可能公安部門認為我們的邏輯太簡單，但我們只是提供一份可供參考的線索。

接下來，重點來講一下講異質人臉圖像合成和識別。關于異質圖像的合成和識別我們做了將近十幾年的工作，我今天系統總結一下。整個工作可以分成兩大類，一種是基于online學習的data-driven的方法，通過輸入照片以后，利用訓練照片畫像對來合成畫像或者由畫像合成照片。而offline學習的model-driven的方法則是通過機器學習學到model以后，不再需要訓練樣本，將輸入通過映射函數得到生成的畫像。