學術咨詢服務，正當時......期刊天空網是可靠的職稱工作業績成果學術咨詢服務平臺!!!

基于 YOLO 和單目深度估計的實時視頻通信隱私保護

發布時間：2022-05-10所屬分類：計算機職稱論文瀏覽：1次

摘要：摘要：基于 tiny-YOLOv3 提出了一種目標檢測、單目深度估計和語義分割的三任務神經網絡 tiny-depth-YOLO，實現在實時視頻通信中對背景人員的隱私保護 . 采用編碼器-解碼器結構，將逐像素的稠密深度估計轉換為深度標簽，并同 YOLO 的邊界框、置信度、分類標簽一同訓練

　　摘要：基于 tiny-YOLOv3 提出了一種目標檢測、單目深度估計和語義分割的三任務神經網絡 tiny-depth-YOLO，實現在實時視頻通信中對背景人員的隱私保護 . 采用編碼器-解碼器結構，將逐像素的稠密深度估計轉換為深度標簽，并同 YOLO 的邊界框、置信度、分類標簽一同訓練，在推理階段，直接回歸出帶有深度的目標檢測信息 . 采用 MobileNet 的深度可分離卷積優化系統中的卷積操作，減少推理階段的運算量 . 實驗表明，該系統可以完成對視頻圖像中人員的實例分割，并根據相對深度信息對背景人員進行遮擋和模糊，較好地實現了準確性和實時性的平衡，可以用于實時視頻通信中的隱私保護 .

基于 YOLO 和單目深度估計的實時視頻通信隱私保護

　　關鍵詞：目標檢測;單目深度估計;語義分割;多任務學習;YOLO;MobileNet

　　人們日常使用實時視頻通信如視頻會議、網課、直播時，可能會將參會者身后的其他人員攝入畫面，引發隱私保護問題，造成不必要的麻煩和尷尬 . 國內外視頻會議提供商大多采用虛擬背景、背景模糊等方法對視頻顯示區域進行保護，但這些方法存在會完全隱藏背景環境信息的缺點，若定義距離攝像頭較遠的人員為非參會背景人員，改進目標是僅去除背景人員，保留背景環境 .

　　為了從視頻流中檢測到不同人員并判別其距離攝像頭遠近，提出一個基于卷積神經網絡的三任務深度學習系統，分別是：①目標檢測，從視頻中實時檢測出不同人員;②語義分割，從視頻中語義分割出不同人員實例，同目標檢測的邊界框(Bounding box)結合得到每位人員的實例分割;③單目深度估計，對每位人員實例或邊界框估計深度，判別其是否為背景人員，再對其遮擋或模糊以實現隱私保護 .

　　1 相關工作

　　系統的第一個任務是目標檢測，按照是否生成候選框可以分為：兩步法(Two-stage)，如 RCNN 及基于 RCNN[1]改進的 Fast-RCNN[2]、 Faster-RCNN[3] 等 ;一步法(One-stage)，如 YOLO[4]和 SSD[5]. 一步法的效率一般高于兩步法，出于對實時性的考慮，編碼器(Encoder)骨干網絡(Backbone network)使用基于修改后的 tiny-YOLOv3.

　　系統的第二個任務是圖像分割，按照是否分割出單個實例可以分為：語義分割，如全卷積網絡(FCN)[6];實例分割，如 Mask-RCNN[7]、 YOLACT[8]等 . 圖像分割近年的改進是將簡單的反卷積(Deconvolution)或上采樣(Upsample)修改為解碼器(Decoder)結構，加入跳級連接(Skip connection)實現高低層特征融合，解決細節缺失問題 . 本系統借鑒 YOLACT 的思想，在語義分割的基礎上疊加邊界框，實例分割出圖像中的不同人員 .

　　系統的第三個任務是單目深度估計(MDE)，基于單個攝像機的輸入，將卷積神經網絡(CNN)運用到單幅 RGB 圖像來預測深度圖 . 先通過卷積神經網絡的編碼器(Encoder)獲取高維特征信息，而后通過解碼器獲取原分辨率的預測圖像 . 稠密(Dense)的深度估計與語義分割都是一種逐像素的分類任務，在深度估計中是預測某個像素屬于哪一個深度，在語義分割中是預測某個像素屬于哪一種物體，通過將不同深度或者物體分類的像素進行可視化渲染，獲得人類易于理解的深度估計和語義分割圖 .

　　實踐中可將以上三個任務在同個神經網絡上進行聯合訓練、同時推理，這方面已進行了很多研究 .YOLACT 同時進行目標檢測和語義分割并最終合并兩者結果實現實例分割 . NEKRASOV 等在文獻[9]中使用 Light-WeightRefinenet[10]作為骨干網絡，在不對稱數據集上實現了實時的語義分割和深度估計，在 NYU Depth v2(NYUDv2)和 KITTI 上獲得了很好的效果 .CHEN 等則在文獻[11]中實現了實時的三任務神經網絡，在 Cityscapes 數據集上實現了室外駕駛場景下同步的目標檢測、語義分割和深度估計 .

　　多任務計算機視覺網絡經常使用深度可分離卷積，其在 Google 的 MobileNet[12]中提出 . 它可以保證與普通卷積同樣運算結果的情況下，減少參數數量，降低運算量，加快推理速度 . 基本思想是將普通卷積分為兩步，用深度卷積(Depthwise Convolution)降低分辨率，用點卷積(Pointwise Convolution)擴展特征圖數量，獲取高維特征 . 深度卷積的一個卷積核只獨立地操作一個通道，點卷積可理解為 1×1 的卷積，卷積核的尺寸為 1×1×M，M 為上一層的通道數，最終在深度方向上進行加權組合，生成新的特征圖 . 網絡中的所有非 1×1 卷積操作都能使用深度可分離卷積替換 .

　　2 網絡結構

　　2.1 骨干網絡

　　整個網絡是解碼器-編碼器(Encoder-de⁃ coder)結構，編碼器的骨干網絡是基于MobileNet 的tiny-YOLOv3，解碼器的設計參考了YOLACT，解碼器的作用一是目標檢測的多尺度預測，二是語義分割恢復原分辨率，最后將帶深度信息的目標檢測和語義分割疊加成最終輸出 . 編碼器和解碼器加入跳級連接融合多特征，保證魯棒性和精確性 . 系統命名為 tiny-depthYOLO，總體結構見圖 1.

　　2.2 網絡細節

　　tiny-depth-YOLO 只關心人員實例的相對深度關系，不需要稠密的深度估計圖像，對每個檢測到的邊界框進行粗略的離散化深度估計，保留相對深度最淺的人員，其他被認為是背景人員進行遮擋和模糊 . 具體是將深度估計作為目標檢測任務的一個模塊，離散化數據集中的深度信息，根據深度圖(Depth map)生成深度標簽(Depth label)，同 YOLO 中的邊界框、分類標簽、置信度一同訓練，在推理階段一起進行回歸，從而獲得帶有深度信息的邊界框 .FU 等在 DORN[13]中提出空間遞增離散化，將 8 位灰度值的真值深度(Ground-truth depth)按照空間遞增的方法劃分為 5 個深度級別，回歸問題轉化為多分類問題 . 這種增距離散(Spacing-increasing discretization，SID)優于之前的等距離散(Uniform discretization，UD)，解決了等距離散平均劃分深度級別造成較大深度值下估計誤差大的問題，實驗證明增距離散劃分對中短距離有更好的預測效果 .

　　網絡各層細節見表 1. 這里層的命名參考 YOLO，Conv 表示卷積層，每個非 1×1 的 Conv 層事實上都由深度可分類卷積組成，表中沒有展示，Max pool 表示最大池化層，416×416× 16 表示輸出 416×416×16 的張量，Route 12 表示將第 12 層輸出的特征圖作為下一層卷積層的輸入，Route 23 6 表示將第 23 層和第 6 層輸出的特征圖連接為 52×52×256 作為下一層卷積層的輸入 .3 個 YOLO 層進行預測，每個尺度 3 個錨框，YOLO 前的 87 由 3×(5+19+5)計算得到，表示 3 個錨框，每個邊界框的 5 個參數，19 個分類標簽，5 個深度標簽 .

　　3 實驗

　　3.1 數據集生成

　　本文的三任務網絡要求數據集的標注應包括用于目標檢測的邊界框和類標簽、用于語義分割逐像素著色和類標簽，以及用于深度估計的逐像素深度信息 .NYUDv2 數據集中僅有 1 449 幅圖像同時含有語義和深度標注(795 幅訓練集，654 幅驗證集)，超過 300 000 幅圖像只有深度標注 .PASCAL VOC 2007(5 011 幅訓練集，4 952 幅測試集)則只有實例和目標檢測標注，缺少深度標注 . 這樣的數據集即非對稱數據集 .NYUDv2 缺少大量面對鏡頭的 person 圖像，PASCAL VOC 2007 則有很多，實時視頻通信中面對鏡頭的 person 是需要處理的主要目標圖像，將兩個數據集聯合起來進行訓練 .

　　首先對兩個數據集中的分類標簽進行預處理 . 將 NYUDv2-40 中的 person 類保留出來，其他類映射到 NYUDv2-13 的 13 個類中(這 13 個類中沒有 person)，加上保留的 person 類，生成一個 NYUDv2-14 的數據集 .PASCAL VOC 2007原先有 20 個類，考慮視頻通信的應用場景，去除掉戶外的分類，只保留 bottle、cat、chair、dog、 person、sofa、tvmonitor、diningtable、potteplant 這 9 個類，同時 chair、person、sofa、tvmonitor 分別同 NYUDv2-14 中的 chair、person、sofa、tv 類重復，所以認為它們是一類 . 將這些分類合并，最終獲得的分類是 19 類，均為室內場景目標 .

　　其次將兩個數據集的圖像調整到一個固定大小(416×416). 引入別的效果良好的神經網絡，計算其在另一任務中的預測結果作為合成真值(Ground-truth)數據 . 訓練時使用合成真值數據先預訓練網絡，然后再使用擁有兩種真實標簽的真值數據對網絡調優 . 最終的數據集生成及訓練步驟如下：

　　step 1 將 NYUDv2 中 1 449 幅標注圖像(記作 NYUDv2-labled-1449)和只有深度標記的圖像(300 000 中隨機選取 2 000，記作 NYUDv2- unlabled-2000)通過 YOLACT 生成實例分割，取每個實例上的最小、最大 x 和 y 坐標，獲取邊界框 .

　　step 2 PASCAL VOC 2007 的數據集通過 FastDepth[14]生成稠密深度圖，將 5 011 幅原訓練集分為 3 011 幅的預訓練集(記作 PASCAL VOC 2007-train-3011)和 2 000 幅的訓練集(記作 PASCAL VOC 2007-train-2000).

　　step 3 將 NYUDv2 和 PASCAL VOC 2007 中所有的深度圖轉換為深度標簽，對每一個邊界框，只取實例分割的像素，對其深度圖使用 DORN 的 SID 生成離散的深度標簽，并且認為一個邊界框中的深度標簽是相同的 .

　　step 4 將 NYUDv2-unlabled-2000 和 PAS⁃ CAL VOC 2007-train-3011 合并后輸入網絡，進行預訓練 .

　　step 5 將 NYUDv2-labled-1449 中 795 幅訓練集數據和 PASCAL VOC 2007-train-2000 合并對網絡進行再次訓練調優 .

　　step 6 使用 PASCAL VOC 2007 4 952 幅的測試集和 NYUDv2 654 幅的測試集測試 .

　　相關知識推薦：sci論文發表流程和國內一樣嗎

　　在實驗測試中，只訓練 person 類，效果并不如對多個類別進行訓練，最終選定NYUDv2-13 分類和 PASCAL VOC 2007 分類的并集進行訓練，具體已經在前文說明，只是在推理階段輸出檢測和分割到的 person 類并對其深度進行估計 .

　　3.2 損失函數

　　損失函數由三部分組成，目標檢測誤差(Lobj )、深度估計誤差(Ldepth)和語義分割誤差(Lseg)，目標檢測錯誤使用 YOLOv3 定義的損失函數，由三部分組成，分別是邊界框坐標誤差(Liou)、置信度誤差(Lcoef )和分類誤差(Lcls). YOLOv3 在論文中描述三者均是均方差(Sum of squared error loss，SSE)，研究其開源實現，發現分類誤差實際使用的是二值交叉熵(Binary cross entropy，BCE). 對于深度估計誤差，將深度圖轉換為深度標簽，使得深度估計轉換為分類問題，因此深度估計誤差也使用 BCE. 語義分割誤差使用 softmax 交叉熵(Softmax cross entropy). 整個損失函數的簡略定義如下：

　　3.3 最終訓練標簽

　　神經網絡語義分割分支輸出的是 416× 416×(19+1)的張量，19 是 19 個分類標簽，1 代表背景 . 目標檢測分支最后的輸出是一個 S× S×B×(5+C+D)的張量，表示 S×S 個小格能預測 B 個框的 5 個參數(w，h，x，y，coef)和 C 個分類，以及 D 個深度標簽 .B 是 3，每個尺度使用 tiny-YOLO 的 3 個錨框(Anchor box)，C 是 19，D 取 5，分別標記為 depth0，depth1，depth2， depth3，depth4，距離由近到遠 . 應注意的是，最后輸出的邊界框對于不同的圖像，可能最小的只有 depth2，那么此時將大于 depth2 的邊界框中的人員算為背景人員，即最終只關心深度的相對關系 .

　　3.4 實驗結果及評價

　　系統使用 PyTorch 實現，在 i7 CPU、16G 內存、GTX 1650 的機器上進行訓練 . 激勵函數使用 Leaky Relu 函數 . 預加載 YOLO 官方提供的 tiny-YOLOv3 的權重，然后凍結某些層，修改網絡結構后繼續訓練 .

　　(1)目標檢測 . 計算機視覺領域多使用 mAP(Mean average precision)來評價目標檢測的效果 .mAP 的本質是多類檢測中各類別最大召回率平均值，也可看作是找到精確率-召回率(Precision-recall)圖下面的面積 . tinydepth-YOLO 同數種 YOLO 實現比較目標檢測的 mAP，代碼來自官方或著名開源實現，使用 3.1 生成的數據集重新進行訓練 .IOU 閾值范圍從 0.5 到 0.95，mAP-50 表示若 IOU>0.5，認為是正樣本，mAP-75 表示若 IOU>0.75，認為是正樣本 . 結果見表 2(mAP 的值越大越好).

　　由表 2 可知，tiny-depth-YOLO 的 mAP 略低于 YOLO 和 MobileNet-YOLO，同 MobileNettiny-YOLO 處于同一水平，對視頻通信中人員的檢測達到了可用可信任的水平 .

　　(2)語義分割 . 逐像素比較 IOU，對比算法采用原論文開源代碼或著名開源實現，預加載已訓練好的權重，使用 3.1 生成的數據集重新進行訓練，檢查 person 類的 IOU. 結果見表 3.

　　實驗表明，tiny-depth-YOLO 的語義分割雖然比單任務、雙任務算法有一定差距，但是同其他的三任務網絡處于同一水平，配合目標檢測，可以實現對人員的實例分割 .

　　(3)深度估計 . 稠密的深度估計多使用 RMSE 來評價輸出的深度圖，tiny-depth-YOLO 使用 DORN 的 UID 將深度圖離散化為深度標簽，只關心深度標簽的相對關系，因此深度估計的評價使用分類問題的評價標準，即比較每個檢測正確的邊界框(IOU>0.75)的深度標簽和 ground-truth 的深度標簽，統計分類錯誤率和相對關系錯誤率 .

　　深度分類錯誤考查單個邊界框的深度標簽分類是否準確，錯誤是指 depth2 分類成了 depth3.

　　深度相對關系錯誤則是考察整幅圖像中數個邊界框的原本相對關系是否被修改，假設畫面中三個人員 a、b、c 的深度標簽分別是 depth1、depth3、depth4，有三種分類情況：

　　① depth1，depth1，depth4;② depth2，depth1， depth4;③depth1，depth2，depth4. 保留最淺深度標簽的處理，只有①②的分類錯誤會影響畫面最后的結果：①中第二個人員 b 被當成了前景人員，沒有處理;②中前景人員 a 被處理了，背景人員 b 沒有處理;③中雖然 b 的 depth3 被分類成了 depht2，他依然會被算作背景人員 . 結果見表 4.

　　實驗表明相對關系錯誤保持在了一個較低水準，可以根據深度信息判別視頻通信中背景人員，為后續的模糊或者遮擋做準備 .

　　(4)執行效率 . 前三個實驗使用 3.1 中步驟 6 測試集中的單幅圖像進行，下面使用網絡公開的一些視頻測試系統推理效率 .在 i7 CPU、 16 G 內存、GTX 1650 的機器上，在 640*360 的分辨率下，幀數達到 15.1 FPS，在 1 280*720 的分辨率下，幀數達到 10.3 FPS，基本達到了實時要求，可以應用于實時視頻通信中的隱私保護 . 系統運行展示見圖 2.

　　4 結論

　　tiny-depth-YOLO 是基于 tiny-YOLOv3 提出的三任務神經網絡，其主要工作在于：①將逐像素的稠密的深度圖轉換成稀疏的深度標簽，直接回歸出帶有深度信息的邊界框，同時進行目標檢測、深度估計和語義分割;②進行數據增廣，使用 NYUDv2 和 PASCAL VOC 2007 雙數據集進行聯合訓練以提高模型的泛化能力 ;③ 使用基于 MobileNet 的 YOLO 作為骨干網絡，減少推理階段的運算量 . 該系統在性能和實時性上達到了平衡，可以應用在實時視頻通信中對背景人員的隱私保護 . 同時依然有改進方向：在目標檢測、深度估計和語義分割三個子任務的性能方面，只是使用了一些基礎的網絡結構，近年來有很多提高其性能的實現方法，如果將這些修改引入該網絡，可以進一步提高判別背景人員的準確性 . 在實時性方面，也可以引入 TVM、TensorRT 等對系統結構進行自動優化，進一步提高推理速度 . 如何提升判別背景人員的準確性、提高推理速度是后續的研究方向 . ——論文作者：陳晨，劉世軍，沈恂

　　參考文獻：

　　[1]GIRSHICK R，DONAHUE J，et al. Rich feature hierarchies for accurate object detection and semantic seg⁃ mentation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition，Columbus，OH， USA，2014：580-587.

　　[2]GIRSHICK R. Fast r-cnn[C]//Proceedings of the IEEE international conference on computer vision，San⁃ tiago，Chile，2015：1440-1448.

　　[3]REN S，HE K，et al. Faster r-cnn：Towards realtime object detection with region proposal networks[C]// Advances in neural information processing systems，Mon⁃ treal，Quebec，Canada，2015：91-99.

　　[4]REDMON J，FARHADI A. Yolov3：An incremen⁃ tal improvement[DB/OL].(2018-04-08)[2021-08-10]. https：//arxiv.org/abs/1804.02767.

　　[5]LIU W，ANGUELOV D，et al. Ssd：Single shot multibox detector[C]//European conference on computer vision，Amsterdam，The Netherlands，2016：21-37.

上一篇：機器視覺技術在工業機器人的應用研究
下一篇：虛擬現實技術在環境藝術設計中的應用初探

熱門核心期刊

sci|ssci服務

EI|SCOPUS服務

翻譯潤色解答

論文發表指導

學術成果常識

學術專題

2023最新分區查詢入口

SCISSCIAHCI

7799精品视频