利用感測器融來合開發立體像機：幾何感知的例項分割

作者：Danny明澤

論文下載：

程式碼下載：

簡介：

例項分割是計算機視覺的一項基本任務，它將感興趣的每個物件分割出來。這對於自動駕駛至關重要，因為知道道路上每個物件例項的位置是至關重要的。在影象的例項分割上下文中，以前的方法只對RGB影象操作，如Mask-RCNN。

本文探索一個新方向——利用感測器融來合開發立體像機。具有差異性的地理資訊有助於分離相同或不同類的重疊物件。此外，地理資訊懲罰不太可能的三維形狀區域建議，從而抑制假陽性檢測。利用偽鐳射雷達和基於影象的表徵，掩模迴歸基於2D、2。5D和3D ROI。這些掩模的預測被一個掩模評分過程融合。然而，公共資料集僅採用較短基線和焦距的立體攝像機，這限制了立體攝像機的測量範圍。本文收集和利用高質量立體圖片（HQDS）資料集，使用更長的基線和更高解析度的焦距。

GAIS-Net 在HQDS 資料集上的結果：

本文主要貢獻如下：

本文提出了一種結合視差圖的地理資訊和影象域語義資訊的幾何感知例項定位網路（GAIS-Net）。我們的貢獻總結如下：

1）透過融合影象和視差資訊來回歸物件掩模對影象進行例項分割。

2）收集HQDS資料集，共8。8K立體對，f×b比當前最佳資料集Cityscapes大4倍。

3）提出了基於影象、基於影象和基於點雲網絡的例項分割的集合表示設計GAIS-Net。用不同的損失訓練GAIS-Net，並使用掩模評分融合這些預測。GAIS-Net達到了最先進的狀態。

方法：

目標是構建一個端到端可訓練的網路來執行自動駕駛的例項分割。系統對每個例項進行分段，併為每個例項輸出邊界框和掩模的置信值。為了利用幾何資訊，採用了最先進的立體匹配網路PSMNet，並在ROI頭部引入視差資訊。整個網路設計如下圖所示。建立了一個兩級檢測器的骨幹網路，如ResNet50-FPN，和一個區域建議網路（RPN）的非最大抑制。透過將立體影象輸入主幹網和RPN來收集目標。與mask-rcnn相同，進行邊界盒迴歸、建議的類預測、基於影象域特徵的mask預測。對應的損失用

Lbox、Lcls、L2Dmask

表示。

2.5D ROI和3D ROI:

使用PSMNet和立體視覺對來預測密集的視差圖，投射到左側立體視覺幀上，RPN輸出區域建議，並從視差圖中裁剪出這些區域，然後把這些裁剪出來的視差區域稱為2。5D ROI。利用back-projecting 2d網格結構化資料到三維點雲處理點雲網絡，back-project差異對映到R3空間，第一和第二元件描述其2d網格座標，第三個元件儲存其差異值，將這種表現稱為3D ROI。

例項分割網路

每個3D ROI包含不同數量的點。為了便於訓練，將三維感興趣區域統一取樣到1024個點，並將所有的三維感興趣區域收集為張量。開發一個點網結構的例項分割網路來提取點特徵並進行匹配掩碼機率預測。將3D特徵重新投影到2D網格中，以計算預測及其損失。由於在基於點雲的例項分割中沒有打破點的順序，因此該投影是有效的。L 3Dmask與L 2Dmask相同，是預測機率mask與匹配ground truth之間的交叉熵損失。

掩模連續性：

對1024個點進行三維ROI均勻取樣。然而，預測的掩模為M3D，其輪廓是敏感的偽鐳射雷達取樣策略。下圖說明了一個不理想的取樣。為了補償不理想的效果，引入了掩模連續性損失。

不理想的抽樣例子。藍色區域代表前景。假設均勻取樣左圖中的每個網格中心點，結果在右圖的佔用網格中顯示點雲。紅色的叉是不需要的取樣點，它們僅僅在前景物件的外面，使得采樣後的形狀與原來的形狀不同。

表示一致性：

利用基於點雲的網路和基於影象的網路進行特徵提取和三維迴歸。這兩個掩模應該是相似的，因為它們來自相同的視差圖。為了評估相似度，計算了M3d和M2。5 d之間的交叉熵，並作為自監督對應損失相關性。透過最小化損失，不同表達語句的網路之間可以相互監督，從而提取更多的描述性特徵用於掩模迴歸，從而在M 2。5D和M 3D之間形成相似的機率分佈。在掩模頭部使用和Mask-RCNN在ROI池後使用同樣的一個14×14特徵網格對mask進行迴歸這個尺寸。

掩模評分和掩模融合：

採用掩模評分法，進一步利用MaskIoU評分法來融合不同表達的掩模預測。掩模融合過程如下圖所示。在推理過程中，將不同代表的特徵和預測掩模分別連線起來，作為MaskIoU頭的輸入，輸出的分數為S，使用相應的掩模分數來融合掩模預測。首先將（M2。5D， S2。5D）和（M 3D， S3D）線性合併，得到視差值（M D， SD）。公式如下：

掩模的評分過程不應該因不同的表現而不同。只使用二維影象特徵和M2D來訓練單個MakIoU，而不是針對每個表示構造3個MakIoU。這樣，MaskIoU模組不會增加更多的記憶體使用，訓練也是有效的。

推斷時間從不同的表示掩模融合的預測:

實驗結果:

在HQDS測試集上的表現：

在Cityscapes資料集上的表現：

利用感測器融來合開發立體像機：幾何感知的例項分割

兩個人去麗江旅遊一趟要多少錢？

fQQ飛車暴風第六人獎勵是什麼？

隨便看看

輪轂上的字母都代表什麼？

我們真的愛過嗎中文歌詞？

漢耕什麼意思？

豆沙炒幹了怎麼補救？

利用感測器融來合開發立體像機：幾何感知的例項分割

兩個人去麗江旅遊一趟要多少錢？

fQQ飛車暴風第六人獎勵是什麼？

猜你喜歡

3d建模和渲染哪個好就業？

APP渠道ROI預測如何做到的？

如何做到可持續性學習？

隨便看看

輪轂上的字母都代表什麼？

我們真的愛過嗎中文歌詞？

漢耕什麼意思？

豆沙炒幹了怎麼補救？