開啟《Medical Image Recognition,Segmentation and Parsing》一書的翻譯和學習。

該書由周少華老師撰寫,出版於2016年。周老師之前是西門子演算法的最高級別科學家,現回中科院計算所當教授了,對整個醫療領域的工業和學術屆都有著很深的理解。

Chapter 1:INTRODUCTION TO MEDICAL IMAGE RECOGNITION, SEGMENTATION, AND PARSING

第一章:醫學影像識別、分割和解析的介紹

1.介紹

醫學影像的識別(recognition)、分割(segmentation)和解析(parsing)是醫學影像分析的核心任務。醫學影像識別是指識別醫學影象中的目標。理論上,目標的識別並不需要對目標進行檢測或定位;但是實際上,通常會結合檢測和定位去輔助完成目標識別。一旦完成識別,或檢測,即得到了目標的最小外包矩形框(bounding box),就可以透過分割的任務尋找目標物體的精確邊界。當影象中存在多個目標物體時,對多個目標的分割就變成了語義解析的任務,即對2D影象或3D影象中的畫素賦予語義標籤(Semantic Labels)。透過將同一目標的畫素或體素打上相同的標籤,就完成了對該目標的分割。

有效的影象識別、分割和語義解析方法能給臨床帶來很大的益處。以下重點圍繞其對影像掃描、影像讀片、高階量化和建模幾方面說:

掃描

:CT和MRI掃描裝置在掃描影象的時候需要設定大量的引數和協議,針對不同病人的掃描,因為需要針對性的設定引數和協議,導致掃描的影象的影象質量有很大的差異。透過高吞吐量掃描節省成本,或避免患者受到過多的輻射等因素,使得診斷CT掃描總會有針對性的對患者的特定區域性區域進行的,不多(減少劑量)不少(獲取足夠資訊)。因此,從偵察影象(預掃描影象)中有效準確的檢測到待掃描器官的位置,在最小的區域內進行掃描,能夠使實際掃描過程中患者接受到更少的輻射、減少時間和成本,增加多次掃描的一致性。

讀片用於診斷、治療和手術計劃

:讀片過程中,當醫生在特定部位或器官上查詢病變時,放射科醫生需要將體素調整到目標位置。發現病灶後,醫生需要生成報告。醫學影像的語義分析能夠將讀片和生成報告結構化為一個線型工作流,從而提高讀片的效率、精度。醫學影像語義分析也是放射治療、干預和外科手術在手術規劃中的先決條件。

高階量化和建模

:如組織體積等臨床引數測量,對疾病診斷非常重要。在沒有智慧後處理軟體的協助下,手動的去定義目標並進行引數的測量,在3D的醫學影像中,是非常費時間的。自動影像語義分析也能克服多次讀片出現不一致結果的情況。最後一點,基於3D目標的分割,使得生物力學和血液動力學建模分析變得可行。

醫學影像解析系統的終極目標,是透過解析複雜的語義,和人體解剖基礎模型(FMA)進行匹配,將人體結構符號表示為人類可理解的形式,並且機器系統能夠導航、解析和解釋的。生物醫學科學領域最大的計算機知識庫中,包含大約75000個種類,超過120000項,2。1百萬的關係實體,來源於168中關係型別,將FMA類別連線成為一個連貫的符號模型。Terminologica Anatomica是更簡單一些的表示模型,是人類解剖屬於的國際標準,包含7500中器官結構。

當前的醫學影像識別、分割和配準技術離終極目標還很遠,主要關注一下語義目標:

1

.解剖標記點

(Anatomical landmarks):人體掃描中,解剖結構資訊明確的點,如肝臟頂部、主動脈弓、恥骨聯合等。

2。

主要器官

:肝臟、肺、腎臟、脾臟、胰腺、膀胱、直腸等。

3。

主要骨結構

:肋骨、椎骨、盆骨、股骨、脛骨、排骨、頭骨、下顎骨、手和足骨結構等。

4。病灶、結節等。包括肝臟和腎臟損傷、肺結節、淋巴結等。

1。2 挑戰和機會

醫學影像分析的臨床應用面臨著巨大的挑戰。主要的挑戰來源於解剖目標的形狀和外觀存在很大的差異,主要由以下因素造成:

感測器噪聲/偽音

:醫學裝置本身的物理噪聲和影象重建誤差。影象為偽影的大小取決於影象的模態和成像引數設定。例如,高劑量掃描的CT影象偽影很小,但是低劑量成像CT則含有很多噪聲。另外嗎,金屬物體(如體內植入物)會在CT影像中產生偽影。在MRI掃描中,偽影來源於磁場本身的不均勻性,梯度的非線性性等。

患者個體差異和患者的移動

:患者之間存在體型差異:胖或瘦、高或矮、成年人或小孩等。因此,解剖結構上會有差異。另外,因為患者的呼吸、心跳週期、血液和腦脊髓液的流動、蠕動、吞嚥,和其他的自行運動,都會導致產生不同的影像、導致不同的解剖形變。

病理狀態,手術和造影劑

:病理狀態會導致更大程度的解剖解剖形變。這導致統計建模變得非常困難。為了更好地理解潛在的情況,造影劑通常用來為一些特定結構造影使其更好的視覺化。造影劑注入後的不同時間影象的表現會不同(造影劑在體內的代謝)。最後,手術切除等會直接完全的改變解剖目標的形狀。

部分掃描和視野

:劑量輻射是CT掃描中的重要關注點。為了減少劑量,只對必須要掃描的部分進行掃描。這樣會產生視野很小的部分掃描影象,導致解剖上下文資訊很弱,甚至完全沒有。因此,標記點或器官不可見或部分可見。在MRI掃描中,為了加快掃描速度通常只進行最小範圍的掃描。

軟組織

:內部的一些器官都是具有相似特徵的軟組織,他們(如肝臟和腎臟)相互接觸,之間的邊界資訊非常弱。但是又必須將這些器官不重疊的分割出來。

醫學影像識別、分割和解析(第一章):介紹

圖 1。1 (a)舉例:CT影象下不同人體區域,嚴重病例,造影劑,弱對比度等的影象

醫學影像識別、分割和解析(第一章):介紹

圖 1。1 (b)不同膝關節病理CT影象,從左到右,從上到下:股骨和脛骨接觸,股骨內含金屬植入物,有嚴重缺損的股骨,骨質酥鬆,未成年人股骨骨質酥鬆,股骨和髕骨接觸題

圖1。1(1)展示了3D CT影像下各種情況的不同表現。(b)展示了各種膝關節病理狀況。

醫學影像的另一個挑戰是臨床應用對精度、穩定性和速度的嚴格要求。讀片和診斷通常不允許出錯。儘管要求很高的精度和穩定性,速度仍不能慢,一個快速的工作流能夠確保醫院的高吞吐量。放射科和外科醫生不會願意話幾個小時甚至幾分鐘去等待一個分析結果。

面臨挑戰,必須探索機遇來應對,目前主要包含以下兩個機遇:

大資料

:醫學掃描越來越常見。例如,2005年在美國大約有57百萬個體接受了CT檢查。到2012年數量超過85百萬。大量資料中展現出來的特異性情況,非常具有統計學意義。

解剖上下文

:不想自然影象,醫學影像具有很強的上下文資訊,例如有限數量的解剖目標,約束和結構化的背景,不同解剖結構之間的關係,強先驗姿態引數資訊等。

根據這些機遇,能夠透過大量資料獲取這樣的上下文資訊的統計機器學習方法非常適用於醫學影像處理。這本書全文的方法都基於機器學習,還包括對多目標的處理。

1。3 從粗糙到精確的目標表示

任何一個智慧系統都開始於一個可理解的

知識表示(knowledge representation,KR)

。KR起到的最基本作用是“它可以代替物體本身。這就會引出一個精確度的問題:它能夠多精確的表示真實的物體?物體最完整的精確表示就是物體它本身,任何其他的表示都是不準確的,它們不可避免地會包括一些的簡化假設”。

在相關文獻中,有各種不同的簡化假設來近似表示醫學目標或解剖結構。圖1。2展示了文獻中常用的不同的形狀表示。

剛體表示

:最簡單的表示是平移模板到目標中心t=[tx,ty,tz],也就是說只考慮目標中心這一引數。完整的剛體表示平移、旋轉和縮放參數θ=[t,r,s]。如果縮放參數是各向同性的(各個方向上縮放的尺度應該一致),剛體變換變為條件更嚴格的相似變換。剛體變換的擴充套件是仿射變換。

自由形式表示

:圖1。2(c-e)展示了常用的自由形式表示,包括基於點的表示(2D曲線

S

和3D曲面

M

),Mask函式φ(x, y, z),水平集函式φ(x, y, z)等。

低維度引數表示

:也叫做統計形狀模型(statistical shape model,SSM),如圖1。2(f)所示,是一種常用的基於點的自由形式形狀的PCA分析的低維度引數模型。其他的低維度引數表示包括M-rep,球函式(spherical harmonics,SPHARM),球面小波(spherical wavelets)等。

醫學影像識別、分割和解析(第一章):介紹

圖 1。2 以2D形狀為例,舉例不同形狀表示。(a)剛體表示(僅平移,t=[tx,ty]);(b)剛體表示(θ=[tx,ty,r,sx,sy]);(c)自由形式表示;(4)自由形式表示:2D二值掩膜函式(e)自由形式表示:2D真值水平集方程(f)低維度引數表示:PCA投影

KR是能夠用於高效計算的一種媒介。因此,採用分層次的,從粗到精的表示以逐漸逼近物體本身、逐漸提高精度的方式,會使得計算量更可觀。

一種常用的從粗到精的3D物體表示由以下幾部分組成

剛體部分:平移、旋轉、尺度縮放參數θ=[t,r,s]

低維引數部分,如PCA形狀空間(由PCA的主特徵係數λ=λ(1:m)表示)

自由形式非剛體部分,如3D形狀S,3D曲面M,或3D Mask或水平集函式φ。

O=[t,r,s;\lambda _{1:m};S]; O=[\theta ;\lambda;M] O=[\theta;\lambda;\varphi ]

(1。1)

PCA形狀空間透過線性投影描述一個形狀:

S={S_{0}}+\sum_{m=1}^{M}\lambda_{m}S_{m}

(1。2)

S0表示平均形狀,Sm表示第m個主特徵形狀。PCA形狀建模形成基本的主動形狀模型(Active shape model,ASM)。在這個分層次的表示中,高階的特徵對應的自由形式部分,也能夠做到層粗到精。對於3D曲面,曲面的頂點密度可以透過引數控制,從稀疏到密集。對於水平集函式,從粗到精需要透過控制乳香解析度實現。

1。4 簡單到複雜的機率建模

透過3D體素分析單目標物體O,可以表示為後驗分佈P(O|V)。一旦P(O|V)已知,可以使用最小均方誤差估計方法(條件均值)、最大後驗估計方法(條件模式),或後驗函式,對物體進行分析。對於多個目標

O_{1:n}

,後驗分佈可表示為

P(O_{1:n}|V)

1。4。1 鏈式法則

當使用粗到精的表示去表示目標O,對整個物體進行聯合建模是很難且低效的。為解決這一問題,常用的方式是採用簡單到複雜的建模方式,將複雜的任務分解成多個簡單的任務。對每一個簡單的任務,能容易進行有效的建模。

採用鏈式法則,將聯合分佈分解成為多個條件機率:

P(O|V)=P(\theta,\lambda,S|V))=P(\theta|V)P(\lambda|V,\theta)P(S|V,\theta,\lambda))

(1。3)

這就將整個任務分解成為三個更簡單的任務。

第一個任務將目標當做剛體進行分析,也可認為是目標檢測或識別,使用P(θ|V);第二個任務是則考慮物體的低些低維形狀引數,表示為P(λ|V,θ);第三個任務則將考慮整個完整的物體,表示為P(S|V,θ,λ),解決分割問題。

實際上,對於單個目標O,完整的對其3D姿態進行有效的建模也是很難的。也可以使用簡單到複雜的建模方式:

P(\theta|V)=P(t|V)P(r|V,t))P(s|V,t,r)

(1。4)

邊緣空間學習(Marginal space learning,MSL)採用了這樣一種策略。

處理多目標

O_{1:n}

問題時,也能採用鏈式法則:

P(O_{1:n}|V)=P(O_{1}|V)P(O_{2}|V,O_{1}),...,P(O_{n}|V,O_{1:n-1})

(1。5)

公式(1。5)中的每一個條件機率,還能透過公式(1。3)和(1。4)進一步分解成更簡單的任務,結合公式(1。3)-(1。5),就形成了一個通用的計算流程,這個流程中只關注一系列的簡單任務,示意圖如圖1。3(a)。

1。4。2 貝葉斯法則,機率建模和基於能量的方法的等價性

根據貝葉斯法則,後驗機率P(O|V)正比於似然函式P(V|O)和先驗機率P(O)

P(O|V)\propto P(V|O)P(O)

(1。6)

基於能量的方法是透過最小化能量函式

\varepsilon (O;V)

,由兩部分組成。第一部分

\varepsilon_{1} (O;V)

和目標O的影像V相關,第二部分

\varepsilon_{2}(O)

代表物體的先驗知識:

\varepsilon (O;V)=\varepsilon_{1}(O;V)+\varepsilon_{2}(O)

(1。7)

令:

\varepsilon (O;V)=-logP(O|V)%uFF1B

\varepsilon _{1}(O;V)=-logP(V|O)%uFF1B

\varepsilon _{2}(O)=-logP(O)%uFF1B

則機率模型的方法和基於能量的方法就是等價的。前面的討論中,我們雖然是透過一個完整的目標物體O進行舉例,但即使在針對非完整的部分物體等派生情況下依然適用。

將貝葉斯法則和鏈式法則相結合,就能夠實現對目標的外形進行完整建模、表示目標的不同層次的先驗知識、使用不同的模型。

1。4。3 實用的醫學影像識別、分割和語義理解演算法

實用演算法通常只是以上計算通用框架中的特例。其區別取決於以下兩個方面:

計算框架的差異

:取決於所做的獨立假設,或所選的表示方式,實用演算法有針對性的修改或簡化框架。如果只關心單物體的檢測,計算框架可簡化為圖1。3(b)。圖1。3(c)展示的是MSL方法用於3D剛體目標檢測的計算流程。圖1。3(d)展示了完整的單目標分割流程,從剛體檢測和識別,到引數形變分割,再到自由形狀分割。圖1。3(e)展示了處理多目標的框架,圖示中,不同目標之間的條件依賴僅假設在剛體和低維度引數部分存在;因此各物體是獨立被分析的。最後,聯合自由形式分割對所有的目標形狀一起進行。

醫學影像識別、分割和解析(第一章):介紹

圖1。3 (a)醫學影像識別、分割和語義分析的通用計算流程,基於從精到粗的表示,從簡單到複雜的建模;(b-e)一些特定情況的計算流程

條件機率的建模方式:效能優越的演算法需要對條件機率進行有效的建模。對醫學影像識別和檢測,機器學習方法能夠提煉影像中的解剖資訊。1。5節中定義瞭解剖上下文的概念,並簡要的介紹了多種機器學習方法如何對解剖資訊進行建模。目標分割在目標檢測之後。1。6節例舉了經典的影象分割方法,基於其各自獨特的目標表示方式,這些方法各自有各自的建模方式。縱觀整本書,書中每個章節都會從它各自的建模方式,或從一個通用的理論視角、特定的應用場景,進行討論。

1。5 使用機器學習方法進行醫學影像識別

1。5。1 目標檢測和上下文

考慮從三張圖片中檢測人眼的任務,如圖1。4。圖1。4(a)中目標雜亂排列,為檢測其中的人眼,一種方法是從左到右從上到下,逐畫素的檢查人眼的位置。但是,為檢測圖1。4(c)中完整人臉中的眼睛,是可以透過結合影象人臉的結構資訊,以更高效的方式實現的。醫學影像就是一種富含解剖結構資訊的影象,這種資訊被稱為解剖上下文(

Anatomical Context

)。為檢測圖1。4(b)中的眼睛兩眼之間的相對關係可以利用起來。換句話說,左眼一旦被檢測了,右眼的檢測會變得更簡單。

上下文資訊可被粗略的氛圍三種類型,分別叫做單一的/區域性的、成對的/高階的、整體的\全域性的。

單一/區域性資訊:但物體周圍的區域性特徵

成對/高階資訊:兩物體或多物體之間的聯合特徵

整體/全域性資訊:一群目標之間的關係,所有畫素、目標,將影象視為一個整體。

不同的檢測方法基本都是在離線模型學習複雜度和線上計算複雜度之間做權衡,而這其中的區別在於挖掘的上下文資訊有多全域性。比如說,

訓練一個能夠將影象分為物體或非物體的二分類器,它僅利用的是區域性上下文資訊

。給定一個測試影象如圖1。4(a),需要使用訓練好的二分類器對影象進行全圖遍歷搜尋,然後對目標進行定位。

透過利用全域性上下文,可訓練一個迴歸函式直接透過任意位置的畫素直接預測目標的位置

。給定一張測試圖片如圖1。4(c),迴歸函式能夠透過給定的少量位置稀疏畫素塊預測出檢測目標的位置。

訓練一個二值分類器比訓練一個迴歸函式要簡單一些,但全圖遍歷搜尋這種方式計算量相比要大很多

。下面,我們回顧一下用於二分類、多分類、迴歸的各種機器學習方法。後面的章節會講述不同的機器學習識別方法。

醫學影像識別、分割和解析(第一章):介紹

圖1。4 三種上下文資訊:(a)單一/區域性上下文;(b)成對/高階上下文;(c)整體/全域性上下文

1。5。2 機器學習方法

統計機器學習方法,基於可觀測變數x,通過後驗機率分佈P(y|x),對不可觀測變數y的統計依賴進行建模。這個機率分佈可以用來預測不可觀測變數y。

對後驗機率P(y|x)的建模可以透過兩種途徑:判別學習和生成學習

生成學習的方法透過聯合機率分佈P(x,y)間接的對P(y|x)進行建模,判別學習方法直接對後驗機率進行建模

。判別模型對有監督學習(如分類和迴歸等)任務會更有效,因為這些任務不需要求出聯合機率分佈。

1.5.2.1 分類

二分類的目的是,學習一個函式F(x),使得誤分類機率

P\left\{ yF(x)<0 \right\}

達到最小化,其中y是類別標籤,+1為正,-1為負。有很多經典的二分類方法,如核方法、整合方法、深度學習等。

支援向量機(SVM)

是一種經典的核方法。整合方法包括

boosting

隨機森林(random forest,RF)

。深度學習基於

人工神經網路(ANNs)

支援向量機(SVM)透過尋找一個具有最大margin的超平面。如圖1。5(a)所示,超平面被定義為

w\cdot x+b

,其中x為輸入向量,w為斜率向量,“·”表示點乘運算,b為截距。max-margin平面透過求解以下方程獲得:

arg\space \min_{w,b}\max_{\alpha_{i}}\left\{\frac{1}{2}||w||^{2}-\sum_{i}{\alpha_{i}[y_{i}(w\cdot x+b)-1]} \right\}

(1。8)

方程的解為

F(x)=\sum_{j}{\alpha_{j}y_{j}(x_{i}\cdot x)+b}

,其中

x_{j}

被稱為支援向量。通常支援向量的數量會遠小於輸入訓練資料量。

核技巧

K(x_{j},x)=\phi(x_{i})\cdot \phi(x)

廣泛用於對非線性資料的建模

,因此被稱為核方法。

整合方法將多個分類器進行結合,共同對一個任務進行決策。不同於SVM,Boosting演算法的最佳化目標不是最小化錯分類率

P\left\{ yF(x)<0 \right\}

,而是最小化它的上限期望

E\left\{ e^{yF(x)} \right\}

P\left\{ yF(x)<0 \right\}\leq E\left\{ e^{yF(x)} \right\}

(1。9)

Boosting分類函式F(x)被定義為圖1。5(b)中所示的求和的形式:

F_{n}(x)=F_{n-1}(x)+f_{n}(x)=\sum_{m=1}^{n}\alpha_{m}h_{m}(x)

(1。10)

上式中

F_{n}(x)

為強分類器,是分類準確率很高的分類器;

h_{m}(x)

為弱分類器,是比隨機分類稍微好一點點的分類器(準確率稍大於0。5)。透過迭代進行最佳化目標最小化,在第n次迭代時,會選擇使目標期望達到極小值的弱分類器

h_{n}(x)

,根據訓練樣本調整其權重

\alpha_{n}

,使得其對之前分錯的樣本更關注。後驗機率

P(+1|x)

近似表示為:

P(+1|x)=\frac{1}{1+e^{-2F(x)}}

(1。10)

醫學影像識別、分割和解析(第一章):介紹

圖1。5 二分類方法:(a)支援向量機;(b)AdaBoosting;(c)隨機森林(RF);(d)神經網路。

隨機森林(RF)分類器有一系列二分類器組成,如圖1。5(c)中所示。每一個二分類器都是一個決策樹投票單元,逐層投票出可能性最大的分類結果。為了訓練出一個隨機的決策樹,各個決策樹的訓練樣本之間是相互獨立的,它們都是獨立同分布的從全體樣本中進行取樣得到,也即每一個樹節點上的訓練特徵都是全體特徵中獨立同分布的特徵子集或全集。Breiman (2001)證明了隨機RF的精度和boosting演算法相當,且其對極端值和噪聲抵抗性強,並且易於使用並行方式實現。

使用這些整合方法用於影象分析時,boosting中的弱分類器、RF中的樹節點就和影象的特徵聯絡到一起。通常需要建造一個龐大的特徵池來訓練這些弱分類器或樹節點,特徵需要能夠囊括大量的異常、變化的情況。

弱分類器或樹節點的學習,就相當於一個特徵選擇的過程

人工神經網路(ANN)由內部連線的一組節點組成,如圖1。5(d)所示。圖中每一個圓形節點表示一個神經元,箭頭表示從一個神經元的輸出到另一個神經元的輸入的連線通路。深度學習演算法的基本結構則是指包含多個隱層的ANN。單個神經元上的運算表示式為

\sigma(w\cdot x+b )

,x表示神經元的輸入向量,b為偏置項,

\sigma

為非線性啟用函式,如sigmoid函式。ANN的最終網路輸出為(僅包含一個隱層和一個輸出節點的情況):

F(x)=\sigma(\sum_{h}\alpha_{h}\sigma(w_{h}\cdot x+b)+c)

(1。12)

式中

w_{h}

為隱層中神經元節點h對於輸入向量的權重向量,

\alpha_{h}

為輸出節點對隱層節點h的權重係數(如果有多個輸出節點,

\alpha_{h}

也是一個權重向量)。以上的所有神經元權重都是透過隨機梯度下降演算法學習確定的。因為對輸入進行線性加權的形式(類似影象卷積操作)相當於特徵計算的過程,所以ANN訓練過程等同於特徵學習/特徵提取/特徵變換過程。

多分類的目的是將輸入x分為J類(J>2)。LogitBoost演算法透過最大似然原理擬合一個累加對稱邏輯模型。透過迭代擬合過程,不斷的選擇弱分類器將逐步它們合併為一個強分類器。LogitBoost演算法的輸出為一系列J響應函式

\left\{ F^{j}(x);j=1,...,J \right\}

,每一個

F^{j}(x)

都是一系列弱分類器子集的線性組合:

F_{n}^j(x)=F_{n-1}^j(x)+f_{n}^j(x)=\sum_{m=1}^j f_{m}^j(x)

(1。13)

f_{m}^j(x)

是一個弱分類器,n為弱分類器的數量。“LogitBoost”提供了一種非常直接的的計算類別標籤j的後驗機率分佈方式:

P(j|x)=\frac{e^{F^{j}(x)}}{\sum_{k=1}^{J}e^{F^{k}(x)}}

(1。14)

透過使用LogitBoost影象分類器,弱分類器和影象特徵相關聯,參考to Zhou et al。 (2006)瞭解更多。

1.5.2.2 迴歸

迴歸的任務是為了找到以下極小值問題的解:

\bar{g}(x)=arg\space \min_{g}\frac{1}{N}\sum_{n=1}^{N}L(y_{n},g(x_{n}))+\lambda K(g)

(1。15)

式中的

\left\{ (x_{n},y_{n}) \right\}_{n=1}^{N}

為訓練樣本,L(o,o)為loss函式,作為迴歸結果g(x)和金標準y之間差距的懲罰項。λ>0,為政策係數,控制正則化程度,K(g)為正則項用於對抗過擬合。正則項通常會在輸出函式上施加一個平滑約束(如約束權重的方差,使權重維持為一個近零數),或在輸出結果中融入先驗知識。本文將簡要的回顧boosting迴歸和迴歸森林,它們通常用於目標檢測(如迴歸目標座標、外接矩形框尺寸)。

和其他的boosting演算法一樣,boosting迴歸假設迴歸輸出函式g(x)為累加形式:

g_{t}(x)=g_{t-1}(x)+h_{t}(x)

,透過迭代的方式生成g(x)的加性表示。在第t次迭代時,一個新的弱函式

h_{t}(x)

被新增到目標函式g(x)中,使得以下成本函式的值最小化:

J_{t}(h_{t})=\sum_{n=1}^{N}||r_{t}(x_{n})-h_{t}(x_{n})||^{2}+\lambda K_{t}(h_{t})

(1。16)

式中

r_{t}(x_{n})=y_{n}-g_{t-1}(x_{n})

是一個殘差項(

h_{t}(x)

的目的是儘可能補償殘差項),是一個

L^{2}

Loss函式(以平方差的形式定義)。對比(1。16)和(1。17),可以得知,K(g)也需定義為累加形式:

K(g_{t})=K(\sum_{i=1}^{t}h_{i})=\sum_{i=1}^{t}K_{i}(h_{i})

。Zhou (2010)一文中,作者將嶺迴歸原理(也叫Tikhonov正則化)結合到boosting框架中,以懲罰過於複雜的模型(防止模型太複雜),其影象特徵和弱學習機相關聯。這就形成了基於影象的boosting嶺迴歸框架。

醫學影像識別、分割和解析(第一章):介紹

圖1。6 迴歸森林的圖示舉例

類似於RF分類,迴歸森林也是透過一系列的迴歸樹聯合預測一個連續的數值輸出結果。每一個隨機迴歸樹的訓練,其各自的訓練樣本同樣是獨立同分布的取樣自全體訓練樣本集,每個節點所使用的特徵都是獨立同分布的取樣值全體特徵集合。透過最大化星系增益度量、方差衰減,或最佳化其他的分裂標準,完成一個迴歸樹的訓練。boosting迴歸直接預測出確定的數值,而回歸森嶺則採用機率的形式,為預測輸出提供一個置信度量。

1。6 醫學影象分割方法

假設目標已經被識別或者定位,下一步就是再一次使用區域性上下文資訊,執行精確的影象分割。醫學影象分割是將醫學影象分為多個區域\分塊,每個區域\分塊包含同一語義資訊的畫素\體素的集合。即每一個分塊對應一個具有語義意義的解剖目標。下面將對一些單目標分割方法進行回顧。後面的章節將涉及處理多目標的方法、使用機器學習對形狀和外觀進行更有效的建模的方法。

1.6.1 簡單影象分割方法

閾值分割

是最簡單的影象分割方法,它透過閾值截斷的方法將灰度影象轉換為2值影象。這種方法的關鍵在於選擇合適的閾值。

聚類演算法

(K-means演算法),以使所有畫素到它的聚類中心的距離之和最小為準則,為每個畫素賦予K個label中的一個。畫素被重新賦予label後,再利用各類別包含的畫素計算出各類別新的聚類中心。這個過程透過不斷迭代達到收斂。

區域生長

假設同區域內的鄰域畫素共享相同的label。起始於一系列種子點,區域開始迭代生長,逐步合併相鄰的那些尚未被分配label,且距離區域內畫素足夠近的畫素(“足夠經”尤其量化標準,比如灰度差等)。

以上提到的方法,計算都是在特徵影象上進行的,而非原圖,比如距離計算、相似度計算等。透過選擇合適的特徵,分割演算法會更加魯棒。

1.6.2 活動輪廓方法

活動輪廓方法也叫snake,透過最小化成本函式

\varepsilon_{snake(S)}

,尋找一條最佳的引數曲線

S(s)

\varepsilon_{snake(S)}=\int_{0}^{1}\left\{ -\mu|\nabla I(S(s))|^{2}+w_{1}(s)|S^{

(1。17)

式中μ控制勢場的強度,▽是梯度運算元,I是原始影象,

w_{1}(s)

控制曲線的張力,

w_{2}(s)

控制控制曲線的彎曲程度。snake模型因為採用了梯度運算元,所以實際上曲線是由邊界確定的。透過梯度下降最小化目標函式的方式,計算作用在曲線snake上的力,進而對曲線進行演變。該力可定義為梯度能量場的負方向。活動輪廓模型後來演變出了梯度流snake模型和測地線活動輪廓模型等。

1.6.3 變分法

在Mumford-Shah變分法中,透過尋找最佳的曲線S,兩個常數 #FormatImgID_72# 和 #FormatImgID_73#,最小化以下能量函式 #FormatImgID_74# ,實現最小分割槽問題

\varepsilon_{ms}(S)=\int_{\Omega_{i}}|I(x,y)-u_{i}|^{2}+\int_{\Omega_{o}}|I(x,y)-u_{o}|^{2}+\mu L(S)

式中

\Omega_{i}

\Omega_{o}

分別表示曲線S所圍的內部區域和外部區域,

u_{i}

u_{o}

為來個那個區域的分段常數,L(s)表示曲線的長度。此處假設區域內部滿足勻質性(同一區域內畫素灰度一致)。

1.6.4 水平集

水平集函式透過其零水平切面隱式的表示一條曲線或一個形狀的邊界。

水平集的優點在於兩點:(1)可以在笛卡爾網格(Cartesian grid)上對演化中的曲面曲線進行數值計算而不必對曲線曲面引數化;(2)可以方便的追蹤物體的拓撲結構改變。Chan and Vese (2001)將水平集和變分法統一到一個框架。這使得活動輪廓的演變不再是顯式的依賴影象的邊界資訊。

1.6.5 主動形狀模型(ASMs)和主動外觀模型(AMMs)

ASMs和AMMs是兩種非常重要的基於模型的分割方法,通常模型透過離線訓練,然後線上的擬合未見過的影象。ASM使用基於點的表示形式,透過PCA方法學習形狀模型,如公式(1。2)所示。模型擬合時,先執行線搜尋,對每一個點進行調整,使形狀最好的和影象資訊所匹配,然後對形變模型進行約束,使其與學習到的統計形狀模型相一致。

AAM除了考慮形狀資訊,還考慮影象的外觀資訊,將其一起學習到統計模型中。它使用線性生成模型將外觀資訊

I

和形狀資訊

S

聯合特徵話到一起:

S=\bar{S}_{0}+Q_{c}\lambda;   \space  I=\bar{I}_{0}+Q_{i}\lambda

(1。19)

上式中,

\bar{S}_{0}

\bar{I}_{0}

分別是歸一化Patch的為平均形狀和平均外觀,λ為形狀和外觀共用的混調係數向量。採用綜合分析方法,透過最小化由AAM估計的外觀和目標影象的外觀之間的偏差,來驅動最佳化AAM的引數。通常這個過程對匹配新的影象也很高效。

1.6.6 圖割(Graph Cut)

一個圖

G=(V,E)

由節點集合V和節點間邊的集合E所組成。使用圖模型對影象進行建模時,影象的網格點作為圖中的節點,相鄰畫素\體素透過邊相連線。這等效於馬爾科夫隨機場的假設。而影象分割任務變成了圖割任務,透過對節點打上不同的label,進而將圖分裂成多個子圖。定義

L=\left\{ L_{p}|p\in I \right\}

為二值標籤函式,用於將影象

I

中所有畫素標為0或1。數學上,圖割問題就是找到使得以下能量函式最小的最佳二值標籤函式:

\varepsilon_{gc}(L)=\sum_{p\in P}D_{p}(L_{p})+\sum_{(p,q)\in N}V_{p,q}(L_{p, L_{q}})

(1。20)

式中

D_{p}(L_{p})

是一元資料項,表示將畫素p打標籤為

L_{p}

的能量項,N為所有相鄰畫素的成對關係數(可理解為所有的邊,也即二元項),

V_{p,q}

為成對吸引函式,它使得具有相同性質(如灰度)的相鄰畫素趨於被打上相同的label。

1.7 總結

本章節中,介紹了將醫學影象識別、分割和解析統一為一個框架的機率公式。這個可用於從粗到精的表示和從簡單到複雜的建模,進而產生了一個通用的計算流程。我們證明了任何實際使用的演算法都是,這個通用計算流程的特例情況,特殊的框架或建模選擇。其次,我們定義瞭解剖上下文的概念,並討論了判別學習方法用於識別的方式。另外,還回歸了現代的分類和迴歸方法。最後,對用於單目標分割的經典影象分割演算法進行了簡要回顧。

本書後面將對醫學影象的識別和解析方法做全面深入的review,對用於識別、檢測、解析和分割醫學影象中的大量解剖結構目標的通用原理進行詳述。不同於傳統方法,這些新方法透過機器學習,能夠從大量的標註資料中學習到醫學影象最本質的解剖上下文資訊 ,進而生成自動化、高精度、魯棒的多解剖結構識別和解析演算法。多目標分割和解析相關的理論體系已經十分完善。

(此處為文章末尾^-^)