真實場景下的視覺搜尋

我們每天從睜開眼睛開始，每時每刻都在做的一件事就是找東西，更書面化一點，視覺搜尋。比如在雜亂無章的書桌上找鑰匙，在擁擠的食堂找同伴的面孔，在街道上找一個特定的店鋪，這時候你會意識到你在做這件事，因為費勁。但大多時候，視覺搜尋這件事發生地悄無聲息，你根本不會覺察到，比如你想開啟一個桌面上的檔案，你得先找到這個檔案的位置。雖然這時候的搜尋發生地非常自動化，但我們的大腦其實在這個過程中做了不少工作，就像我在一篇文章裡讀到的很喜歡的一句話，“The results presented here are in many ways a case study of one of the central lessons of cognitive science： that how effortless and natural a process feels is a poor guide to how much work is supporting that process beneath the surface。 ”（大意：這個結果從多方面例證了認知科學的啟示：一個感覺起來自然不費勁的加工過程背後其實有大量的支援工作）。

在視覺搜尋這個任務以及背後的認知過程，心理學家/腦科學家的研究非常之多，也開始地很早。大多數的視覺搜尋研究都採用比較簡單的正規化（圖1），比如在多個色塊中搜索一個不同顏色的色塊，在多個有一定朝向的線段中搜索一個不同朝向的線段，或者採用更復雜一點的刺激，搜尋字母或者圖形等。這些採用簡單刺激的研究的好處在於剝離掉很多無關因素的影響，但相應地，和我們實際生活中的搜尋任務相差較多。

所以現在很多的研究開始關注真實場景下的視覺搜尋（visual search in a real-world scene），這些研究結果也可以為機器視覺提供支援：如何在機器上重建人類的視覺搜尋能力。

圖1 快來找我呀！

那麼，真實場景下的視覺搜尋研究和簡單的視覺搜尋關注的問題有什麼不一樣呢？

第一：情境線索(contextual cues)

在簡單的視覺搜尋任務中，目標（你要找的東西）出現的位置通常是隨機的，可能出現在場景中的任意位置。但是在真實場景下的視覺搜尋任務，目標的可能位置是受到限制的。比如你要下面這張圖（圖2）上找直升機，那麼你肯定會在天上（圖片的上方）去找，而不會從沙漠（圖片的下方）去找，這時候“天空”就是情境線索，限制了目標可能出現的位置。相反地，如果要去搜索吉普車，“沙漠”就成了情境線索。

圖2 找直升機/吉普車

第二：物物共存關係(object-object occurrence)

物物共存關係指的是有些物體在真實生活中總是成對出現的？，但你在搜尋物體a的時候可以依賴於物體b的位置。如圖3所描述的，如果當物體（煙囪）沒有出現在預期的位置（房頂），而是出現在樹上的時候，視覺搜尋成績就會下降。從眼動的資料（圖中的綠點）中，我們也可以看出被試從去預期的位置（房頂）搜尋煙囪。

圖3 咦煙囪去哪兒了？（Eckstein， 2011）

這兩個因素在我們真實的搜尋中起到關鍵性的作用，因此在構建模型過程中納入這些簡單的視覺搜尋正規化沒有覆蓋的因素也是至關重要的。 Torralba等人構建了一個基於情境線索的模型：情境引導模型（contextual guidance model，圖4）。

圖4 情境引導模型

這個模型基於兩條通路：區域性特徵通路和全域性特徵通路。

區域性特徵通路指的是獨立地計算各個空間位置的特徵，構建一個突顯地圖。這個突顯地圖的產生依賴於顏色、紋理等基本的特徵。從心理學的概念來講，這是自下而上的一個加工過程，我們的注意力總是不自覺地被突顯程度高的刺激吸引。多個腦成像的研究表明，這個自下而上的突顯地圖反映在從初級視覺皮層到頂葉區域（Li， 2002； Goldberg， Bisley，Powell， & Gottlieb， 2006； Gottlieb， Kusunoki， & Goldberg，1998）。而全域性特徵通路計算的整個情境因素，從而提供目標可能出現的位置的資訊。研究者希望透過這個模型來預測人在真實場景下的視覺搜尋行為。研究者發現，這個情境引導模型在預測人的早期的注視行為上是較為有效的，而且跟僅僅基於突顯地圖構建的模型比較來看也是更好的（圖5）。

圖5 黑：真實觀察者資料；紅：情境引導模型的預測資料；藍：基於突顯地圖的模型的預測資料

完。這篇文章沒有總結句。

這篇文章的內容主要基於Journal of vision上的一篇綜述，很有意思的是這篇綜述的補充材料裡還有對三位現實生活中的視覺搜尋專家（一名漁夫、一名放射科醫生、一名衛星影象分析員）的採訪，可以說非常接地氣了。

距離我上次寫專欄文章已經快五個月了（發現知乎的插入圖片功能好用了很多！），一方面是因為忙於搬磚，一方面也是感到生動有趣地寫科普是一件很難的事情。令人高興的是，我的博士期間的第一篇文章昨天正式online了，所以今天也算心安理得地不務正業一下。與大家共勉～

引用

Eckstein， M。 P。（2011）。 Visual search： a retrospective。。

Journal of Vision

， 11（5）， 14-14。

Torralba， A。， Oliva， A。， Castelhano， M。 S。， & Henderson， J。 M。（2006）。 Contextual guidance of eye movements and attention in real-world scenes： The role of global features in object search。 Psychological Review， 113，766–786。

等。

真實場景下的視覺搜尋

就想問問，最近很火的bigbang的單曲loser這首歌，如果演唱者不是bigbang的話，還會那麼受歡迎嗎？為什麼？

學警狙擊中laughing和芯姐跳舞的背景音樂是什麼？

隨便看看

五菱宏光v前大燈遠光照的太近，怎樣調？

久坐對身體造成哪些傷害？

OPPO藍芽耳機沒有充電線嗎？

徽語屬於哪個國家？

真實場景下的視覺搜尋

就想問問，最近很火的bigbang的單曲loser這首歌，如果演唱者不是bigbang的話，還會那麼受歡迎嗎？為什麼？

學警狙擊中laughing和芯姐跳舞的背景音樂是什麼？

猜你喜歡

3d列印技術可以做哪些模具？

revit怎麼進去看內部構造？

什麼是遷移？舉例說明遷移的有害物和具體危害？

隨便看看

五菱宏光v前大燈遠光照的太近，怎樣調？

久坐對身體造成哪些傷害？

OPPO藍芽耳機沒有充電線嗎？

徽語屬於哪個國家？