題圖:Personal computer motherboard

上一篇文章吸引了不少同行前來關注,十分感謝大家的肯定。我也仔細分析了新朋友們的資訊,發現大部分新粉都是偏技術的,這讓我比較意外,因為我是隻從業多年的產品汪。這一篇主要分享如何將各路資料為我所用,行文中會更注重分享我的產品思路,以及運用思路創造出的成果。

本篇提綱

為什麼要做且要做好POI?

POI要做成什麼樣子?

如何做出想要的POI?

為什麼要做且要做好POI?

因為POI是一切活動的基石。

送快遞時,快遞小哥要尋找

xx路xx號xx小區xx號樓,這到底在哪個旮旯?

訂酒店時,得知道

酒店叫什麼名字在什麼位置,有沒有團購和優惠,預約電話是多少?

叫滴滴時,欸

開到東門比開到西門便宜五塊錢呢!師傅去東門!

以上例子不勝列舉,大寫加粗的內容,都是POI。沒有POI,基於地點的事情就沒辦法發生,LBS就不能玩了。所以必須要做POI,還必須要做好,否則以上行為都不能愉快的進行。

POI要做成什麼樣子?

POI的樣子就是POI的欄位屬性,POI要有哪些屬性,這個問題不能歸一化回答,它與業務密切相關,業務就是使用者需求,所以這個問題等於:使用者需要什麼樣的POI?由於這一系列文章聚焦在地圖,各家地圖的POI主要欄位是大同小異的,所以下文主要講:

地圖使用者需要什麼樣的POI?

隨著網際網路的發展,移動網際網路的崛起,LBS/O2O的爆發,使用者的需求也在不斷進化:

以前,地圖是拿來定址的,搜一下要去面試的公司辦公地點在哪裡,坐車要怎麼換乘;

現在,地圖是拿來生活的,去哪裡吃飯,招牌菜是什麼,人均多少,是打車還是地鐵。

綜上可以提煉出,POI包含兩層資訊:

基礎資訊:名稱,地址,空間位置,電話,型別,關係

詳情資訊:評分評級,價格,營業範圍,營業時間,評論,圖片,優惠/團購

2011年左右,百度地圖的POI大約20個欄位;2014年,欄位已經豐富到100多個。這些欄位是怎麼建設出來的,又是怎麼持續保持更新的,下文重點講。

如何做出想要的POI?

建設POI的全流程:資料來源接入——資料處理——判重整合——上線應用——資料更新。相信大家能從字面上理解每個環節在做什麼,就不逐一贅述,主要講講每個環節裡需要注意的。

資料來源接入

前一篇文章(網際網路地圖資料的基本知識)已經講過資料來源型別,圖商資料準但是少,UGC資料少但是時效性高,網路挖掘資料獲取成本低但加工成本高……每個資料來源都有自己的特徵,抓住其特徵揚長避短,是接入資料來源時最重要的事情。

資料處理

拿到資料之後要進行歸一化處理,主要有兩個:①資訊校驗,②欄位補全

①資訊校驗:對涉及軍事或黃賭毒反等敏感POI進行過濾,對重點資料進行保護,各個欄位質檢互相校驗(地址文字 vs 經緯度 vs 所屬省市區縣 vs 電話區號 vs 郵政編碼等),刨除嫌疑資料;

②欄位補全:這裡主要是指透過GeoCoding/ReverseGeo等方式給POI補充更精準的空間座標或者更完整的地址文字,同時還會進行分類&Tag的計算,重要性賦值,可信度賦值等工作。

判重整合

判重整合包含兩個大工程:① 判重:判斷N個POI是不是同一個POI;② 整合:將判為相同的M個POI整合出一個POI。

判重是全流程中複雜係數最高的環節,跟我team搭檔做這一塊的研發包含百度的多位T8/博士等,但判重準確率也不能做到99%。要把這裡寫到細緻入微,可能會成為一本大作,就不展開細說了,舉個例子方便大家理解:

各個資料來源合到一起之後,資料庫中有N條資料,分別叫做:北京大學,燕京大學,北大,北大西門,北京大學(西門),北大西一門,北大西門烤翅。程式要基於文字相似度,範圍控制,類別比較等等資訊,準確識別出哪些和哪些是同一個POI,難度係數極大,最終結果很容易張冠李戴,到線上就會表現為北京大學的詳情裡展示著北大西門烤翅的團購資訊。

整合相對容易,主要考量名稱的文字豐富度,地址完整度,座標/來源的可信度等等。

上線應用

POI的上線應用方式主要有:檢索,導航,底圖,公交等。在應用中會積累POI的熱度資訊(檢索次數,點選次數等),會作為特徵值指導後續的資料更新。

資料更新

將前文每個環節再走一遍,即為更新。不同資料來源的更新週期和更新方式都不太一樣,需要因地制宜。更新是保證資料活性的重要甚至是唯一手段,如何設計更新策略才能快速的進行地圖POI的更新,考量的是PM對每個資料來源每類POI特徵的深刻理解。以前我分析過,餐飲類POI每個季度的更新比例是17%,說明對點評的餐飲類POI要加快更新頻率。

2014年前後,是百度地圖POI極為輝煌的一個階段,我們將資料覆蓋率做到了難以置信的97%,準確率做到了史無前例的98%,行業內無人可比肩。而這耀眼成功的背後,是一個高效團隊在瘋狂的努力,這些人,是最聰明最勤奮最可愛的人!

寫在最後的私心

寫這一系列文章,也是有些私心的:希望大家能發自內心的珍惜當下享受到的每一種服務。

做這麼多年基礎服務(POI/詳情/檢索),越發深刻的理解『理所當然』這個詞。太多人都覺得看影片就應該是流暢的,地鐵就該是不出故障的,電燈就該是一直亮著的,檢索就該是召回排序都合理的,POI就該是搜得到還位置準的。可是,哪裡來的這些『理所當然』?!從一根根網線的排布,到一臺臺裝置的維護,以及電路工人一步步的巡線,檢索策略的一點點迭代,POI的一次次更新,這都是辛勤勞作的成果,是智慧和汗水的結晶。

請珍惜。