編者薦語:

在Breiman《統計建模:兩種文化》20週年之際,統計之都徵文探討資料科學如何與時俱進,開創未來。朱宏圖教授結合他跨領域的產學研經歷,認為統計學的核心是應用和資料,透過分析資料來深刻地探索這個世界,呼籲大家解決現實世界中有趣而又重要的問題

本文作者朱宏圖老師,原文內容已獲作者授權。

——“Breiman訪談錄 |《統計建模:兩種文化》”的讀後感(一)

今天有幸重新拜讀Breiman教授的訪談錄,跟幾年前相比,我在字裡行間中體會了許多新東西。這個可能是因為我最近6年的不同於學術生活的經歷了,用四個字來形容“人生如夢!”。我從UNC一個高校,到MD Anderson一個頂級癌症醫院,到滴滴出行一個創業公司,再回UNC,轉了一個大圈子。由此認識了各種背景的人,特別是學界和工業界(含醫院和科技公司),我在跟這些同仁的交往之中感受了他們對這個世界的看法和探索的方式是如此的不同。我個人從做數理統計開始,到做生物統計,到神經病研究,到近年做雙邊市場,再到神經科學,這個過程當中接觸了不同層面的問題,使得我在認知水平上的經歷了一個巨大的變化。最近我一直思考在新一代資料工業革命這個十字路口,我應該幹什麼,解決什麼樣的問題,發展什麼樣的工具,如何更好探索這個世界。再讀這篇訪談錄讓我在許多問題上參悟得更透了。

今天講講統計學的核心到底是什麼?

首先,我在這裡引用Breiman教授 的幾句話:

統計就是“一門收集、分類、處理並且分析事實和資料的科學。

Fisher相信統計的存在是為了預測、解釋和處理資料的。就統計應用的角度而言,我知道工業機構和政府在發生些什麼,但是目前進行的學術研究卻似乎離我們無比遙遠,好像只是抽象數學的某一分支一樣。

這些話從Breiman教授的口中說出來,對我來說,依舊是非常震撼的。Breiman是美國國家科學院院士 (應用數學學部),不僅在機率論、統計、機器學習,做出了許多有巨大影響力的工作,特別他的CART和bagging這些東西已經是科技公司每天都在用的工具;而且在諮詢各個行業躬身力行,篤行不怠。可以說他是既懂數學,又懂統計,也懂應用的全才。我的看法跟Breiman教授的觀點幾乎一樣,我在最近一個講座裡面說:“統計學一開始就從實踐中來,透過資料來認識這個世界,最終去解決大的實踐問題。” 一言而概之:

統計學的核心是應用和資料,就是透過分析資料來深刻地探索這個世界。

以下是我對此的一些淺顯的認知:

1

統計學跟數學不一樣

雖然統計學要用到數學的許多工具來把整個體系完備化,但是統計學中根本性的0-1大突破一定是從為了解決重大應用問題而產生的。比如,隨機梯度演算法就是Robbins和Monro (1951,統計年刊)為了做一個實驗設計的問題提出來並解決的, 而它現在是深度學習和強化學習最重要的最佳化工具。那些高深的數學工具大機率不能給統計學的帶來革命性的變革。

統計學的核心到底是什麼?

圖1。 什麼是統計?(出處未知)

2

統計不是從工具到應用

我們許多統計學家主要是在做各種統計工具,討論許多理論性質特別強調數學的美;有的會去找各種資料來試,看看能不能用的起來,只關心能不能發頂刊,根本不關心實際應用中的價值。這也是為什麼Breiman說 “統計中吸引人的東西與目前的學術研究已經相去甚遠,分道揚鑣了”。其實最近20年,統計學在某種程度上是偏離了這個應用的本質。另外一方面,越來越多的智慧型資料產品的出現,比如說最近Deepmind在Nature連續發了兩篇文章,這些產品對蛋白質結構的預測,用到了好幾個最新的分析方法,比如embedding,預訓練,知識蒸餾,變換器,和圖模型的表示。這些工具就是Breiman教授說 “我與機器學習和神經網路區域的人走得很近,因為他們正在為一些複雜的、困難的預測問題做一些非常重要的應用工作。他們以資料為方向,所做的也與Webster對統計的定義相一致,然而,他們幾乎全都不是受過訓練的統計學家!”。這些工具已經不能算是傳統的統計方法,你可以說在最底層,它們跟統計非常有關係,但是其中有核心的創新是非統計的,是革命性的。這些突破帶來不僅僅是學界的認可,它同時會影響政府機構(含各個funding機構)和金融投資機構。比如,美國NSF最近就成立了數十個AI相關的研究中心,但這些和統計社群關係不大,最終可能會進入一個惡性迴圈的生態環境。

3

資料問題的重要性

因為物聯網的發展直接引導了新型產業的發展,像社交平臺、搜尋引擎和交易平臺等等。由此在時空維度上, 對資料收集、儲存和分析都發生了根本的革命。相關公司業務的發展極大地推動計算機軟硬體的進步,資料的規模無論從複雜度和多樣性都對未來時空資料分析方式提出了許多新的要求。有了資料,原來許多不可能的事情變得可能啦。最近人工智慧的落地已經上升到國家層面,是新一代工業革命的核心技術,隨著這些落地的進行,我們會看到更多、更大、更復雜的資料。

4 統計一定是從應用中來,到應用中去

我來說幾個例子。

第一個例子是關於ImageNet資料集。

最近10年AI的發展,其根源就是資料上的突破,無論從資料的質量、問題的複雜度、還是標註方法的創新, ImageNet都是本世紀資料科學,特別是計算機視覺最重要的一個突破。它給了我們一個公正地評估和訓練各種分類和預測方法的平臺。一個好的資料是有影響力的統計研究的重要基礎。

第二個例子是關於深度學習。

現在大家公認深度學習是資料分析方法最近十幾年的最大成果,影響深遠。它無論對計算機視覺、自然語言處理、非引數模型、反問題、影象處理、偏微分方程數值解等領域都是根本性的革命,可以說現在許多領域裡面都替代了傳統方法,包含許多應用數學方法, 雖然深度學習的理論研究嚴重落後於它的應用和演算法創新。

第三個例子是關於AlphaGo。

AlphaGo的成功反映了一個數據產品要成功,從頂層設計,到資料建設,到硬體,到高超的演算法水平,都是缺一不可的。因為深度學習的發展,特別跟軟硬體和其它方法的融合,極大地推動了智慧資料產品的落地,比如說,AlphaZero和AlphaGo的開發,把現代資料科學可解決問題的深度和廣度都推到了歷史新高度,並在各個領域裡面發揮了越來越重大的影響,特別在學術界和政府,現在已經上升到國家層面的核心生產力,成為新一代工業革命的核心技術。國家層面對AI的投入可以說是一個巨大的蛋糕。這也反映了我們未來要重視智慧資料產品的開發和落地,不能只做整個問題中很小的一步,特別要培養統計專業學生的工程能力是非常關鍵的。

第四個例子是強化學習。

AlphaGo和物聯網的成功也帶動了強化學習的復興,強化學習已經從一個小眾的分支,變成機器學習的頭號分支。今年ICRL和neurIPS的頂會里面最多的文章都跟強化學習相關,現在強化學習已經從遊戲,到機器人,到精準醫療,到各個市場的落地。我們在滴滴的團隊一直用強化學習來最佳化平臺的策略,都取得了很多成果。由於時空平臺會越來越大而多,強化學習一定會成為主流資料分析工具。

第五個例子是因果推斷。

比如今年諾貝爾經濟學獎就給了兩個做因果推斷的人,他們推廣了Donald Rubin的因果模型,我認為Don能夠做出這樣漂亮的統計框架大部分歸於他多年諮詢工作中積攢的資料和應用相關分析的工作經驗,而且隨著收集資料能力的極大提升,最近因果模型的相關應用和研究會越來越多和越來越深入。隨著收集資料能力特別是時空資料的極大提升,因果模型的相關應用和研究會越來越多和越來越深入,由此相關落地會產生出更大的影響力。

5

未來一段時間應用的核心

最近機器學習大佬Michael Jordan強調了機器學習與市場的融合。這一代人工智慧的發展主要是落地在衣,食,住,行,教育,醫療,人力,和養老等相關的市場,系統地將消費者和商品緊密連線,把人、資料和現實中的問題和需求進行整合,成為一個可以建立經濟新業態的平臺。統計學必須從收集和提煉資訊的階段來思考如何搭建有效的資料平臺,在推動業務發展的過程中逐漸從分析方法上抽象出一套完整的統計學基礎理論,來推動人工智慧在產業的落地,併產生巨大的社會價值。

因此,我呼籲統計同仁們重視資料和應用,多思考應用的大問題,透過收集和清洗資料,來解決實際問題,進而發展出幾個牛掰的統計工具,再證明幾個深刻的數學公式,這樣統計學就有著輝煌的未來。

最後,我用Breiman教授的一句話結尾:

統計精髓之處是在收集和利用資料,來解決現實世界中有趣而又重要的問題

感謝王學欽教授和唐佳睿的幫助!

——————————————

作者介紹

統計學的核心到底是什麼?

朱宏圖博士是北卡羅來納大學教堂山分校生物統計學,計算機,和基因終身教授,曾任MD安德森癌症中心的診斷影像學Bao-Shan Jing講席教授和生物統計學終身教授,滴滴出行首席統計學家。2000年獲得香港中文大學統計學博士學位。主要研究領域為統計學習、醫療影象處理、精準醫療、生物統計、人工智慧和大資料分析。2011年當選美國統計學會和數理統計學會會士。2016年榮獲德克薩斯州癌症預防與研究中心傑出研究獎。2019年因強化學習在網約車出行中的應用榮獲Daniel Wagner傑出應用獎。在多個大型醫療研究專案中擔任統計分析師,並提供實驗設計、資料分析和新方法開發。現有高水平期刊論文290多篇,包括Nature,Science, Cell, Nature Genetics,Nature Communication, Nature Neuroscience,JAMA Psychiatry,PNAS,JMLR, AOS以及JRSSB;高水平會議論文45篇,包括KDD,NIPS,ICDM,AAAI,MICCAI以及IPMI。擔任多個國際頂級會議的區域主席,包括Information Processing in Medical Imaging。擔任(過)多個國際頂級期刊的編委,包括Statistica Sinica,JRSSB,Biometrics,Annals of Statistics和Journal of American Statistical Association。