【新智元導讀】

在今天的2020雲棲大會上,達摩院資料庫首席科學家李飛飛、阿里雲計算平臺高階研究員賈揚清等重磅釋出多款雲原生資料產品。「2020創新之源大會將於9月22日在中關村軟體園召開,詳細資訊見文末海報,歡迎報名!」

達摩院資料庫首席科學家李飛飛、阿里雲計算平臺高階研究員賈揚清,分別釋出了雲原生分散式資料庫PolarDB-X、離線實時一體化資料倉庫MaxCompute等多款雲原生產品。

今天阿里巴巴也宣佈成立雲原生技術委員會,雲原生升級為阿里技術新戰略,委員會將大力推動阿里經濟體全面雲原生化,並沉澱阿里巴巴10多年的雲原生實踐,對外賦能數百萬家企業進行雲原生改造。

2009年,阿里巴巴首次上線核心中介軟體系統,到2011年淘寶天貓開始使用容器排程技術,再到推出自研雲原生硬體神龍伺服器、雲原生資料庫PolarDB。2019年雙11,阿里電商核心系統100%上雲,這也是全球規模最大的雲原生實踐。

賈揚清發布阿里雲「湖倉一體」解決方案,下一代大資料計算平臺來了!

賈揚清:建設數倉可以像買office 一樣簡單

2019年初,賈揚清加入阿里巴巴,帶領大資料計算和機器學習平臺,並出任阿里巴巴開源技術委員會負責人。

他是深度學習領域的風雲人物,不到30歲就成為著名框架Caffe的核心作者。網友戲稱,學物理繞不開牛頓,搞深度學習,繞不開賈揚清。

今天賈揚清為不僅帶來了兩款重磅大資料產品,還分享了大資料技術相關的方法論。

賈揚清發布阿里雲「湖倉一體」解決方案,下一代大資料計算平臺來了!

如何儲存和分析資料,如何從資料當中提取出規律和價值,一直是計算機領域的一個核心問題,賈揚清認為,資料的儲存和分析經歷了四個歷史階段。

第一個階段是資料庫時代, Oracle、SQL Server、MySQL、PostgresSQL 等資料庫成為主流的計算機系統當中不可或缺的組成部分。

第二個階段,工業界開始考慮怎麼樣解決資料的體量,速度,和多樣性問題,谷歌在2014年前後發表的3篇經典論文(GFS、MapReduce和BigTable),奠定了這個時期的基本方法論,實現了分散式的儲存、計算和服務等等這一系列的能力。

第三個階段,21世紀的第二個十年,隨著移動網際網路的普及,大資料計算開始進入了蓬勃發展的階段,以Hadoop、HDFS為代表的開放的儲存元資料的能力及Hive、Spark、Flink為代表的原子計算能力應用而生。

今天大資料已經進入了普及期,每一個行業都會需要建立自己的資料中臺,從中挖掘出資料的價值,推動業務的決策,資料湖和資料倉庫以及他們之間的有機結合,將越來越重要。

賈揚清發布阿里雲「湖倉一體」解決方案,下一代大資料計算平臺來了!

賈揚清重磅釋出資料湖系列新品

賈揚清展示瞭如何在阿里雲上實現簡單快捷高效的資料湖體系。

賈揚清發布阿里雲「湖倉一體」解決方案,下一代大資料計算平臺來了!

在最底層,透過阿里雲物件儲存OSS作為資料庫儲存, 大檔案瞬時Rename、 加速快取等都不是問題。OSS可以開放對接各類計算引擎,讓上層的計算任務更加靈活,並且支援資料冷熱全生命週期管理,打破資料孤島。

在OSS的上面是資料庫構建產品Data Lake Formation,它可以提供通用儲存上的兩個核心的功能。

第一是統一的資料加速服務,可以讓OSS儲存像本地一樣高效。

第二是統一的元資料服務,所有上層的引擎都能夠更加簡單的理解、對接和了解資料的格式,方便多樣化的上層分析計算和處理。

而資料儲存的目的還是為了計算,第三層開源大資料計算引擎E-MapReduce可以給資料湖提供靈活、高效的大資料計算能力。

這樣的體系結構,一方面為各種離線計算、流計算等提供了靈活底座,另一方面儲存與計算架構實現了分離和容器化,讓湖上的計算彈性和可擴充套件性更優秀。

傳統的觀念認為,資料倉庫構建非常困難,但是今天賈揚清說,建設數倉可以像買一套office 一樣簡單。

7年前阿里巴巴自研的資料倉庫 MaxCompute 在阿里雲正式提供服務了。

透過MaxCompute可以一鍵式的建立起自己的資料倉庫。MaxCompute簡單、免運維、容易擴充套件,同時完全相容像HIVE這樣的大資料開放標準。

今天,MaxCompute自研數倉實現了全面升級,傳統的離線引擎 SQL Engine 和實時引擎 Hologres 可以實現無縫結合,在一套數倉儲存上,提供離線、實時的計算和分析服務。

作為技術深耕的自研數倉,MaxCompute已連續2年在TPC-BB榜單上面蟬聯冠軍。

以TPC-BB 30TB資料量的榜單為例,對比2019年的資料,效能提升了50%以上。成本下降了30%以上。

資料倉庫這麼好,為什麼還要搞資料湖呢?「資料湖和資料倉庫在企業發展的不同時期發揮著不同的價值」。

資料倉庫的成長性很好,而資料湖更靈活。資料倉庫支援的資料結構種類比較單一,資料湖的種類比較豐富,可以包羅永珍。資料倉庫更加適合成熟的資料當中的分析和處理,資料湖更加適合在異構資料上的價值的挖掘。

那能否將二者的優勢融合在一起呢?

今天,阿里將資料湖和數倉這兩個產品體系融合,釋出了湖倉一體。

賈揚清發布阿里雲「湖倉一體」解決方案,下一代大資料計算平臺來了!

湖倉一體實現了資料湖和數倉之間的無縫流轉,打通了資料儲存和計算的不同的層面。

賈揚清介紹說,「湖倉一體的意義就是說我不需要看見湖和倉,資料有著打通的元資料的格式,它可以自由的流動,也可以對接上層多樣化的計算生態」。

湖倉一體,「它不是一個來自實驗室的冥想的場景,而是一個來自於客戶現場的真實需求」。

之前的微博基於大資料的需求發展了資料倉庫平臺,基於AI的需求,發展了資料湖平臺這兩套大資料平臺在叢集層面完全是割裂的,資料和計算無法在兩個平臺間自由流動。

MaxCompute產品團隊和微博機器學習平臺團隊聯合共建了湖倉一體的新技術,打通了MaxCompute雲計算倉庫和開源Hadoop資料湖,構建了一個跨湖和倉的AI計算中臺,實現了湖和倉的統一智慧化管理和排程,極大的提升了平臺化服務能力。

李飛飛:雲原生點亮資料上雲之路

阿里巴巴集團副總裁高階研究員、ACM傑出科學家李飛飛,花名「飛刀」介紹了雲原生分散式資料庫。

面對指數級增長的海量儲存挑戰,雲原生分散式資料庫應運而生。

雲原生分散式資料庫帶來了四大特性,很好的解決了我們企業使用者的核心訴求。從資源池化到彈性擴充套件,再到智慧運維,再到離線上一體化。利用這些核心的特性,我們將資料庫全面的進入雲原生加分散式的時代

」。

那究竟什麼是雲原生分散式資料庫呢?下面我們來一探究竟。

雲原生資料庫基於Shared Everything+shared storage 的儲存計算分離架構實現資源池化高效管理,同時兼具彈性高可用水平拓展的特性。什麼是分散式呢?就是用Shared Nothing的架構,實現資料水平分片、水平擴充套件。

「如果我們將兩者完美的結合在一起,那就帶來了我們的雲原生分散式資料庫,將Shared Nothing 和Shared Everything、shared storage 的特性完美的結合在一起」,阿里雲自研的雲原生分散式資料庫PolarDB-X正式釋出。

賈揚清發布阿里雲「湖倉一體」解決方案,下一代大資料計算平臺來了!

PolarDB-X是阿里自主研發的基於Shared Nothing + Shared Everything、share storage 架構的雲原生分散式資料庫,專注解決超高併發儲存,海量資料儲存下的線上事務型資料庫的瓶頸問題。

今天釋出的PolarDB-X兩大全新企業級功能:混合負載 HTAP 和 全域性二級索引透明分散式,將更高效地支援線上業務、高併發交易以及線上複雜查詢的訴求。

利用PolarDB-X的HTAP混合負載特性,同時覆蓋高併發實時交易和部分線上資料分析處理的場景。實現高併發交易線上複雜查詢加速一體化。

智慧混合負載技術、資料查詢強一致技術、資源鏈路強隔離技術和線上分析加速技術,使線上交易和線上複雜查詢的效能提升5到10倍。

以天貓雙11為例,PolarDB-X連續多年穩定支撐天貓雙11活動。

在去年2019年的雙11,阿里巴巴集團電商核心業務全面採用PolarDB-X,支撐了高達每秒8700萬次的TPS 峰值,每秒55萬筆的交易訂單,完美抵禦了全球最猛最高的交易活動。

PolarDB-X的這些新增特性,很好的解決了分散式雲原生條件下線上事務型業務的痛點,在分析領域我們其實也面臨著類似的問題和挑戰。

除了PolarDB-X,李飛飛今天還帶來了另一款重磅雲原生資料倉庫AnalyticDB。

在2020年上半年,ADB重新整理了TPC-H的30TB效能榜單世界紀錄,相比第二名,微軟的SQL server 2019效能提升290%以上,價效比低至1。46,成為首個登上榜單的榜首的國內廠商。

雲原生Serverless的架構,有效的降低了企業資料分析和計算的成本,效能較自建的分析系統。例如spark 提升300%以上,可實現一分鐘彈出300個節點參與計算中,透過Serverless方式大大降低使用成本。

賈揚清發布阿里雲「湖倉一體」解決方案,下一代大資料計算平臺來了!

雲原生資料倉庫AnalyticDB和資料湖分析DLA已經在國內多個使用者落地,有效的實現了企業降本增效,資料分析離線上一體化的目標。

曾震宇:資料中臺,構築城市數字孿生

大會期間,阿里雲還首次釋出了城市大腦3。0的核心技術體系,包括感知、認知、決策和協同四個領域的技術。

賈揚清發布阿里雲「湖倉一體」解決方案,下一代大資料計算平臺來了!

阿里雲智慧數字產業產研總經理曾震宇表示,「沒有行業智慧的資料中臺是沒有靈魂的。資料中臺的終極目標是資料價值反哺業務價值。」

城市是典型的資料密集型場景,巨大的物理空間,密佈著每分每秒增長的海量資料。城市大腦建立在對資料的融合和洞察之上,為城市提供數字化的基礎設施。

城市大腦,自從2016年在杭州落地至今,經歷了1。0 對「交通」方面的探索,到2。0交通、衛健等多個領域的探索。

城市大腦3。0時期,從融合感知、實時認知智慧、自動決策智慧,再到跨域協同的閉環。

賈揚清發布阿里雲「湖倉一體」解決方案,下一代大資料計算平臺來了!

一方面,實現從單點智慧到全域性智慧的視角提升;另一方面,沉澱出城市大腦核心技術體系,最佳化城市內不同領域的共性問題。

同時,曾震宇介紹了阿里雲城市資料中臺重磅升級。

賈揚清發布阿里雲「湖倉一體」解決方案,下一代大資料計算平臺來了!

最底層,多元空間資料,將城市的物理空間進行數字化還原,形成靜態的物理空間世界。同時藉助各類感知資料構成城市的動態執行世界。

賈揚清發布阿里雲「湖倉一體」解決方案,下一代大資料計算平臺來了!

動態和靜態的融合組成了城市的數字孿生。

從全息數字構建、多解析度實時推演、全域性資源排程最佳化到全域多端系統共治形成從感知智慧、認知智慧、決策智慧到組織智慧的閉環。

資料中臺能夠融合城市的GIS自然資源資料、建築BIM、CAD資料,以及高精路網等資料,打通不同的資料格式,從而構建二三維一體的數字化物理空間。

賈揚清發布阿里雲「湖倉一體」解決方案,下一代大資料計算平臺來了!

從宏觀的全貌,到圍觀細節,都可以窺見。

同時透過實時推演技術,能為城市管理提供靠譜的建議。

實時推演已經在杭州灣跨海大橋開啟探索應用。杭州灣大橋全長36千米,是連線上海和寧波兩大城市的唯一路上通道,日交通量超過4。8萬輛。

「比如,大橋上發生了交通故事,城市大腦第一時間能感知到,並基於實時交通資料進行推演,給出不同疏導方式的推演結果——短時間封鎖大橋還是始終保持通行,大腦知道哪種處理方案更高效。」

賈揚清發布阿里雲「湖倉一體」解決方案,下一代大資料計算平臺來了!

精確還原

賈揚清發布阿里雲「湖倉一體」解決方案,下一代大資料計算平臺來了!

基於城市資料中臺的靜態物理空間世界以及數字化還原能力,還開發出了城市數字基因產品,將城市空間切分成無數個單位空間,匯聚多元資料和演算法,對單位空間的人口、經濟、生態、資源等情況,進行量化計算,用網際網路資料思維管理城市每一寸空間。透過AI輔助決策,在規劃層面識別修正城市發展的更深層次問題。

賈揚清發布阿里雲「湖倉一體」解決方案,下一代大資料計算平臺來了!

中關村軟體園20週年,品牌活動“創新之源”大會再升級!

9月22日,2020創新之源大會 —“科技力量創變未來”在中關村軟體園國際會議中心召開。大會由中關村軟體園主辦,中關村軟體園孵化器、新智元、北京銀行共同承辦,邀請到清華大學副校長、北京量子資訊科學研究院院長薛其坤院士,清華大學電子工程系主任、資訊科學技術學院副院長汪玉,科大訊飛聯合創始人、訊飛創投董事長徐景明,搜狗公司CEO王小川,網易集團副總裁、網易有道CEO周楓,達闥科技創始人兼CEO黃曉慶,浪潮資訊副總裁、浪潮AI&HPC總經理劉軍 ,騰訊自動駕駛業務中心總經理蘇奎峰,新智元創始人兼CEO楊靜等重磅嘉賓出席。

最新議程曝光,掃描二維碼即刻報名,資格經稽核後可免費參會!

賈揚清發布阿里雲「湖倉一體」解決方案,下一代大資料計算平臺來了!