賈揚清發布阿里雲「湖倉一體」解決方案，下一代大資料計算平臺來了！

【新智元導讀】

在今天的2020雲棲大會上，達摩院資料庫首席科學家李飛飛、阿里雲計算平臺高階研究員賈揚清等重磅釋出多款雲原生資料產品。「2020創新之源大會將於9月22日在中關村軟體園召開，詳細資訊見文末海報，歡迎報名！」

達摩院資料庫首席科學家李飛飛、阿里雲計算平臺高階研究員賈揚清，分別釋出了雲原生分散式資料庫PolarDB-X、離線實時一體化資料倉庫MaxCompute等多款雲原生產品。

今天阿里巴巴也宣佈成立雲原生技術委員會，雲原生升級為阿里技術新戰略，委員會將大力推動阿里經濟體全面雲原生化，並沉澱阿里巴巴10多年的雲原生實踐，對外賦能數百萬家企業進行雲原生改造。

2009年，阿里巴巴首次上線核心中介軟體系統，到2011年淘寶天貓開始使用容器排程技術，再到推出自研雲原生硬體神龍伺服器、雲原生資料庫PolarDB。2019年雙11，阿里電商核心系統100%上雲，這也是全球規模最大的雲原生實踐。

賈揚清：建設數倉可以像買office 一樣簡單

2019年初，賈揚清加入阿里巴巴，帶領大資料計算和機器學習平臺，並出任阿里巴巴開源技術委員會負責人。

他是深度學習領域的風雲人物，不到30歲就成為著名框架Caffe的核心作者。網友戲稱，學物理繞不開牛頓，搞深度學習，繞不開賈揚清。

今天賈揚清為不僅帶來了兩款重磅大資料產品，還分享了大資料技術相關的方法論。

如何儲存和分析資料，如何從資料當中提取出規律和價值，一直是計算機領域的一個核心問題，賈揚清認為，資料的儲存和分析經歷了四個歷史階段。

第一個階段是資料庫時代， Oracle、SQL Server、MySQL、PostgresSQL 等資料庫成為主流的計算機系統當中不可或缺的組成部分。

第二個階段，工業界開始考慮怎麼樣解決資料的體量，速度，和多樣性問題，谷歌在2014年前後發表的3篇經典論文（GFS、MapReduce和BigTable），奠定了這個時期的基本方法論，實現了分散式的儲存、計算和服務等等這一系列的能力。

第三個階段，21世紀的第二個十年，隨著移動網際網路的普及，大資料計算開始進入了蓬勃發展的階段，以Hadoop、HDFS為代表的開放的儲存元資料的能力及Hive、Spark、Flink為代表的原子計算能力應用而生。

今天大資料已經進入了普及期，每一個行業都會需要建立自己的資料中臺，從中挖掘出資料的價值，推動業務的決策，資料湖和資料倉庫以及他們之間的有機結合，將越來越重要。

賈揚清重磅釋出資料湖系列新品

賈揚清展示瞭如何在阿里雲上實現簡單快捷高效的資料湖體系。

在最底層，透過阿里雲物件儲存OSS作為資料庫儲存，大檔案瞬時Rename、加速快取等都不是問題。OSS可以開放對接各類計算引擎，讓上層的計算任務更加靈活，並且支援資料冷熱全生命週期管理，打破資料孤島。

在OSS的上面是資料庫構建產品Data Lake Formation，它可以提供通用儲存上的兩個核心的功能。

第一是統一的資料加速服務，可以讓OSS儲存像本地一樣高效。

第二是統一的元資料服務，所有上層的引擎都能夠更加簡單的理解、對接和了解資料的格式，方便多樣化的上層分析計算和處理。

而資料儲存的目的還是為了計算，第三層開源大資料計算引擎E-MapReduce可以給資料湖提供靈活、高效的大資料計算能力。

這樣的體系結構，一方面為各種離線計算、流計算等提供了靈活底座，另一方面儲存與計算架構實現了分離和容器化，讓湖上的計算彈性和可擴充套件性更優秀。

傳統的觀念認為，資料倉庫構建非常困難，但是今天賈揚清說，建設數倉可以像買一套office 一樣簡單。

7年前阿里巴巴自研的資料倉庫 MaxCompute 在阿里雲正式提供服務了。

透過MaxCompute可以一鍵式的建立起自己的資料倉庫。MaxCompute簡單、免運維、容易擴充套件，同時完全相容像HIVE這樣的大資料開放標準。

今天，MaxCompute自研數倉實現了全面升級，傳統的離線引擎 SQL Engine 和實時引擎 Hologres 可以實現無縫結合，在一套數倉儲存上，提供離線、實時的計算和分析服務。

作為技術深耕的自研數倉，MaxCompute已連續2年在TPC-BB榜單上面蟬聯冠軍。

以TPC-BB 30TB資料量的榜單為例，對比2019年的資料，效能提升了50%以上。成本下降了30%以上。

資料倉庫這麼好，為什麼還要搞資料湖呢？「資料湖和資料倉庫在企業發展的不同時期發揮著不同的價值」。

資料倉庫的成長性很好，而資料湖更靈活。資料倉庫支援的資料結構種類比較單一，資料湖的種類比較豐富，可以包羅永珍。資料倉庫更加適合成熟的資料當中的分析和處理，資料湖更加適合在異構資料上的價值的挖掘。

那能否將二者的優勢融合在一起呢？

今天，阿里將資料湖和數倉這兩個產品體系融合，釋出了湖倉一體。

湖倉一體實現了資料湖和數倉之間的無縫流轉，打通了資料儲存和計算的不同的層面。

賈揚清介紹說，「湖倉一體的意義就是說我不需要看見湖和倉，資料有著打通的元資料的格式，它可以自由的流動，也可以對接上層多樣化的計算生態」。

湖倉一體，「它不是一個來自實驗室的冥想的場景，而是一個來自於客戶現場的真實需求」。

之前的微博基於大資料的需求發展了資料倉庫平臺，基於AI的需求，發展了資料湖平臺這兩套大資料平臺在叢集層面完全是割裂的，資料和計算無法在兩個平臺間自由流動。

MaxCompute產品團隊和微博機器學習平臺團隊聯合共建了湖倉一體的新技術，打通了MaxCompute雲計算倉庫和開源Hadoop資料湖，構建了一個跨湖和倉的AI計算中臺，實現了湖和倉的統一智慧化管理和排程，極大的提升了平臺化服務能力。

李飛飛：雲原生點亮資料上雲之路

阿里巴巴集團副總裁高階研究員、ACM傑出科學家李飛飛，花名「飛刀」介紹了雲原生分散式資料庫。

面對指數級增長的海量儲存挑戰，雲原生分散式資料庫應運而生。

「

雲原生分散式資料庫帶來了四大特性，很好的解決了我們企業使用者的核心訴求。從資源池化到彈性擴充套件，再到智慧運維，再到離線上一體化。利用這些核心的特性，我們將資料庫全面的進入雲原生加分散式的時代

」。

那究竟什麼是雲原生分散式資料庫呢？下面我們來一探究竟。

雲原生資料庫基於Shared Everything+shared storage 的儲存計算分離架構實現資源池化高效管理，同時兼具彈性高可用水平拓展的特性。什麼是分散式呢？就是用Shared Nothing的架構，實現資料水平分片、水平擴充套件。

「如果我們將兩者完美的結合在一起，那就帶來了我們的雲原生分散式資料庫，將Shared Nothing 和Shared Everything、shared storage 的特性完美的結合在一起」，阿里雲自研的雲原生分散式資料庫PolarDB-X正式釋出。

PolarDB-X是阿里自主研發的基於Shared Nothing + Shared Everything、share storage 架構的雲原生分散式資料庫，專注解決超高併發儲存，海量資料儲存下的線上事務型資料庫的瓶頸問題。

今天釋出的PolarDB-X兩大全新企業級功能：混合負載 HTAP 和全域性二級索引透明分散式，將更高效地支援線上業務、高併發交易以及線上複雜查詢的訴求。

利用PolarDB-X的HTAP混合負載特性，同時覆蓋高併發實時交易和部分線上資料分析處理的場景。實現高併發交易線上複雜查詢加速一體化。

智慧混合負載技術、資料查詢強一致技術、資源鏈路強隔離技術和線上分析加速技術，使線上交易和線上複雜查詢的效能提升5到10倍。

以天貓雙11為例，PolarDB-X連續多年穩定支撐天貓雙11活動。

在去年2019年的雙11，阿里巴巴集團電商核心業務全面採用PolarDB-X，支撐了高達每秒8700萬次的TPS 峰值，每秒55萬筆的交易訂單，完美抵禦了全球最猛最高的交易活動。

PolarDB-X的這些新增特性，很好的解決了分散式雲原生條件下線上事務型業務的痛點，在分析領域我們其實也面臨著類似的問題和挑戰。

除了PolarDB-X，李飛飛今天還帶來了另一款重磅雲原生資料倉庫AnalyticDB。

在2020年上半年，ADB重新整理了TPC-H的30TB效能榜單世界紀錄，相比第二名，微軟的SQL server 2019效能提升290%以上，價效比低至1。46，成為首個登上榜單的榜首的國內廠商。

雲原生Serverless的架構，有效的降低了企業資料分析和計算的成本，效能較自建的分析系統。例如spark 提升300%以上，可實現一分鐘彈出300個節點參與計算中，透過Serverless方式大大降低使用成本。

雲原生資料倉庫AnalyticDB和資料湖分析DLA已經在國內多個使用者落地，有效的實現了企業降本增效，資料分析離線上一體化的目標。

曾震宇：資料中臺，構築城市數字孿生

大會期間，阿里雲還首次釋出了城市大腦3。0的核心技術體系，包括感知、認知、決策和協同四個領域的技術。

阿里雲智慧數字產業產研總經理曾震宇表示，「沒有行業智慧的資料中臺是沒有靈魂的。資料中臺的終極目標是資料價值反哺業務價值。」

城市是典型的資料密集型場景，巨大的物理空間，密佈著每分每秒增長的海量資料。城市大腦建立在對資料的融合和洞察之上，為城市提供數字化的基礎設施。

城市大腦，自從2016年在杭州落地至今，經歷了1。0 對「交通」方面的探索，到2。0交通、衛健等多個領域的探索。

城市大腦3。0時期，從融合感知、實時認知智慧、自動決策智慧，再到跨域協同的閉環。

一方面，實現從單點智慧到全域性智慧的視角提升；另一方面，沉澱出城市大腦核心技術體系，最佳化城市內不同領域的共性問題。

同時，曾震宇介紹了阿里雲城市資料中臺重磅升級。

最底層，多元空間資料，將城市的物理空間進行數字化還原，形成靜態的物理空間世界。同時藉助各類感知資料構成城市的動態執行世界。

動態和靜態的融合組成了城市的數字孿生。

從全息數字構建、多解析度實時推演、全域性資源排程最佳化到全域多端系統共治形成從感知智慧、認知智慧、決策智慧到組織智慧的閉環。

資料中臺能夠融合城市的GIS自然資源資料、建築BIM、CAD資料，以及高精路網等資料，打通不同的資料格式，從而構建二三維一體的數字化物理空間。

從宏觀的全貌，到圍觀細節，都可以窺見。

同時透過實時推演技術，能為城市管理提供靠譜的建議。

實時推演已經在杭州灣跨海大橋開啟探索應用。杭州灣大橋全長36千米，是連線上海和寧波兩大城市的唯一路上通道，日交通量超過4。8萬輛。

「比如，大橋上發生了交通故事，城市大腦第一時間能感知到，並基於實時交通資料進行推演，給出不同疏導方式的推演結果——短時間封鎖大橋還是始終保持通行，大腦知道哪種處理方案更高效。」

精確還原

基於城市資料中臺的靜態物理空間世界以及數字化還原能力，還開發出了城市數字基因產品，將城市空間切分成無數個單位空間，匯聚多元資料和演算法，對單位空間的人口、經濟、生態、資源等情況，進行量化計算，用網際網路資料思維管理城市每一寸空間。透過AI輔助決策，在規劃層面識別修正城市發展的更深層次問題。

中關村軟體園20週年，品牌活動“創新之源”大會再升級！

9月22日，2020創新之源大會 —“科技力量創變未來”在中關村軟體園國際會議中心召開。大會由中關村軟體園主辦，中關村軟體園孵化器、新智元、北京銀行共同承辦，邀請到清華大學副校長、北京量子資訊科學研究院院長薛其坤院士，清華大學電子工程系主任、資訊科學技術學院副院長汪玉，科大訊飛聯合創始人、訊飛創投董事長徐景明，搜狗公司CEO王小川，網易集團副總裁、網易有道CEO周楓，達闥科技創始人兼CEO黃曉慶，浪潮資訊副總裁、浪潮AI&HPC總經理劉軍，騰訊自動駕駛業務中心總經理蘇奎峰，新智元創始人兼CEO楊靜等重磅嘉賓出席。

最新議程曝光，掃描二維碼即刻報名，資格經稽核後可免費參會！

賈揚清發布阿里雲「湖倉一體」解決方案，下一代大資料計算平臺來了！

《心動的訊號》第二季中你覺得楊凱雯和誰在一起更配呢？

高血壓除了用藥物降壓,還可以吃什麼降壓?

隨便看看

家常曲子的做法？

涼拌白水兔耳的做法？

奔湧吧後浪原文？

寶馬n55水溫多少度是正常的？

賈揚清發布阿里雲「湖倉一體」解決方案，下一代大資料計算平臺來了！

《心動的訊號》第二季中你覺得楊凱雯和誰在一起更配呢？

高血壓除了用藥物降壓,還可以吃什麼降壓?

猜你喜歡

pd是什麼平臺的模型？

mysql規範化理論依據？

烏龜會咬死或吃了小金魚嗎？

隨便看看

家常曲子的做法？

涼拌白水兔耳的做法？

奔湧吧後浪原文？

寶馬n55水溫多少度是正常的？