无码成人A片在线观看,性欧美videofree高清变态,中文字幕有码无码av,国产无人区卡一卡二扰乱码 ,最近高清日本免费

您現(xiàn)在的位置: 通信界 >> 智慧 >> 新聞?wù)?/span>  
 
開放式數(shù)據(jù)湖倉,釋放數(shù)據(jù)分析無限潛能
[ 通信界 / 張一沖 / m.k-94.cn / 2022/7/24 12:10:16 ]
 

Cloudera 客戶運行著地球上最大的一些數(shù)據(jù)湖。這些湖為關(guān)鍵任務(wù)大規(guī)模數(shù)據(jù)分析、商業(yè)智能 (BI) 和機器學(xué)習(xí)用例,包括企業(yè)數(shù)據(jù)倉庫,提供動力。近年來,創(chuàng)造了“數(shù)據(jù)湖倉”一詞來描述這種對數(shù)據(jù)湖中的數(shù)據(jù)進行表分析的架構(gòu)模式。在匆匆奔向這個術(shù)語的過程中,許多廠商忽略了這樣一個事實,即數(shù)據(jù)架構(gòu)的開放性是其持久性和長盛不衰的保證。

關(guān)于數(shù)據(jù)倉庫和數(shù)據(jù)湖

數(shù)據(jù)湖和數(shù)據(jù)倉庫將海量的各種類型數(shù)據(jù)統(tǒng)一到一個中心位置。但是有著截然不同的架構(gòu)世界觀。數(shù)倉是為SQL 分析垂直集成的,而數(shù)據(jù)湖優(yōu)先考慮 SQL 之外的分析方法的靈活性。

為了能兼得魚與熊掌——數(shù)據(jù)湖中分析的靈活性和數(shù)倉中簡單快速的 SQL,企業(yè)經(jīng)常部署數(shù)據(jù)湖來補充他們的數(shù)倉,在數(shù)據(jù)提取、轉(zhuǎn)換、加載 (ETL) 或 ELT 管道的最后一步讓數(shù)據(jù)湖為數(shù)倉系統(tǒng)提供數(shù)據(jù)。在這樣做的過程中,他們等于接受了數(shù)據(jù)在倉庫中的鎖定。

但可以有一個更好的方法:用 Hive 元存儲,這是過去十年數(shù)據(jù)平臺一個出人意料的好產(chǎn)品。隨著用例的成熟,我們看到高效的交互式 BI 分析和事務(wù)語義來修改數(shù)據(jù)的需求。

數(shù)據(jù)湖倉的迭代

第一代 Hive元存儲試圖解決在數(shù)據(jù)湖上高效運行 SQL 的性能考慮。它提供了數(shù)據(jù)庫、模式和表的概念,用于描述數(shù)據(jù)湖的結(jié)構(gòu),讓 BI 工具可以有效地充分使用數(shù)據(jù)。它添加了描述數(shù)據(jù)邏輯和物理布局的元數(shù)據(jù),支持基于成本的優(yōu)化器、動態(tài)分區(qū)裁剪以及針對 SQL 分析的一些關(guān)鍵性能改進。

第二代 Hive元存儲添加了對使用 Hive ACID 的事務(wù)更新的支持。數(shù)據(jù)湖倉雖然尚未正式命名,但已開始熱鬧。事務(wù)性啟用了持續(xù)攝取和插入/更新/刪除(或合并)的用例,從而打開了數(shù)倉樣式的查詢、功能以及從其他數(shù)倉系統(tǒng)到數(shù)據(jù)湖的遷移。這對我們的許多客戶來說非常有價值。

Delta Lake項目采用不同的方法來解決這個問題。Delta Lake為數(shù)據(jù)湖中的數(shù)據(jù)添加了事務(wù)支持?梢赃M行數(shù)據(jù)策管,為數(shù)據(jù)湖帶來了運行數(shù)倉式分析的可能性。

漸漸的在某個時刻,“數(shù)據(jù)湖倉”這個詞因為這種架構(gòu)模式而被造出來了。我們相信湖倉是簡潔地定義這種模式的好方法,并很快在客戶和行業(yè)中獲得了共識。

開放數(shù)據(jù)湖倉滿足互操作性需求

在過去幾年中,隨著新數(shù)據(jù)類型的誕生和新的數(shù)據(jù)處理引擎的出現(xiàn),為了簡化分析,企業(yè)所期望的兩全其美真的需要分析引擎的靈活性。如果企業(yè)海量有價值的數(shù)據(jù)需要被管理,那么企業(yè)必須能夠開放的選擇不同的分析引擎,甚至是供應(yīng)商。

 湖倉模式在實施過程中存在一個嚴(yán)重的矛盾:雖然數(shù)據(jù)湖是開放的,但湖倉卻不是。

在能夠添加 Impala、Spark 等引擎之前,Hive元存儲一直遵循 Hive為先的演進。Delta lake是Spark為主的演進;如果客戶想要自由選擇不同的引擎而不只是表格式,他們的選擇極為有限。

客戶從一開始就要求更多。更多格式、更多引擎、更多互操作性。今天,Hive 元存儲被多個引擎和多個存儲選項使用。除了 Hive 和 Spark,還有 Presto、Impala 等等。Hive元存儲是有機地演進支持這些用例,因此集成通常很復(fù)雜且容易出錯。

為滿足互操作性需求而設(shè)計的開放數(shù)據(jù)湖倉從根本上解決了這一架構(gòu)問題。它會讓那些全押在一個平臺上的人感到不安,但社區(qū)驅(qū)動的創(chuàng)新能幫助解決現(xiàn)實世界的問題,以務(wù)實的方式幫助使用同類最佳工具,并克服供應(yīng)商的鎖定。

開放湖倉Apache Iceberg的誕生

Apache Iceberg 從一開始構(gòu)建時,其目標(biāo)就是在多個分析引擎在云原生規(guī)模上輕松實現(xiàn)互操作。這項創(chuàng)新的誕生之地 Netflix 需要將 100 PB 規(guī)模的 S3 數(shù)據(jù)湖構(gòu)建到數(shù)倉中,這可能是最佳示例了。云原生表格式由其創(chuàng)建者開源到 Apache Iceberg 中。

Apache Iceberg 真正的超級力量是它的社區(qū)。在過去三年中,Apache Iceberg 社區(qū)有機地蓬勃發(fā)展,增加了一系列令人贊嘆的優(yōu)異集成:

 · 數(shù)據(jù)處理和 SQL 引擎 Hive、Impala、Spark、PrestoDB、Trino、Flink

· 多種文件格式:Parquet、AVRO、ORC

· 社區(qū)中的大型采用者:Apple、LinkedIn、Adobe、Netflix、Expedia 等

· AWS Athena、Cloudera、EMR、Snowflake、騰訊、阿里巴巴、Dremio、Starburst 的托管服務(wù)

使這個多樣化的社區(qū)蓬勃發(fā)展的原因是數(shù)千家公司的集體需求,以確保數(shù)據(jù)湖可以演變?yōu)榘瑪?shù)據(jù)倉庫,同時保持跨引擎的分析靈活性和開放性。這使得開放式湖倉成為可能:為未來提供無限的分析靈活性。

Cloudera擁抱Iceberg模式

在 Cloudera,我們?yōu)槲覀兊拈_源根基感到自豪,并致力于社區(qū)貢獻。自 2021 年以來,我們?yōu)槿找鎵汛蟮?Iceberg 社區(qū)在 Impala、Hive、Spark 和 Iceberg 上做出了數(shù)百項貢獻。我們擴展了 Hive 元存儲將集成添加到我們的許多開源引擎中以充分利用 Iceberg 表。2022 年初,我們在 Cloudera Data Platform (CDP) 中提供了 Apache Iceberg 的技術(shù)預(yù)覽,使 Cloudera 客戶能夠在我們的數(shù)據(jù)倉庫、數(shù)據(jù)工程和機器學(xué)習(xí)服務(wù)中實現(xiàn) Iceberg 的模式和時間旅行能力。

我們的客戶一直告訴我們,無論是現(xiàn)代 BI、AI/ML、數(shù)據(jù)科學(xué)還是更多,分析需求都在迅速發(fā)展。選擇由 Apache Iceberg 提供支持的開放數(shù)據(jù)湖倉讓企業(yè)可以自由選擇分析。

 

作者:張一沖 合作媒體:通信界 編輯:顧北

 

 

 
 熱點新聞
普通新聞 同級最強!天璣8200實測成績放出,iQOO Neo7 SE神機配神U
普通新聞 中國信通院:我國部署超 7900 張 5G 行業(yè)虛擬專網(wǎng)
普通新聞 省內(nèi)首個智慧康養(yǎng)平臺,點亮“銀發(fā)族”數(shù)智生活
普通新聞 中國移動與中國寶武簽署戰(zhàn)略合作框架協(xié)議
普通新聞 云巨頭深陷高管離職風(fēng)波!三千億美元市值已蒸發(fā)一大半
普通新聞 中國軟件三十年:煙塵隱入,夾縫重生
普通新聞 馬斯克世界首富之位被LVMH老板短暫超越
普通新聞 蘋果將推“高級數(shù)據(jù)保護”功能 允許用戶對更多iCloud備份數(shù)據(jù)進行加
普通新聞 臺積電加大對美投資建廠,半導(dǎo)體關(guān)鍵技術(shù)會外流嗎?
普通新聞 數(shù)字化融入生活方方面面,紅帽助力客戶實現(xiàn)多維轉(zhuǎn)型
普通新聞 愛立信移動市場報告:2028年5G簽約數(shù)將超過50億
普通新聞 我國將邁入百億物聯(lián)發(fā)展征途 分三階段實現(xiàn)
普通新聞 黑客帝國重現(xiàn)?馬斯克腦機公司將開展人體試驗:有點瘋狂
普通新聞 OpenAI發(fā)布新作:ChatGPT聊天機器人
普通新聞 2023年人工智能發(fā)展預(yù)測 企業(yè)如何成功采用AI?
普通新聞 愛立信:5G增長快于以往任何一代移動通信
普通新聞 突破千萬大關(guān)之后 被誤讀低估的VR
普通新聞 臺積電1nm新廠計劃已上報 將落地新竹
普通新聞 三大運營商股價創(chuàng)年內(nèi)新高,新發(fā)展模型下價值如何重估?
普通新聞 解密“個人信息保護認(rèn)證”
  版權(quán)與免責(zé)聲明: ① 凡本網(wǎng)注明“合作媒體:通信界”的所有作品,版權(quán)均屬于通信界,未經(jīng)本網(wǎng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用。已經(jīng)本網(wǎng)授權(quán)使用作品的,應(yīng)在授權(quán)范圍內(nèi)使用,并注明“來源:通信界”。違反上述聲明者,本網(wǎng)將追究其相關(guān)法律責(zé)任。 ② 凡本網(wǎng)注明“合作媒體:XXX(非通信界)”的作品,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點和對其真實性負(fù)責(zé)。 ③ 如因作品內(nèi)容、版權(quán)和其它問題需要同本網(wǎng)聯(lián)系的,請在一月內(nèi)進行。
通信視界
新華三:云智原生 AD-NET構(gòu)筑智能聯(lián)接新底座
華為林永明:ADN 鋪就高階自智網(wǎng)絡(luò)之路
普通對話 中國移動丁海煜:三大方向十大技術(shù),5G-A賦
普通對話 英特爾王銳:中國戰(zhàn)略是我們的全球戰(zhàn)略之重
普通對話 新華三:云智原生 AD-NET構(gòu)筑智能聯(lián)接新底座
普通對話 華為林柏楓:聯(lián)接升級,激發(fā)商業(yè)增長
普通對話 華為林永明:ADN 鋪就高階自智網(wǎng)絡(luò)之路
普通對話 NVIDIA發(fā)力數(shù)字孿生:站在虛擬和現(xiàn)實之間
普通對話 韋樂平:網(wǎng)絡(luò)深度轉(zhuǎn)型最明確的方向首先就是
普通對話 中國工程院院士鄔賀銓:6G標(biāo)準(zhǔn)面臨小圈子風(fēng)
普通對話 華為丁耘:綠色ICT,共創(chuàng)新價值
普通對話 愛立信中國區(qū)總裁方迎:將在中國市場重點做
普通對話 中國聯(lián)通買彥州:廣電5G商用對行業(yè)競爭格局
普通對話 中國聯(lián)通陳忠岳:從“提速降費”向“提速提
普通對話 華為胡厚崑:5G+工業(yè)互聯(lián)網(wǎng) 數(shù)據(jù)驅(qū)動是關(guān)鍵
普通對話 華為郭平:每個人磨好自己的豆腐,就會有一
普通對話 中國移動楊杰:加快推進新型平臺用工模式規(guī)
通信前瞻
北斗三號衛(wèi)星低能離子能譜儀載荷研制成功
中國移動李慧鏑:強化數(shù)智基建驅(qū)動 推進產(chǎn)業(yè)轉(zhuǎn)
普通對話 物聯(lián)網(wǎng)設(shè)備在智能工作場所技術(shù)中的作用
普通對話 軟銀研發(fā)出以無人機探測災(zāi)害被埋者手機信號
普通對話 AI材料可自我學(xué)習(xí)并形成“肌肉記憶”
普通對話 北斗三號衛(wèi)星低能離子能譜儀載荷研制成功
普通對話 為什么Wi-Fi6將成為未來物聯(lián)網(wǎng)的關(guān)鍵?
普通對話 馬斯克出現(xiàn)在推特總部 收購應(yīng)該沒有懸念了
普通對話 臺積電澄清:未強迫員工休假或有任何無薪假
普通對話 新一代載人運載火箭發(fā)動機研制獲重大突破
普通對話 多管齊下,VMware跨云服務(wù)助力企業(yè)云轉(zhuǎn)型
普通對話 中國移動李慧鏑:強化數(shù)智基建驅(qū)動 推進產(chǎn)業(yè)
普通對話 蘇少林:打造北京數(shù)字經(jīng)濟“五強”,助力標(biāo)
普通對話 中國科大在高安全量子密鑰分發(fā)網(wǎng)絡(luò)方面取得
普通對話 華為楊超斌:邁向5.5G持續(xù)創(chuàng)新,開啟5G產(chǎn)業(yè)
普通對話 中國聯(lián)通買彥州:加強創(chuàng)新力度,協(xié)同推進6G
普通對話 信通院總工敖立:5G工業(yè)模組是產(chǎn)業(yè)鏈特別短