官宣!ASF官方正式宣布Apache Hudi成為頂級項目

馬薩諸塞州韋克菲爾德(Wakefield,MA)- 2020年6月 – Apache軟件基金會(ASF)、350多個開源項目和全職開發人員、管理人員和孵化器宣布:Apache Hudi正式成為Apache頂級項目(TLP)。在投票表決Hudi畢業時,Hudi總共獲得了19票binding(其中包括ASF聯合創始人Jim Jagielski的一票),21票non-binding。

Apache Hudi(Hadoop Upserts Delete and Incremental)數據湖技術可在Apache Hadoop兼容的雲存儲和分佈式文件系統之上進行流處理。該項目最初於2016年在Uber開發(代號和發音為”Hoodie”),於2017年開源,並於2019年1月提交給Apache孵化器。

Apache Hudi項目VP Vinoth Chandar說:“在孵化器中學習和發展Apache之道是一種有益的體驗,作為一個社區,我們對我們共同推動該項目走了多遠依然感到謙卑,與此同時,對即將到來的挑戰感到興奮。”

Apache Hudi用於在Apache Hadoop分佈式文件系統(HDFS)或雲存儲上使用流處理原語(例如插入更新和增量更改流)來管理PB級數據湖。Hudi數據湖提供了新鮮的數據,比傳統批處理效率高一個數量級。 核心功能包括:

  • 可插拔式的索引支持快速Upsert / Delete。
  • 事務提交/回滾數據。
  • 支持捕獲Hudi表的變更進行流式處理。
  • 支持Apache Hive,Apache Spark,Apache Impala和Presto查詢引擎。
  • 內置數據提取工具,支持Apache Kafka,Apache Sqoop和其他常見數據源。
  • 通過管理文件大小,存儲布局來優化查詢性能。
  • 基於行存快速提取模式,並支持異步壓縮成列存格式。
  • 用於審計跟蹤的時間軸元數據。

阿里巴巴集團、亞馬遜AWS、EMIS Health、Linknovate、Tathastu.AI、騰訊和Uber等組織。都在使用Apache Hudi,https://hudi.apache.org/docs/powered_by.html 提供了使用Hudi的部分列表。

我們很高興看到Apache Hudi畢業成為Apache頂級項目。Apache Hudi在Amazon EMR版本5.28和更高版本中受支持,並使擁有Amazon S3數據湖中數據的客戶能夠執行記錄級的插入,更新和刪除操作,以執行隱私法規,更改數據捕獲(CDC)和簡化的數據管道開發 ” AWS總經理Rahul Pathak說。 “我們期待與我們的客戶和Apache Hudi社區合作,以幫助推進該項目。”

Apache Hudi項目管理委員會成員Nishith Agarwal說:“在Uber,Hudi近實時地管理地球上最大的交易數據湖之一,為全球用戶提供有意義的體驗,累計超過150 PB的數據和每天超過5,000億條記錄被提取,Uber的使用範圍從關鍵業務工作流程到分析和機器學習。”

“使用Apache Hudi,用戶可以輕鬆處理重讀或重寫的場景,並且Hudi使用Apache Parquet和Apache Avro管理存儲在HDFS/COS/CHDFS上的基礎數據。”騰訊雲實時計算服務技術負責人Felix Zheng說道。

“隨着雲的基礎設施越來越完善,用戶的數據分析和計算方案逐步開始基於雲上對象存儲和計算資源構建數據湖平台。Hudi是一個很好的增量存儲引擎,用開放的方式幫助用戶管理好數據湖的數據,加速用戶的計算和分析。”阿里雲Data Lake Analytics – Lake Formation技術負責人李偉表示。

“Apache Hudi是Hopsworks Feature Store的關鍵模塊,它提供了版本控制、增量和原子更新以及時間旅行查詢等功能” Logical Clocks的CEO /聯合創始人Jim Dowling說。“Hudi畢業成為Apache頂級項目,也是開源數據湖從早期的數據沼澤化身到現代支持ACID且可用於企業的數據平台。”

Uber工程平台高級總監Jennifer Anderson表示:“Hudi畢業成為Apache頂級項目是Hudi社區眾多貢獻者共同努力的結果。Hudi對於Uber大數據基礎架構的性能和可伸縮性至關重要。我們很高興看到它獲得牽引力並實現了這一重要里程碑。”

Vinoth Chandar補充道:“到目前為止,Hudi已經開始在業界中就數據倉庫和數據湖之間的巨大差距進行有意義的討論。在Apache社區的幫助下我們連接起了其中一部分,但我們僅僅是從技術路線圖着手。我們歡迎每位開發者做出更多貢獻和合作以實現這一目標!”

可以訪問 https://github.com/apache/hudi 給出你的star & fork.

在2020年6月7日至12日舉行的Virtual Berlin Buzzwords,MeetUps和其他活動中了解Apache Hudi。

可用性和監督

Apache Hudi是根據Apache License v2.0發布的,並且由該項目的積极參与者自選團隊進行監督。項目管理委員會(PMC)指導項目的日常運營,包括社區開發和產品發布。 有關下載,文檔以及參与Apache Hudi的方式,請訪問http://hudi.apache.org/和https://twitter.com/apachehudi

關於Apache孵化器

Apache孵化器是希望成為Apache Software Foundation工作的一部分的項目和代碼庫的主要入口。外部組織和現有外部項目的所有代碼捐贈均通過孵化器進入ASF,以:1)確保所有捐贈均符合ASF法律標準; 2)建立符合我們指導原則的新社區。 所有新接受的項目都需要進行孵化,直到進一步的審查表明基礎架構,通信和決策過程已經以與其他成功的ASF項目一致的方式穩定下來。 雖然孵化狀態不一定反映代碼的完整性或穩定性,但確實表明該項目尚未得到ASF的完全認可。有關更多信息,請訪問http://incubator.apache.org/

關於Apache軟件基金會(ASF)

這家全志願者基金會成立於1999年,負責監督350多個領先的開源項目,其中包括Apache HTTP Server(世界上最受歡迎的Web服務器軟件)。通過ASF稱為“ Apache之道”的精英流程,六大洲的813名個人會員和7800個提交者成功地合作開發了免費的企業級軟件,使全球數百萬用戶受益:數千種軟件解決方案在Apache下分發執照;社區積极參与ASF郵件列表,指導計劃以及ApacheCon(基金會的官方用戶會議,培訓和博覽會)。ASF是一家美國501(c)(3)慈善組織,由個人捐款和企業贊助商資助,其中包括Aetna,阿里雲計算,亞馬遜AWS,Anonymous,百度,彭博社,Budget Direct,Capital One,CarGurus。 Cerner,Cloudera,Comcast,Facebook,Google,Handshake,Huawei,IBM,Inspur,Leaseweb,Microsoft,Pineapple Fund,Red Hat,Target,騰訊,Union Investment,Verizon Media和Workday。有關更多信息,請訪問http://apache.org/和https://twitter.com/TheASF

©Apache軟件基金會。 “ Apache”,“ Hudi”,“ Apache Hudi”,“ Hadoop”,“ Apache Hadoop”和“ ApacheCon”是Apache軟件基金會在美國和/或其他國家的註冊商標或商標。所有其他品牌和商標均為其各自所有者的財產。

本站聲明:網站內容來源於博客園,如有侵權,請聯繫我們,我們將及時處理

【其他文章推薦】

網頁設計一頭霧水該從何著手呢? 台北網頁設計公司幫您輕鬆架站!

網頁設計公司推薦不同的風格,搶佔消費者視覺第一線

※想知道購買電動車哪裡補助最多?台中電動車補助資訊懶人包彙整

南投搬家公司費用,距離,噸數怎麼算?達人教你簡易估價知識!

※教你寫出一流的銷售文案?

※超省錢租車方案

※回頭車貨運收費標準

您可能也會喜歡…