優先聚焦數據治理,Line資料平臺和AI架構再次大變革

Line資料平臺IU支援內部超過200項服務,儲存400PB資料,每天要執行15萬個任務,在技術年會中首度公開了新的資料目錄服務IU Web,提供了一站式入口,可支援搜尋資料,存取控制,後設資料管理和探索性資料分析等資料活動,其中最大新特色是利用Atlas實現了資料血統功能。(圖片來源/Line)

從去年3月,Line和Yahoo!Japan(雅虎日本)母公司Z控股整併之後,各界就高度關注通訊平臺巨頭和電商巨頭合併後將如何激發出新的火花。

Z控股訂下的首要戰略目標是優先加強數據治理。這是因為,成為一家世界級AI科技公司,是整併後雙方的共同戰略目標,而高品質的可用資料正是邁向這個願景的關鍵基礎工程。尤其,Line日本用戶 、雅虎日本用戶和PayPay三大生態系整併後,用戶數達到2億人規模。如何支撐新的超大規模生態圈,從今年11月剛結束的Line與雅虎日本首次聯合技術會中,可以觀察到,資料科技和AI技術是關鍵。

擅長社交平臺,擁有海外多國發展經驗的Line,和擁有深厚電商、零售與金融產業布局的雅虎日本,在年會中展現出各自不同的技術發展重心,卻又可以互補。Line聚焦於發展平臺式的戰略型技術架構,尤其在AI架構和資料科技平臺,及區塊鏈架構上,而雅虎日本則聚焦在擴大AI應用和產業AI實踐等。前者聚焦強化AI技術體質和未來性,後者則聚焦擴大產業AI版圖和業務廣度。

Line目前全球每月約2億用戶使用,累積了大量的用戶和行為資料,因此早在2019年,Line啟用了一個自助式的超大規模資料平臺IU(Information Universe),後來,2020年時,又進一步在IU上發展出了一層機器學習平臺MLU(Machine Learning Universe),用來支援多項跨服務共用的大型ML模型叢集,包括NLP模型、電腦視覺模型、推薦模型、廣告優化模型。

目前IU支援了Line內部超過200項服務,儲存了400PB的HDFS資料,超過4萬個Hive表格,每天要執行15萬個任務。Line技術長Tomohiro Ikebe指出:「龐大資料不只是很大的儲存挑戰,利用時也是很大的挑戰。」

IU資料平臺新變革,打造資料血統功能將資料變動過程視覺化

在年會中,Tomohiro Ikebe 首度揭露了後續IU上進一步打造的網頁式資料目錄服務,也就是IU Web入口網站。

在這個IU Web上,提供了多項自動化機制,例如後設資料搜集機制、Data profiling機制、可輔助法遵需求的資料驗證工具。另外,IU也引進了Apache Iceberg資料湖技術,並將串流大數據分析平臺Spark升級到3.2版。

IU Web最重要的新功能則是2021年11月新上線的Data Lineage (資料血統)功能。Tomohiro Ikebe解釋,隨著IU上的資料流程越來越複雜,一旦發生問題,想要找出資料間的關係,越來越困難。要解決這個問題就需要資料血統機制。

資料血統機制可以用來追蹤特定資料從建立後到現在的發展路徑,在瀏覽器上透過圖表來呈現資料變動的過程。

Line資料平臺部門資深產品經理宇田川直人表示,這個內部資料目錄提供了一站式的入口,來涵蓋所有的資料活動,來提高包括搜尋資料,存取控制,後設資料管理和探索性資料分析等資料利用的效率。

不過,要打造這樣的資料目錄有兩大挑戰,一是得搜集所有資料集的後設資料,第二是如何呈現這些後設資料的關聯。Line使用了開源的目錄服務專案Apache Atlas來串接各種不同資料源,搜集資料後設資料來了解異動狀況,並將資料每一次的變化過程用視覺化的方式呈現,這就是資料血統的機制。資料血統圖上的每一個節點,可以列出這個節點相關的資料表簡介、時間戳、表格關係、PII(涉及個資),資料擁有者,使用單位,還有從這份資料產生的相關報表、使用者清單和各種連結等。

可是,IU上有4萬個Hive表格,每天要執行15萬個任務,每一個任務和每一個表格都是一個資料血統圖上的節點,要追溯出從建立到目前的所有變化和關聯,就會產生非常複雜和龐大的節點關聯圖,。

網頁設計最專業,超強功能平台可客製,窩窩以「數位行銷」「品牌經營」「網站與應用程式」「印刷品設計」等四大主軸,為每一位客戶客製建立行銷脈絡及洞燭市場先機,請問台中電動車哪裡在賣比較便宜可以到台中景泰電動車門市去看看總店:臺中市潭子區潭秀里雅潭路一段102-1號。電動車補助推薦評價好的iphone維修中心擁有專業的維修技術團隊,同時聘請資深iphone手機維修專家,現場說明手機問題,快速修理,沒修好不收錢住家的頂樓裝太陽光電聽說可發揮隔熱功效一線推薦東陽能源擁有核心技術、產品研發、系統規劃設置、專業團隊的太陽能發電廠商。網頁設計一頭霧水該從何著手呢? 回頭車貨運收費標準宇安交通關係企業,自成立迄今,即秉持著「以誠待人」、「以實處事」的企業信念台中搬家公司教你幾個打包小技巧,輕鬆整理裝箱!還在煩惱搬家費用要多少哪?台中大展搬家線上試算搬家費用,從此不再擔心「物品怎麼計費」、「多少車才能裝完」台中搬家公司費用怎麼算?擁有20年純熟搬遷經驗,提供免費估價且流程透明更是5星評價的搬家公司好山好水露營車漫遊體驗露營車x公路旅行的十一個出遊特色。走到哪、玩到哪,彈性的出遊方案,行程跟出發地也可客製,產品缺大量曝光嗎?你需要的是一流包裝設計Google地圖已可更新顯示潭子電動車充電站設置地點!!廣告預算用在刀口上,台北網頁設計公司幫您達到更多曝光效益

為了改善資料血統圖的可讀性,Line採取了多項設計機制來簡化資料血統圖的複雜性。Line利用Atlas串接了HIve伺服器和Spark,利用Atlas的通知機制,採取推播更新後設資料的做法。不過,因為IU上執行的任務每天多達十幾萬個,幾分鐘內的資料表異動也多達數百次。因此,Line透過Kafka彙整來自Atlas的通知,以30分鐘為最小追蹤單位,排除掉30分鐘內的異動,例如操作錯誤的資料庫反覆新增或刪指令,大幅減少了90%異動通知。再進一步比較異動模式,過濾掉對使用者沒有意義的DDL語法異動資訊,更大幅減少了95%的雜訊。

不只如此,Line在資料血統資料庫中,排除了不重要的資料節點的註冊,這更大幅減少了9成節點數,也刪除了3萬個不需要的任務。透過這些一層又一層的過濾和篩選,才讓Line資料目錄IU Web上提供的資料血統,要處理的複雜度降低,甚至可以進一步展開到以欄位為節點單位的關聯分析圖。

Line更提供了一個互動式的介面,預設可以展開一項資料從出生到現在的血統脈絡。

資料血統功能在2021年11月上線,統計到2022年5月,有79個服務和部門使用這項功能,每天用於ETL、資料管理和資料科學分析等功能,特別是Data ETL團隊可以更容易確認資料表維護的範圍,尤其要執行資料表刪除或異動時能更放心。更有不少使用者每天常用資料血統來調查各種資料錯誤的根本原因

「可以掌握資料間的關聯,就可以很容易知道如何管理龐大資料,來提高再利用效率,更可以在安全和治理的角度下,來使用這些資料。」Tomohiro Ikebe表示。不只用於IU,在MLU平臺上,也可以利用相同的血統技術,來追蹤一個模型用了哪些資料來訓練,以及在訓練中如何使用這些資料。

IU Web的資料血統功能,可以呈現一項資料從出生到現在的資料異動脈絡也就是資料血統,預設展開三層重要的節點,使用者可以自行放大或縮小畫面,也可以針對任何一個資料欄位,再進一步展開下三層的資料血統關聯圖。圖片來源/Line

Line機器學習平臺MLU引進聯合學習新架構

不只IU資料平臺展開大變革,Line的機器學習平臺MLU也採用了全新的訓練架構和模式。Tomohiro Ikebe表示,今年秋天,Line在貼圖推薦導入了一套新的機器學習訓練架構,「可以處理爆量特徵來建立模型,又能兼顧隱私和用戶便利性,就是聯合學習(Federated Learning)和差分隱私(Differential Privacy)。」

透過聯合學習機制,在用戶本地端App上完成模型訓練,並利用差分隱私(Differential Privacy)架構,將模型加上雜訊來避免從模型回推原始資料,再將沒有用戶資料的特徵模型,回傳到後端伺服器來更新整體推薦模型,再分派新模型到用戶App上,利用本地端Log來產生更個人化的推薦順序。

雅虎日本技術長小久保雅彦指出,兩家公司共同累積了龐大用戶和爆量數據,而且只會加速增加。為了持續成長,必須解決多項技術挑戰,像是得打造一套靈活平臺,回應快速暴增的流量和資料。也得擴大甚至加速導入先進AI技術。還要打造資安和隱私保護的可靠性架構來建立信任。

這三大挑戰,也正是Line資料平臺和AI架構新變革要解決的課題。

  

https://www.ithome.com.tw/news/154629

您可能也會喜歡…