首發!Apache Flink乾貨合集打包好了,速來下載

  最近的一份市場調查報告显示,Apache Flink 是 2018 年開源大數據生態中發展“最快”的引擎,和 2017 年相比增長了 125% 。為了讓大家更為全面地了解 Flink,我們製作了一本电子乾貨合集:《不僅僅是流計算:Apache Flink 實踐》,融合了 Apache Flink 在國內各大頂級互聯網公司的大規模實踐,希望對大家有所幫助。

  在這本合集里,你可以了解到:

  Flink 如何為整個阿里集團平穩度過雙十一立下汗馬功勞?

  如何為滿足滴滴極為複雜的業務需求提供簡單直觀的 API 支持?

  如何在字節跳動逐步取代原有的 JStorm 引擎,成為公司內部流式數據處理的唯一標準?

《不僅僅是流計算:Apache Flink 實踐》目錄一覽

  下載地址:

  https://102.alibaba.com/downloadFile.do?file=1543409877893%2fApache+Flink.pdf

  Apache Flink 已經被業界公認是最好的流計算引擎。然而 Flink 的計算能力不僅僅局限於做流處理。Apache Flink 的定位是一套兼具流、批、機器學習等多種計算功能的大數據引擎。在最近的一段時間,Flink 在批處理以及機器學習等諸多大數據場景都有長足的突破。此次專刊,旨在對 Flink 在大數據智能計算方面做一些簡要的介紹。後續我們還將發布更多關於 Flink 在新場景的應用乾貨。

  下面,我們邀請阿里資深技術專家、Apache Flink Committer 王紹翾老師(花名“大沙”),帶領大家走進 Flink 的世界。

  在全面介紹 Flink 的新進展之前,我先來介紹一些大數據和人工智能計算的背景。大數據計算的種類非常多,比較典型的,且被大規模使用的主要是 3 種類型:

  • 批計算

  • 流計算

  • 交互式分析計算

  批計算的特點是要計算的數據量比較大,但是往往對延遲不是特別敏感。流計算對延遲的要求非常高,這些作業的查詢 query 往往是固定的。因此流計算作業往往需要提前調度起來,一旦數據到來就可以做快速的處理,節省了調度的開銷。

  最後一種是交互式分析,這種類型的大數據計算的特點是用戶的查詢 query 是不固定的,這些 query 往往是由用戶隨機的發出的。雖然查詢不固定,在這種場景下,用戶對查詢的返回時間是有一定的要求的,這個時間介於批處理和流處理之間,越快越好,最好能做到秒級。

  人工智能計算的種類很多,但是整體架構大多和上圖所描述的類似。一個常見的 ML pipeline 通常涉及一系列的數據預處理、特徵提取和轉換、模型訓練以及驗證。如果驗證后的效果符合預期,就可以將模型推到線上服務。如果不符合預期,算法工程師就需要調整算法模型或者參數,然後再做一次模型的訓練和驗證,直到對結果滿意后,再將訓練好的模型推上線服務。整個計算過程可以是對一個確定大小的數據按照批計算模式計算,也可以接入實時數據按照流計算模式進行計算。上面這個 pipeline 是人工智能計算最基礎的流程,如果算法工程師對數據以及業務特點非常熟悉,他們就能設計出合理的算法模型和參數。但是往往更常見的情況是,算法工程師需要分析工具幫助他們理解數據。只有在很好地理解了數據特點之後,才能提取出更有用的特徵,設計出更好的模型。因此,如下圖所示,做好人工智能計算,不可或缺的一部分就是交互式分析。有了交互式分析,算法工程師可以對數據做各種 ad-hoc query,從而幫助他們更好地理解數據。

  綜上所述,可以看出人工智能計算和大數據計算是密不可分的。雖然人工智能計算變得越來越炙手可熱,人們越來越多的提及人工智能而不是大數據,但是我們不能忘記,人工智能計算的基礎是大數據計算,沒有大數據計算提供算力和功能,人工智能計算只能停留在紙上談兵的階段。接下來,我把基於大數據計算的人工智能計算簡稱為“大數據智能計算”。

  大數據和 AI 全景–2018(來源:http://mattturck.com/bigdata2018/)

  那麼怎麼來搭建一套大數據智能計算系統呢?http://mattturck.com 收集了所有大數據和 AI 的軟件和平台。上面提到的每一種大數據計算場景都有好幾種軟件的選擇,調研和選型這些軟件本身就是一項巨大的工程。即使最後為每一套場景都選型了一種軟件,那麼後期的開發迭代和運維也難做到高效。因為每一套軟件都需要專門的開發和運維團隊負責,無論是在人力還是機器資源上都不能橫向打通,勢必會造成浪費。

  因此,阿里巴巴一直在思考是否可能有一套計算引擎解決如上的所有問題。經過仔細的選型,我們選擇了 Apache Flink,並圍繞着 Flink 在打造一款通用計算引擎。Flink 已經被業界公認是最好的流計算引擎。

  它所具有的低延遲、高吞吐、保障 Exactly-once 的計算模式,使得它具有金融級的大數據處理能力。在批處理方面,基於流式的 flow 來處理批數據有着潛在的優勢和擴展性。阿里巴巴利用 Flink 的天然特性,做了若干批計算方面的優化,使得 Flink 也成為了一款性能卓越的批計算引擎。在人工智能和交互式分析方面,我們也在逐步地完善 Flink 的易用性,生態,以及性能。另外,不得不提的是,Flink 的流處理架構還天然的適合於正在快速崛起的本質更像流計算的 IoT 的場景。

  Flink 的社區和生態一直在壯大。在流計算和批計算等場景慢慢使用 Flink 成為主流的同時,我們期望設計和推廣出更多更完善的批流融合的場景。所有對 Lamda 架構有訴求的應用應該都可以用 Flink 完美的解決。早期的 Lamda 架構的設計也許很快會成為歷史。

  在易用性和生態方面,我們一方面幫助 Flink 社區在 tableAPI,Python,以及 ML 等諸多領域發力,持續提升用戶做 Data science 和 AI 計算的體驗。另一方面,我們也在努力完善 Flink 和其他開源軟件的融合,包括 Hive,以及 Notebook(Zeppelin, Jupyter)等等。這些諸多的努力,都是為了最終實現我們“一套引擎完美解決大數據智能計算”的初衷。Apache Flink 自 2014 年開源至今也才 4 年,我們期待更多的企業和開發者們和我們一起參與到 Apache Flink 的社區和生態建設中來,共同把它打造成為全球最一流的開源大數據引擎。

本站聲明:網站內容來源於博客園,如有侵權,請聯繫我們,我們將及時處理【其他文章推薦】

網頁設計公司推薦更多不同的設計風格,搶佔消費者視覺第一線

※廣告預算用在刀口上,網站設計公司幫您達到更多曝光效益

※自行創業 缺乏曝光? 下一步"網站設計"幫您第一時間規劃公司的門面形象

您可能也會喜歡…