做少有人涉足的向量數據庫,是種什麼體驗?| 快公司

人工智能的突破是建立在數據、算力、算法三個層面,彼此發展相輔相成。這是業界普遍共識。

從近些年的進展來看,深度學習大模型有效提升AI任務的訓練效果,但也對計算和存儲資源提出了極大需求。哪怕是只能帶來一兩個性能點的提升,只要最終能獲得超強的效益回報,巨頭科技公司往往會加大投入。性能提升的背後,是成本的代價。

但對於更多的創業公司而言,大模型做微調或二次開發的路徑,且不說仍需要大量算力的支持,在實際場景中,能不能等到成熟落地也需要時間成本。是否可以替換為其他解決方案?在訓練時外掛領域知識庫,加強數據生產的標準化,將計算擴展到多個GPU實現分佈式訓練等等,均為業內在探索的方向。

Zilliz構建了一套向量數據庫,雖然聽起來是個新事物,但解決的問題卻是上述已經存在的問題。

向量數據,顧名思義是Embedding Data。作為AI模型訓練的基石,Embedding從最開始的用於文本表達的詞向量,到後來可用於表達圖片、視頻、語音等非結構化數據轉化的深層語義,這些向量數據可被計算機識別、使用,且在轉化的過程中不丟失信息。

向量數據庫,則是將向量數據在存儲、分析等方面的問題解決,極大降低數據處理成本,幫助AI工程師獲得AI數據價值。在這個過程中,相當於在非結構化數據和結構化數據層之上又加了一個新的數據層,這個數據層中的信息主要以向量的方式存在。為此向量數據庫具備與ElasticSearch等傳統搜索引擎對數據檢索的的功能,但前者可對非結構化數據進行快速精準檢索。

據Zilliz創始人Charles Xie(星爵)的觀察,2013年前後,Embedding方興未艾,但當時處理的數據量比較小,基本仍處於實驗室小規模驗證的階段,也出現了很多提取算法、運算庫,“數據庫系統本質是幫助企業管理大量數據,如果數據量不夠大,其實用不上數據庫系統。”

真正的改變則來自於2017年前後,伴隨深度學習在工業界的廣泛落地,實際應用場景下的數據量級開始直線增加。想要高效處理這些海量的向量數據,就需要更細分、更專業的數據基礎設施,為向量構建專門的數據庫處理系統。

AI時代,數據處理的類型和計算體系架構都發生了較大變化,如GPU、FPGA、ARM架構芯片等層出不窮。但當時團隊對最終產品形態是什麼,並不是很清晰。

“因英偉達初創企業加速計劃的契機,我們後來接觸到了很多全球化AI企業。不斷交流的過程中,我們意識到企業對海量非結構化數據管理的需求。”星爵表示,向量作為一個新型數據類型,其數據量已經達到了一定規模,對數據管理的要求如可用性、數據一致性、管理的複雜度等層面會越來越高。

 星爵(Charles Xie)

一個專用的數據庫系統需求呼之欲出。

場景與成本的制約

不過,業內對向量數據庫的認知和應用仍屬於少數,並且當前多在大廠、互聯網、人工智能企業,作為基礎軟件,數據庫系統本身在技術上十分複雜,國內的技術公司雖然此前也有數十載的自研歷史但目前在產業規模上尚未達到巔峰之勢,傳統數據庫依然有很多存量業務。在品牌和生態尚未成熟之前,商業價值挑戰是多方面的。

一是成本,需要挖掘軟硬件對向量數據處理的加速能力。

例如,微軟bing搜索引擎,在2000年就宣布用向量實現搜索引擎的增強,可處理2000多億張網頁的向量數據。相比這些領先互聯網公司,一般的企業還是很少會用到如此多的數據。

星爵指出,“從行業的普遍場景來看,大概是在千萬到十億級別的規模,但這類非結構化數據,從人類企業能夠分析利用的總量相比,還是非常小的部分。隨着硬件成本的進一步降低,和計算效率的進一步提升,是可以以更低的成本、更高的效率去接觸更多的非結構化數據。”

在他看來,AI算法和模型訓練來的Embedding會有一個很好的效率提升,但是它的計算量也比較大,這導致計算成本也比較高。如果想要降低成本,就一定需要有硬件方面的創新,包括更快的處理器、CPU、GPU加速處理數據,也需要有更好的存儲體系,以及更低成本的網絡帶寬進行支撐。加之在軟件層面的創新如索引基礎、調度算法等,都將提升廠商應用的ROI。

目前,Zilliz在積極擁抱異構計算的能力,讓向量數據庫比較好地適配GPU,包括英偉達、蘋果基於ARM架構的M1/M2、亞馬遜自研的ARM芯片等。

二是在數據庫本身的穩定性、性能、成本等方面尋找一個技術方案最優解,進行全新的設計思路和研發方案。

(全省)堆高機租賃保養一覽表

由簡易堆高機修改而成,無需現場施工,交機即可使用!

示波器探測執行效能最佳化的8大秘訣

示波器是一種能夠顯示電壓訊號動態波形的電子測量儀器。它能夠將時變的電壓訊號,轉換為時間域上的曲線,原來不可見的電氣訊號,就此轉換為在二維平面上直觀可見光訊號,因此能夠分析電氣訊號的時域性質。

買不起高檔茶葉,精緻包裝茶葉罐,也能撐場面!

鴻和興精密工業股份有限公司集合了製茶罐業各相關技術的專業人士,不論是在印刷上或在茶葉罐加工製造上都能夠給客戶一個專業上的技術服務與諮詢。

重新改造貨櫃屋基礎設計有哪些呢

金誠貨櫃實業社能把原有貨櫃屋改裝成任何尺寸大小及多咖貨櫃合併,加裝流梯、櫃頂加蓋鐵皮屋頂、加裝鐵架等、除鏽噴漆,顏色皆依客戶指定。

從技術架構上講,所有的數據庫都會有其通用挑戰,比如在數據調度、數據管理、執行引擎、數據的存儲格式、緩存、分佈式、數據的一致性和高可用性等方面都存在挑戰。MongoDB、時序數據庫、文檔數據庫、分佈式數據庫等數據庫的出現,相比傳統關係型數據庫在各自的細分場景下有了一個更好的效能提升。

這些數據庫需要因地制宜,找到適合它的應用場景。

因此,向量數據庫,跟過去十年出現的各類新興數據庫遇到的挑戰一樣,要在一個完整的數據庫系統組件里,綜合向量數據、AI數據處理的特點,做全新的設計研發和探索。最終將這些技術組件能夠緊密地聯繫在一起,為向量數據、AI數據處理提供一種更高性能、更高ROI的具有競爭優勢的產品。

三是使用場景的探索與挖掘。向量數據庫主要應用在與全文檢索場景時,可提升檢索的精準性。

舉個例子,將ElasticSearch(ES)與向量數據庫進行對比參照能夠發現:

一是處理的數據類型不一樣,ES處理的更多是文本分析、日誌檢索,而向量搜索處理的是複雜的自然語言交互,如圖片視頻的理解,比較粗顆粒度;

二是後者使用的是深度學習技術,更加不需要人工干預,可更加精準、智能地進行搜索,在精確值上會有比較大的提升(如天安門、故宮、紫禁城可以通過深刻語義理解后明確是同一個事物),但這也導致其需要更加複雜的計算和更多的計算資源,成本會略高。在檢索速度上,向量數據庫都能對延時和QPS都能達到很高的水平,延時在毫秒級別,QPS單節點在上千量級。

所以,選擇哪類技術路徑是跟業務場景是比較強相關的,ES這類傳統的搜索引擎跟向量搜索引擎需要相輔相成。

整體來看,Zilliz主要關注的行業分佈在互聯網、電商、傳統金融、以及新葯研發等新興領域,涉及計算機視覺、圖片檢索、視頻分析、自然語言處理、推薦系統、定向廣告、個性化搜索、智能客服、欺詐檢測等具體場景。

相信開源與雲

目前數據庫本身又具備很強的通用性,市場空間足夠大,在雲與智能時代,傳統結構化數據庫已經無力支撐很多新興負載,企業如果繼續按照原有的技術路線,在時間和成本上的消耗將非常之高,這給了細分領域數據庫新的發展機會。

2019年,Zilliz公司開源了向量數據庫Milvus,2020年項目加入Linux基金會旗下LF AI&Data基金會進行孵化,2021年畢業成為頂級項目。截至目前,Milvus已經積累了上千家企業用戶使用,為其在數據庫領域的持續探索指引了方向。

“大公司往往有足夠多的用戶生態和資源投入去實現這一點,但創業公司不行。技術創業者最怕的就是拿着鎚子找釘子,開源的一個核心目的就是要找到PMF,快速獲得用戶反饋,讓企業快速跨越從技術到產品的鴻溝,然後再推動產品迭代。”星爵表示。

開源雖然改變了數據庫領域,提升了軟件商業的天花板,但如果只靠開源,只有少數企業才能盈利。一家商業公司做開源數據庫,是不會為了開源而開源。

星爵看的是,開源商業化在北美地區已經有很長的歷史,在之外的地區,市場的擔心和顧慮是存在的,僅在過去兩三年有很大的改變,尤其在中國,市場和投資人的熱情非常高漲,“但稍微有點過熱了。因為開源不是萬能鑰匙,不是說開源就一定會成功。”

中國開源軟件的起步是比較晚的,且基礎也比較薄弱,例如在開源治理方面包括法規、合規性、開源運營的效率和方法論,這導致開源精神在開發者群體中的滲透,並沒有一個很深刻的土壤。開源精神植入人心,需要時間沉澱。

“開源應該是是幫助企業運營者更自然地獲客、獲得用戶反饋,然後自然而然就能實現商業化。”

Zilliz cloud架構圖

Zilliz的思路是,先找到PMF,與潛在的客戶市場建立聯繫,然後基於雲建立起全託管的數據庫服務,為客戶提供一整套的服務體系,從而獲得相應的商業收益。不過,由於Milvus開源項目帶來了很多海外目標用戶,這也讓Zilliz結合環境和市場需求后決定將商業化路徑面向出海。2022年8月,Zilliz 首先面向海外市場推出了雲端全託管向量數據庫服務 Zilliz Cloud。

開源、做雲、出海……這不僅是Zilliz的選擇,也是目前國內數據庫領域創業團隊面臨中國本土環境下的相似路徑。從最終結果來講,無論是哪種選擇,都會為企業在技術社區的凝聚力和市場價值層面帶來一些回饋。

(本文首發鈦媒體APP 作者 | 楊麗)

https://www.tmtpost.com/6350689.html

空壓機這裡買最划算!

晨達空壓機秉持著專業空壓機技術、優質快速服務、空壓機合理價格。為您解決工作中需要風量、風壓的問題。

臭氧機的滅菌效果如何?

臭氧的性質活潑,是強力的氧化劑。臭氧的標準還原電位2.07比次氯酸1.49更高,而且臭氧不會產生致癌的三鹵甲烷類消毒副產物。臭氧不會殘留,會自動回復成氧氣是優良的消毒劑,因此臭氧像是優良的工匠,工作時很有效率,離開時也不拖泥帶水,收拾的乾乾淨淨,沒有殘留副產物。

總是為了廚餘煩惱嗎?

雅高環保提供最適用的廚餘機,滿足多樣需求。

哪裡買的到省力省空間,方便攜帶的購物推車

多功能爬梯購物推車/手推車/爬梯車/推車/購物車!

?

您可能也會喜歡…