百度AI「開源」:止近渴,解遠慮

2020年3月,注定是中國AI開發(fā)者不會遺忘的一個月。

3月20日,清華大學(xué)計算機系圖形實驗室開源AI框架計圖(Jittor),這是首個由中國學(xué)界開源的AI框架,直接對標(biāo)PyTorch;

3月24日,AI獨角獸曠視科技宣布開源天元(MegEngine)——訓(xùn)練推理一體化、動靜態(tài)合一的工業(yè)級深度學(xué)習(xí)框架;

3月28日,華為在開發(fā)者大會2020上宣布正式開源MindSpore,這是一款支持端邊云全場景的深度學(xué)習(xí)訓(xùn)練推理框架。

短短8天,中國AI領(lǐng)域刮起一股開源風(fēng)潮,而目標(biāo)正是AI開源框架領(lǐng)域的霸主TensorFlow和PyTorch,這也許會成為國產(chǎn)深度學(xué)習(xí)框架開源歷史上重要的高光時刻。

而這股風(fēng)潮的領(lǐng)頭人,是4年前打響國產(chǎn)AI框架開源第一槍的百度飛槳。

2016年百度飛槳開源之后,就已帶動了一波風(fēng)潮,騰訊機器學(xué)習(xí)平臺Angel、阿里深度學(xué)習(xí)框架X-DeepLearning相繼開源,也有OneFlow這樣的初創(chuàng)公司加入,一個欣欣向榮的AI生態(tài)正在走近。

而百度,也在持續(xù)引領(lǐng)AI生態(tài)走向繁榮。

根據(jù)最新GitHub開源項目數(shù)據(jù)集GitHubArchive之中關(guān)于pull request的發(fā)起和合入數(shù)據(jù),百度飛槳的open數(shù)據(jù)由去年的2759次躍升到今年同期的3391次,飛槳的 merged數(shù)據(jù)由1924次躍升為2428次,由此,百度飛槳在pull request的數(shù)據(jù)上已經(jīng)成為國內(nèi)第一、全球第二的領(lǐng)軍存在。

這也意味著“動靜統(tǒng)一、軟硬融合”的飛槳一直在致力于讓深度學(xué)習(xí)技術(shù)的創(chuàng)新與應(yīng)用更簡單,其提供的AI底層技術(shù)也深受開發(fā)者歡迎。

2020/2019年度全球開源深度學(xué)習(xí)框架活躍度排名榜單

AI開源框架的搭建是一項費時費力的大工程,如果沒有超越現(xiàn)有主流框架的想法,去重復(fù)造一套沒有技術(shù)創(chuàng)新的輪子,不僅性價比不高,而且對開發(fā)者的吸引力也不夠大。

這就引申出一個問題,在TensorFlow和PyTorch已有完整框架生態(tài)的情況下,為何百度以及一眾的后來者還要執(zhí)著于國產(chǎn)AI框架的開源?另造一套技術(shù)輪子,他們自研AI開源框架的價值和意義是什么?

止近渴:技術(shù)創(chuàng)新、業(yè)務(wù)需要

TensorFlow、PyTorch的強大毋庸置疑,例如TensorFlow在中國的用戶就不乏網(wǎng)易、京東、360、聯(lián)想、美團等科技企業(yè)。

但從戰(zhàn)略和戰(zhàn)術(shù)上,TensorFlow、PyTorch的缺點和劣勢也顯而易見。

戰(zhàn)略上,雖然TensorFlow是開源的,但其與谷歌的深度綁定,不排除會出現(xiàn)類似Android的局面。所以,國內(nèi)有百度自研,國外亞馬遜、Facebook、微軟、蘋果等都在自研。

戰(zhàn)術(shù)上,深度學(xué)習(xí)框架開源背后是商業(yè)利益的捆綁,而且在技術(shù)層面,TensorFlow、PyTorch也并非沒有提升空間。

舉個簡單的例子,像TensorFlow在語音交互、神經(jīng)網(wǎng)絡(luò)翻譯等核心技術(shù)上,很少有中文數(shù)據(jù)集以及中文領(lǐng)域的技術(shù)探索。

換言之,只有深諳中國開發(fā)者需求和中國AI市場生態(tài)的深度學(xué)習(xí)框架,才能精準(zhǔn)滿足本土用戶需求。

并且,中國有其他國家無法比擬的商業(yè)優(yōu)勢,數(shù)據(jù)紅利和龐大的應(yīng)用場景促使AI相關(guān)技術(shù)更快落地。但是,無法逃避的一個問題是,不掌握底層技術(shù),上層應(yīng)用仍要面臨「卡脖子」。

所以,無論是百度,還是阿里、華為等后來者,自研+開源是擺脫「卡脖子」的最佳方案。

百度飛槳作為國內(nèi)AI開源的扛把子,2012年就開始著手深度學(xué)習(xí)平臺框架研發(fā),2016年飛槳正式開源。飛槳開源的歷史動機由主觀因素主導(dǎo),也有客觀因素存在。

百度飛槳全景圖

主觀因素是百度一直以來的技術(shù)背景和開源策略,從2009年大規(guī)模定制Hadoop開始到2013年率先開源ECharts,百度從布局AI開始,就一直堅持開源戰(zhàn)略。

這種戰(zhàn)略的具體落地,正是不斷開源AI能力,這里面不僅有百度的基因和能力因素,更重要是表達一種開放的態(tài)度。

客觀因素則是谷歌、Facebook、IBM等海外科技巨頭先后將AI框架開源,AI框架開源背后往往跟隨著各個公司的業(yè)務(wù),比如谷歌的云服務(wù)、TPU資源等等,打一個形象的比方,深度學(xué)習(xí)框架是一條高速公路,你可以免費在上面行駛,但你也需要服務(wù)區(qū)加油、吃飯、休息,這一連串的配套設(shè)施就形成了一個生態(tài)。

經(jīng)過4年開源發(fā)展,百度飛槳已經(jīng)籌備起了自己的生態(tài)模型,在完備性、易用性、高效性三個方面搭建了一定的壁壘。

完備性:

百度飛槳集核心訓(xùn)練和推理框架、基礎(chǔ)模型庫、端到端開發(fā)套件和豐富的工具組件于一體,并根據(jù)本土化特點將開源框架與應(yīng)用層面做了更好的結(jié)合,旨在打造自主可控的人工智能操作系統(tǒng),持續(xù)賦能廣大開發(fā)者。2020 年也迎來一系列重要升級,比如在核心框架上實現(xiàn)了動靜統(tǒng)一,全面支持動態(tài)圖調(diào)試,自動轉(zhuǎn)靜態(tài)圖訓(xùn)練和部署的理想開發(fā)模式。

易用性:

相比于其他開源的深度學(xué)習(xí)框架,飛槳最大的特點在于easy to use,對很多算法進行了完整封裝,開發(fā)者只需要略微了解下源碼原理,導(dǎo)入自己的數(shù)據(jù)就可以執(zhí)行運行的命令。

高效性:

基于其簡潔、靈活、快速的特性,百度飛槳推動了各個行業(yè)的深度學(xué)習(xí)應(yīng)用,在液晶顯示屏的檢測、機器人安全巡檢、遙感監(jiān)測等領(lǐng)域發(fā)揮著不可代替的作用。

拿液晶顯示屏檢測來說,精測電子應(yīng)用飛槳開源深度學(xué)習(xí)框架開發(fā)后,基于其分類、檢測、分割等多種功能模塊,對具有缺陷的液晶屏幕檢測的精度上有很大提升。

解遠慮:國家新基建戰(zhàn)略下的自主創(chuàng)新

近兩年,基礎(chǔ)技術(shù)的「卡脖子」話題成為近兩年中國科技界探討的熱點,擔(dān)心中國AI的發(fā)展會像芯片發(fā)展那樣遭遇空中樓閣的困境。

與其信任他人「不作惡」的承諾,不如技術(shù)自立。

一定程度上,華為中興事件之后,人工智能競賽已經(jīng)演化成一場「框架之爭」。以高文院士為代表的AI專家就在四處布道「做人工智能必須要做開源,中國要想發(fā)展好新一代的人工智能,必須要有高效和風(fēng)險可控的開源開放平臺」的觀點。

與此同時,國家也在戰(zhàn)略層面給予支持。

對于AI基礎(chǔ)設(shè)施的建設(shè),中國政府在《新一代人工智能發(fā)展規(guī)劃》等關(guān)于AI頂層規(guī)劃的政策中都著重提及,除了加大應(yīng)用層技術(shù)落地,更希望業(yè)界和學(xué)界深入AI底層技術(shù)研發(fā)。

而AI底層技術(shù)研發(fā)的根基就在深度學(xué)習(xí)框架,跑在自家的高速公路上,不會有被攔路、斷供的風(fēng)險,而且在生態(tài)建設(shè)層面,自研深度學(xué)習(xí)框架的成熟度并不亞于TensorFlow或PyTorch。

以百度飛槳為例,數(shù)據(jù)顯示,飛槳當(dāng)前支持140+個產(chǎn)業(yè)及開源算法,累計開發(fā)者230萬,服務(wù)企業(yè)9萬家,基于飛槳開源深度學(xué)習(xí)平臺產(chǎn)生了31萬個模型。今年9月,百度飛槳深度學(xué)習(xí)平臺還入選了2020服貿(mào)會「科技創(chuàng)新服務(wù)示范案例」。

此外,在城市、工業(yè)、電力、通信等很多關(guān)乎國計民生的領(lǐng)域都有飛槳在發(fā)揮作用。

今年5月,百度發(fā)布了Paddle Quantum,這是建立在百度飛槳深度學(xué)習(xí)平臺之上的開放源代碼的機器學(xué)習(xí)工具包,它包括量子開發(fā)工具集,量子化學(xué)庫以及一系列優(yōu)化工具,可以幫助領(lǐng)域內(nèi)的科研人員以及開發(fā)者在量子計算應(yīng)用程序中訓(xùn)練和開發(fā)AI,也為相關(guān)領(lǐng)域的愛好者開發(fā)量子人工智能的應(yīng)用提供了強有力的支撐。

百度「開源」家族

在技術(shù)領(lǐng)域,一枝獨秀不是春,沒有對外開源,很多技術(shù)和產(chǎn)品不會拓展如此之快。還是高速公路的例子,在別人為你搭建好的公路上馳騁,相當(dāng)于站在巨人的肩膀上做創(chuàng)新,不僅加速了自我產(chǎn)品迭代,更有助于AI技術(shù)生態(tài)的構(gòu)建。

信奉技術(shù)的巨頭都甚至「開源」的重要性,百度更是如此。

從2009年大規(guī)模定制Hadoop到2013年率先開源ECharts,百度的開源之路從未停止。

2017年,對百度而言是開源的突破之年,從深度學(xué)習(xí)平臺飛槳 PaddlePaddle,到Apollo自動駕駛,百度落實了多項重大開源技術(shù),也將AI開源提升到前所未有的戰(zhàn)略高度。

2016年開源飛槳后,次年百度發(fā)布全球首個自動駕駛Apollo自動駕駛開放平臺。

截至目前,百度Apollo平臺已經(jīng)匯聚了全球177家生態(tài)合作伙伴。在全球,有97個國家超過3.6萬名開發(fā)者使用Apollo開源代碼,開源代碼數(shù)量超過56萬,Apollo自動駕駛平臺已成為全球最強大、最開放、最活躍的自動駕駛平臺。

除了飛槳和Apollo,疫情期間從紅到白、可視化的疫情地圖背后還有早已開源的ECharts身影。

作為當(dāng)前最流行、最強大的可視化庫之一,ECharts提供了直觀、生動、可交互、可個性化定制的數(shù)據(jù)可視化圖表,包括常規(guī)的折線圖、柱狀圖、散點圖、餅圖、K線圖,用于統(tǒng)計的盒形圖,用于地理數(shù)據(jù)可視化的地圖、熱力圖、線圖,用于關(guān)系數(shù)據(jù)可視化的關(guān)系圖、treemap、旭日圖,多維數(shù)據(jù)可視化的平行坐標(biāo),還有用于BI的漏斗圖,儀表盤。

ECharts創(chuàng)新的拖拽重計算、數(shù)據(jù)視圖、值域漫游等特性大大增強了用戶體驗,賦予了用戶對數(shù)據(jù)進行挖掘、整合的能力。

通過ECharts的數(shù)據(jù)可視化圖表可以直觀、生動的展現(xiàn)數(shù)據(jù)

目前,Apache ECharts (incubating) 在Github中的star數(shù)已經(jīng)超過41.4k,每周npm下載量超過22萬。

除了自身開源,百度還參與了國內(nèi)外頂級開源基金會和組織,成為了 Apache基金會、Linux基金會以及云原生計算基金會的金牌會員,其旗下Echarts、Doris、Brpc等多個項目已經(jīng)成為Apache基金會孵化項目,Baetyl、IME、EDL 等項目也捐贈給了Linux基金會進行孵化。

2019年,百度戰(zhàn)略投資了開源中國,作為中國最大的開源技術(shù)社區(qū),開源中國旗下運營的Gitee代碼托管平臺是全球僅次于GitHub的代碼托管平臺,每日約增加5000名開發(fā)者、200家企業(yè)客戶、1.7萬代碼倉庫,已經(jīng)具備了在國際市場與GitHub全面抗衡的基礎(chǔ)。

諾貝爾獎得主理查德費曼曾說過,what you can not create, you can not understand,不會創(chuàng)造出來就不理解。

深度學(xué)習(xí)框架也一樣,只會使用,不會研發(fā),就不會理解。不理解,不僅僅是能不能研發(fā)出來深度學(xué)習(xí)框架的問題,也意味著不能在算法上領(lǐng)先,不能在芯片上領(lǐng)先,最終會導(dǎo)致在應(yīng)用層面也不能領(lǐng)先,結(jié)局只能是全面的落后。

實際上,包括百度在內(nèi),騰訊、阿里、華為等科技巨頭紛紛將AI框架開源的道理也在此。開源,某種程度上能有效減少閉源壟斷市場的局面出現(xiàn),同時,還能在根本上解決「卡脖子」的窘迫。

開源深度學(xué)習(xí)框架意味著,在語音識別、自然語言理解、計算機視覺、廣告等很多地方可以應(yīng)用,同時,例如百度這樣的領(lǐng)航者也提供了深度學(xué)習(xí)算法之外,海量數(shù)據(jù)收集和工程系統(tǒng)架構(gòu)的搭建,為AI開發(fā)者提供了一站式服務(wù)。

總的來說,開源對于中國本土的AI開發(fā)者和公司來說,有能力理解并基于一個與國際同步的深度學(xué)習(xí)框架開發(fā)AI技術(shù)、應(yīng)用,這將大大降低深度學(xué)習(xí)在各個行業(yè)中的應(yīng)用難度。

正如李彥宏在2020百度世界大會上提到,推動人工智能扎實滲透,行業(yè)要充分利用開源、開放平臺,它在人工智能發(fā)展當(dāng)中的作用會越來越受到重視。

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2020-09-30
百度AI「開源」:止近渴,解遠慮
2020年3月,注定是中國AI開發(fā)者不會遺忘的一個月。3月20日,清華大學(xué)計算機系圖形實驗室開源AI框架計圖(Jittor)...

長按掃碼 閱讀全文