“7歲了,繼續(xù)奔跑。”1月15日,作業(yè)幫創(chuàng)始人、CEO侯建彬在朋友圈里感慨。
過去一年,作業(yè)幫發(fā)展尤其迅速,一年拿到兩輪融資,給原本熱鬧的K12在線教育市場再添了一把火。
2015年的時候,作業(yè)幫還是一個很小的APP,團隊也很小,一張照片就放得下。6年后的今天,作業(yè)幫已經(jīng)成為中國唯一月活用戶過億、唯一進入全網(wǎng)top30的教育類APP,員工總數(shù)超過35000人。
作業(yè)幫團隊.2015年
K12在線教育正身處風口。iMedia Research預計,政策利好、技術成熟的推動下,2020市場規(guī)模達4858億元,增速202%。也是在這樣的背景下,在線教育行業(yè)迎來了密集融資。網(wǎng)經(jīng)社“電數(shù)寶”電商大數(shù)據(jù)庫顯示,2020年在線教育行業(yè)共發(fā)生110起融資,融資額超540億元,其中,作業(yè)幫就占了約30%。
市場競爭激烈,人們叫得上名字的應用就有數(shù)個,但持續(xù)占據(jù)頭部的不多。作為成立僅僅5年的在線教育公司,作業(yè)幫究竟憑什么能一路高歌猛進?
前特勞特中國公司高級咨詢師顧均輝認為,關鍵就在于作業(yè)幫對拍照搜題的聚焦。“這一技術突破直接關系到用戶體驗,也對同類產(chǎn)品帶來了‘降維打擊’。作業(yè)幫從而一躍成為師生與家長心智中最好用的搜題品牌。”
作業(yè)幫入局前,在線教育市場競爭就已相當激烈。但通過聚焦拍照搜題,作業(yè)幫在已經(jīng)相對成熟的市場中出奇制勝,成為K12在線教育市場的一匹黑馬。而且,6年來,不斷完備的拍搜技術體系,在作業(yè)幫的各個業(yè)務環(huán)節(jié)中發(fā)揮了“杠桿”作用,為其后續(xù)發(fā)展打下了堅實的基礎。
01一個super機會
時間回到2013年,這是K12教育行業(yè)的一個轉折年。
這一年,辭去世紀佳緣CEO的龔海燕創(chuàng)辦的梯子網(wǎng)吸引了大眾的關注,也攪起了BAT對在線教育的好奇心。
彼時,在百度內(nèi)部,百度知道的負責人侯建彬發(fā)現(xiàn),K12領域的提問量占到了搜索總提問量的10%。他隱約覺得,這是一個巨大的需求,可以支撐起一個獨立的APP。
2014年1月,作業(yè)幫正式上線?;诎俣戎赖姆e累,作業(yè)幫首先推出以問答和圈子為主的UGC社區(qū)。但運行一段時間后,問題也開始顯現(xiàn),問答質(zhì)量不高,時效性得不到保證,這對正在做作業(yè)的提問者來說并不方便。
龔海燕曾表示,自己做梯子網(wǎng),是想要給教育資源薄弱的地方搭起一座梯子,從而改變學子的命運。梯子網(wǎng)選擇的是做社區(qū),吸引老師、學生入住的模式。但后來事實證明,這一模式缺乏商業(yè)支撐。
此時,K12正處于題庫創(chuàng)業(yè)高峰期。猿題庫、學霸君等在題庫的基礎上,根據(jù)用戶的需求開始推出了拍照搜題功能。
“拍題是一個super的機會。”侯建彬判斷,拍題是可以做到日活千萬級以上的,而且它重新開辟了一個之前從來沒有存在過的、線上的學習場景。
市面上的一些創(chuàng)業(yè)公司希望采用拍照搜題的方式,幫助用戶解決實時性的問題,但是,由于技術的原因,此時的拍照搜題的效率和準確率都不高。
拍照捜題準確率提升的關鍵,在于題庫的積累以及成熟的OCR(光學字符識別)技術。在這兩方面,百度都有一定優(yōu)勢。侯建彬認為,這是作業(yè)幫的機會。
2015年1月19日,在作業(yè)幫上線一周年之際,帶有拍照搜題功能的4.0版本正式上線。當天,它的活躍用戶數(shù)第一次超過了100萬。
作業(yè)幫的B輪投資人,GGV紀源資本投資副總裁于紅說,當時市面上,K12有很多種模式,但她篤定作業(yè)幫拍照搜題是流量入口的路徑是對的。
拍照搜題功能上線的同時,市場上也有很多質(zhì)疑的聲音,認為是在變相幫助孩子抄作業(yè)。
“最早所有人都會有這個困惑。我一開始也想,我們做拍照搜題這個東西是不是就是給人抄答案的?因為動機給人感覺不是那么的正向,都不想堅持去做。”作業(yè)幫拍照搜題的負責人王巖說,為此他們特地做了一次用戶調(diào)研。
他們打了很多電話,調(diào)研用戶的學習情況。結果出乎意料,他們發(fā)現(xiàn),絕大部分用戶都是成績中等偏上的學生。真正成績差的學生,他們要么不寫作業(yè),要么抄現(xiàn)成的,根本不會費事去使用作業(yè)幫。
“它是真正有教育價值的。對于大部分想通過教育改變?nèi)松膶W生們,拍搜上的解析、視頻等在線資源,是一個非常寶貴的信息來源。”王巖堅信,作業(yè)幫對于更廣大希望學會知識的同學帶來的益處,是遠遠大于其可能帶來的弊端。
而為了避免學生們只是用來抄題,作業(yè)幫的拍搜也做了很多特別的設計,比如絕大多數(shù)題目都提供詳細的解析,不是只能看到答案;利用智能算法對用戶疑似僅僅看答案的行為,進行一些提醒和數(shù)量上的限制。
今天,很多學生在做家庭作業(yè)時,遇到不會做的題目,不用再等著“問老師”,而是打開諸如作業(yè)幫這類的App,給題目拍一張照片。數(shù)據(jù)顯示,全國每10個孩子就有7個在作業(yè)幫學習。
“我自己沒念過幾年書,我希望我兒子不要走我的老路,能夠好好讀書,改變命運。”王建坤對《商業(yè)與生活》說,現(xiàn)在孩子上小學5年級了,老師留家庭作業(yè)他已經(jīng)輔導不了了。每次孩子遇到不會的題目,都是用作業(yè)幫的拍照搜題,自己給孩子批改作業(yè)也離不開這個軟件。
拍照搜題已經(jīng)成為學生們的一種主要學習方式,在一定程度上給教育資源薄弱的學生搭起了一座梯子。
02“不那么性感”的改進
5年前,多個創(chuàng)業(yè)團隊都曾殺入拍照搜題領域,也受到了學生們的追捧。但如今,這些創(chuàng)業(yè)團隊都已經(jīng)在業(yè)務上分道揚鑣,沿著各自的路徑越走越遠,只有作業(yè)幫守住了這個優(yōu)勢。
目前作業(yè)幫旗下產(chǎn)品累計激活用戶超8億,總日活用戶超過5000萬,總月活用戶超1.7億,占據(jù)了中國K12在線教育流量側75%以上的份額。作業(yè)幫APP也是中國唯一月活用戶過億、進入全網(wǎng)top30的教育類APP。
羅馬不是一天建成的,作業(yè)幫的拍搜優(yōu)勢,則是靠一行行代碼積累起來的。
“我在作業(yè)幫的前三個月,比我在百度4年寫的代碼都多。”作業(yè)幫智能技術實驗室負責人王巖說。王巖主要負責作業(yè)幫拍照搜題,拍照批改,題庫等一些業(yè)務的技術工作。
起初,作業(yè)幫用的還是第三方服務的OCR接口,這個接口最大的問題就是速度慢,識別一張圖要10秒。
作業(yè)幫提出希望能夠把識別的速度加快。但對于一家大型服務供應商而言,作業(yè)幫只是一個小項目,根本不重視它的需求。但作業(yè)幫自己清楚,識別的效率就是公司的生死線,于是決定放棄使用第三方服務,自己研發(fā)拍搜系統(tǒng)。
2015年4月,侯建彬提出了“攻克天王山”,要把識別的時間從10秒到3秒。當時,公司里并沒有專門學過圖片識別的員工,任務就被分到了王巖和程童所在的團隊。
王巖坦誠,一開始,他們并不具備提升識別速度的能力。在使用第三方服務的OCR接口時,他們?yōu)榱藴p少用戶等待焦慮的問題,甚至做了一個“虛假”的進度條,第一秒就進行到90%,剩下的10%慢慢走,讓用戶覺得馬上就能出結果了。或者故意把照片旋轉的過程設計的比較慢,讓用戶覺得是自己手機反應慢的問題。這也是他們當時唯一能想到的辦法了。
由于之前沒有相關的經(jīng)驗,王巖的前期效率非常低,基本上每天都要把前一天寫的代碼全部推翻重新寫。那段時間,他們做得非常辛苦,將近兩個月的封閉時間,他們一周六天,每天都工作超過12個小時,一邊學習一邊摸索,終于做了出來。
這一飛躍給了團隊極大的信心。隨后,作業(yè)幫進一步成為業(yè)內(nèi)第一家把識別響應優(yōu)化到1秒的公司。時效和體驗,一舉奠定了作業(yè)幫在同類產(chǎn)品中拿下第一,并將這一流量優(yōu)勢持續(xù)到了今天。
一行行的代碼,一點點的提升,這不是一個像融資,像市場推廣那樣有性感故事可講的過程。這更像是一個枯燥的自我折磨。
但在侯建彬看來,就是這個看起來不那么性感的改進,起到了非常關鍵的作用。教育產(chǎn)品的增長還是要看口碑,用戶在意的是服務的質(zhì)量。面對激烈的市場競爭,作業(yè)幫要保證優(yōu)勢的唯一辦法就是要做到,人無我有,人有我優(yōu)。
03海平面下的技術進階
一個典型的小學數(shù)學題,識別起來并不復雜。一個熟悉計算機視覺和深度學習的學生利用公開的資源和一些數(shù)據(jù)集,就可以搭出來一個系統(tǒng)。
但是,當用戶上了規(guī)模,需求和場景就變得復雜,何況作業(yè)幫累計激活用戶設備超過8億。
由于人們的拍攝環(huán)境,拍攝的題目,乃至使用的設備,都是五花八門的。有的拍的模糊,有的燈光昏暗,還有的題目上已經(jīng)被寫滿了草稿,這都給拍搜系統(tǒng)提出了挑戰(zhàn)。
市面上很多同類軟件,或多或少都會出現(xiàn)答案和所拍照片題目不一致的現(xiàn)象,反而浪費了學生的時間。
作業(yè)幫的拍搜系統(tǒng),基于OCR和深度學習技術的結合,經(jīng)過持續(xù)6年的自主研發(fā)和數(shù)據(jù)積累,目前擁有多項OCR、檢索和系統(tǒng)專利,功能也在不斷拓展,從最初拍單題,拍整頁,再到猜你想拍,從搜索答案,到批改,再到打分。數(shù)據(jù)顯示,其小學數(shù)學作業(yè)的批改整體準確率已經(jīng)達到98%,而且最快1秒出結果。
人們看到的結果,往往只是冰山一角。海平面則是龐大的技術、數(shù)據(jù)支撐。
程童在作業(yè)幫還在百度內(nèi)部孵化的時候就選擇了加入,參與了作業(yè)幫拍題搜索系統(tǒng)從0到1的搭建過程。據(jù)他介紹,拍搜算法架構比較復雜,主要分為OCR和檢索兩個部分。
其中檢索系統(tǒng)主要任務是通過識別出的文本檢索答案,由上至下依次包含接入和策略層、正排系統(tǒng)、倒排系統(tǒng)和離線建庫四個主要部分,整體是一個由很多模塊組成的復雜系統(tǒng)。而OCR系統(tǒng)主要是將所拍照片內(nèi)容識別成文本,主要是由多個策略&預處理模塊,以及大量使用GPU作為運算設備的深度學習在線推理服務組成。
針對不同用戶使用場景下可能出現(xiàn)的模糊、傾斜、低像素、干擾等等各類拍照問題,作業(yè)幫不斷進行算法迭代和架構完善?,F(xiàn)在,在一次完整的文字識別流水線里,會有超過30種不同的神經(jīng)網(wǎng)絡各司其職,運行260次以上的神經(jīng)網(wǎng)絡預測。而通過構建大規(guī)模的并行GPU集群,這樣一次比較重的識別流程,平均只需要200毫秒。對于識別出的題目內(nèi)容,則會在索引量超過3億的題庫搜索引擎中進行匹配,確保給到用戶的信息盡可能準確。
程童說,過去六年,作業(yè)幫的拍搜系統(tǒng)一直都在變化。
早期,因為大家識別響應普遍都慢,誰能把響應時間縮短,誰就能夠贏得用戶的青睞。當快到一定程度,準確率又成了一個關鍵點。準確率越高越容易形成口碑傳播。
當時,大家都使用CPU服務器跑算法模型,性能低耗時長。作業(yè)幫率先將GPU用于在線推理服務,預處理的部分交給CPU,深度神經(jīng)網(wǎng)絡則利用GPU強大的并行運算能力去計算,上線后就取得了10倍的加速效果,實現(xiàn)了“隨手一拍,秒出答案”。
進入2017年前后,隨著原有業(yè)務流量迅速上漲,算法模型的種類和數(shù)量的不斷增加,給開發(fā)和運維上帶來了更大的壓力。
“業(yè)務做不起來,系統(tǒng)做的再漂亮也沒有意義。”程童說,為了讓模型快速上線,他們上線了很多臨時方案,但也讓他們的系統(tǒng)管理運維的包袱越發(fā)沉重。
雖然業(yè)務優(yōu)先,但程童知道,如果任由系統(tǒng)退化下去,不但自己會疲于奔命到處救火,最終也會影響業(yè)務發(fā)展。所以在項目間歇期、流量低峰期,拍搜團隊都會見縫插針進行系統(tǒng)優(yōu)化,減少技術債務。比如,針對環(huán)境異構的問題,他們通過升級接入層,優(yōu)化自研rpc(遠程過程調(diào)用)客戶端,滿足多機房,多機型負載均衡以及實驗分流的需求,使得流量的接入幾乎可以無視機型機房的區(qū)別。
現(xiàn)在,隨著業(yè)務相對成熟,系統(tǒng)成長到了一定規(guī)模,他們重新審視之前系統(tǒng)發(fā)展過程中的各種問題,深挖本質(zhì),最終選擇了通過虛擬化的方案予以解決。遷移后,通過更細粒度的資源分配和服務混部,一些集群最多節(jié)省了50%的機器資源。而通過遷移獲得的彈性伸縮能力,也讓拍搜系統(tǒng)在應對流量高峰的時候更加游刃有余。
“我們對指標的要求一直在提高,原來是到90%,后來到95%,再到99%。難度是在于準確度不停的往前探索,我們的基礎提高以后,你想再前進一步,難度會是指數(shù)級別的增加。”程童說。
04做一家教育科技公司
2015年6月,作業(yè)幫從百度正式分拆出來,新公司取名為“小船出海” 。當時,侯建彬通過各種關系終于找到了有教育背景的所暉,希望他能出任聯(lián)合創(chuàng)始人。所暉問了他一個問題:作業(yè)幫是想做一家“教育”公司,還是“科技”公司?
“做教育科技公司”,侯建彬當斬釘截鐵地回答。
談到教育創(chuàng)業(yè),也許有人認為,要想做得好,只需要打造優(yōu)質(zhì)師資團隊就足夠了。這種想法顯然忽略了一個關鍵,在線教育與傳統(tǒng)教育最大的不同,就在于技術的力量。
通過用戶的拍照搜題內(nèi)容,作業(yè)幫還會通過大數(shù)據(jù)算法來分析重點、難點和全網(wǎng)的學習進度。比如,他們發(fā)現(xiàn)山東濰坊的學生,花時間最多的是“多項式乘多項式”這個知識點,而在陜西西安,花時間最多的知識點是“平行四邊形的判定”。這樣一來,就可以針對不同城市的學生,提供出更加有針對性的課程或是學習工具、學習資料,集中力量解決難點,使得更多的學生受益。
而作業(yè)幫正是憑借著人工智能、直播、5G、大數(shù)據(jù)等技術的賦能,為教育創(chuàng)造更多可能的同時,也從一眾競爭者中脫穎而出。
現(xiàn)在,作業(yè)幫已經(jīng)做了五六年的拍照搜題了,不僅占據(jù)了在線教育最大的流量入口,也為旗下繼續(xù)孵化出王牌業(yè)務在線直播課持續(xù)提供轉化學員。王巖相信,基于前面的積累以及人工智能技術的不斷發(fā)展,未來的解題和在線學習,一定可以走出題庫,通過理解背后的知識,自動解題,甚至會生成講解視頻和課程幫助學生進步。
曾經(jīng),融資后,有人問侯建彬,你們也做了很多AI的事情,為什么都沒有提到說你們是AI+教育公司。侯建彬說,“我怕大家以為我們跟那些炒概念的公司是一樣的,沒必要提。”
技術永遠是為業(yè)務和需求場景服務的。作業(yè)幫沒有刻意談過AI,但十分看重用戶第一。16億美元的E+輪融資,也再一次證明,科學技術本身沒有溫度和創(chuàng)造力,而真正煥發(fā)無窮力量的是產(chǎn)品。
對作業(yè)幫而言,拍照搜題的提出,是迎合AI時代對教育的一種創(chuàng)新。而拍照搜題也為計算機視覺技術以及人工智能技術的落地提供了良好的落地契機,為傳統(tǒng)教育的改革帶來了新的方向。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )