AI醫(yī)療界的3大亂象以及如何評價醫(yī)學(xué)人工智能的成果?

雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))注:本文作者代號HHH,目前為一家人工智能醫(yī)療創(chuàng)業(yè)公司的CEO,有10多年硅谷的高科技公司的工作經(jīng)歷(Google, Cisco等),斯坦福商學(xué)院Sloan Fellow。

業(yè)內(nèi)人的“針砭時弊”:AI醫(yī)療界的3大亂象以及如何評價醫(yī)學(xué)人工智能的成果?

With machine learning situated at the peak of inflated expectations, we can soften a subsequent crash into a “trough of disillusionment” by fostering a stronger appreciation of the technology’s capabilities and limitations.

今年6月底的《新英格蘭》刊出了一篇觀點文章《Machine Learning and Prediction in Medicine — Beyond the Peak of Inflated Expectations》,《機(jī)器學(xué)習(xí)和醫(yī)學(xué)預(yù)測--遠(yuǎn)超過高期望的峰值》,文章的批判方法算是很給深度學(xué)習(xí)這個新工具留面子了。

這里插播一句,我最近接觸了一些自稱主要關(guān)注醫(yī)療方向的投資人和創(chuàng)業(yè)者,發(fā)現(xiàn)有些人居然不知道這個地球上影響因子排名前幾的臨床醫(yī)學(xué)期刊?!犊茖W(xué)》雜志主刊2016年影響因子37.205分,《自然》主刊是40.137,而《新英格蘭》是72.406分。當(dāng)然,有可能這些人也不知道什么叫影響因子。

這篇文章借用了Gartner的技術(shù)成熟度曲線Hype Cycle,講述現(xiàn)在對于醫(yī)療界來說深度學(xué)習(xí)處于過高期望的峰值(Peak of Inflated Expectations)時期,希望我們正確的理解這項技術(shù)的能力和局限性,繼而進(jìn)入幻想破滅的底谷期 (Trough of Disillusionment),而不是徹底性的崩潰,然后才有然后:穩(wěn)步爬升的光明期 (Slope of Enlightenment)和實質(zhì)生產(chǎn)的高峰期 (Plateau of Productivity)。

業(yè)內(nèi)人的“針砭時弊”:AI醫(yī)療界的3大亂象以及如何評價醫(yī)學(xué)人工智能的成果?

文章用嚴(yán)謹(jǐn)和隱晦的語言,指出了現(xiàn)在醫(yī)學(xué)人工智能界做的一些不靠譜、不合醫(yī)學(xué)邏輯和沒有臨床價值的事情?;赜^國內(nèi)市場,這些不靠譜、不合醫(yī)學(xué)邏輯和沒有臨床價值的事情反而愈演愈烈,耗費(fèi)了大量的資本和醫(yī)療資源,可謂幾大亂象。

一、樂此不疲的人機(jī)大賽

醫(yī)學(xué)是講證據(jù)的學(xué)科,如何證明一項臨床成果的先進(jìn)性,實用性和穩(wěn)定性,是個學(xué)問。

也許是阿爾法狗給大家?guī)Я藗€頭兒,覺得用人工智能PK人類只要是平了或者贏了就是證據(jù),于是大江南北人機(jī)大賽屢見不鮮:《人工智能PK最強(qiáng)醫(yī)腦系列大賽》、《首屆人機(jī)讀片競技大賽召開》、《AI-醫(yī)師讀片競賽》、《XXX達(dá)到/超過人類醫(yī)生的水平》等等,伴隨著這些大賽的,往往是一系列的發(fā)布會。一共就十幾個甚至幾個醫(yī)生參與,一共就幾百張甚至幾十張醫(yī)學(xué)影像,最后的百分?jǐn)?shù)結(jié)果保留至少四位有效數(shù)字,能夠證明毛線?且不說是否有為了發(fā)布會安排結(jié)果的嫌疑,單就醫(yī)生的水平、狀態(tài),數(shù)據(jù)隨機(jī)性和廣泛性都是論證過程中不堪一擊的節(jié)點,不能細(xì)想不可追問。

二、樂于做不可證偽的預(yù)測

醫(yī)學(xué)是講證據(jù)的學(xué)科,可是總有一些問題是沒有辦法證明對錯的。

最典型的就是做個體診斷的預(yù)測。預(yù)測,根據(jù)特征人群的患病概率來指導(dǎo)篩查是有價值的,但是對于個體診斷進(jìn)行的預(yù)測是無法證偽也是不科學(xué)的。比如,預(yù)測特定的個體將有80%的概率患肺癌,和預(yù)測30%有本質(zhì)區(qū)別嗎?得肺癌可以說明前者更準(zhǔn)嗎,不得肺癌可以說明后者更準(zhǔn)嗎,沒得肺癌可以證明明年不得嗎?深度學(xué)習(xí)這個工具有一個所謂必殺技:有問必答。別問它怎么得出來的,它聲稱是有“像人腦一樣的一套神經(jīng)元思考”出來的。作為一個擬合函數(shù),深度學(xué)習(xí)一定是有輸入就有輸出的,但是對于輸出的結(jié)果,如果沒有金標(biāo)準(zhǔn)檢驗,就方便做文章收智商稅?!缎掠⒏裉m》的文章中還提及另一種不可證偽,叫做本身就是一句廢話,也就是淺顯的道理。比如用人工智能來判斷一個高齡且有各種病史的患者有極高的手術(shù)風(fēng)險。臨床需求是看哪種診斷或治療方案更有用,而不是看誰說得廢話更多。

三、脫離臨床指南,幻想被樹上掉下來的蘋果砸到

醫(yī)學(xué)是講證據(jù)的學(xué)科,可靠的證據(jù)形成了臨床指南,可靠的證據(jù)在推動臨床指南的發(fā)展。

也許現(xiàn)在計算機(jī)的進(jìn)步讓更多的數(shù)據(jù)可以被利用起來來進(jìn)行綜合判斷,但是在這些判斷標(biāo)準(zhǔn)進(jìn)入臨床指南之前,都是科研探索的性質(zhì)?!缎掠⒏裉m》的觀點文章中明確的提到了這種行為,這種沒有已經(jīng)探明的醫(yī)學(xué)邏輯支撐,通過堆砌更多維度的數(shù)據(jù)妄想有所發(fā)現(xiàn)的行為,最終會陷于蝴蝶效應(yīng)帶來的困境之中。我國80年代曾有過大批群眾激昂熱情去攻克”哥德巴赫猜想“,當(dāng)時的數(shù)學(xué)家看待這些群眾的努力,也許就像現(xiàn)在醫(yī)學(xué)研究領(lǐng)域的科學(xué)家在看大數(shù)據(jù)工程師們。聽說全國有幾百家做基因檢測服務(wù)的公司,他們中的很多給投資人講得故事就是拼命收集數(shù)據(jù),數(shù)據(jù)堆得多了,深度學(xué)習(xí)自然就會發(fā)現(xiàn)規(guī)律。“讀書百遍,其義自見”嗎?科研工作,還是留給那些受過科學(xué)訓(xùn)練的人們吧。

如何具體評價醫(yī)學(xué)人工智能的成果

上述《新英格蘭》觀點論文的結(jié)束語是,是否人工智能和人類醫(yī)生誰更聰明的爭論在持續(xù)升溫,但是沒有意義。如何讓人工智能和人類醫(yī)生來一起實現(xiàn)任何單一方都無法提供的臨床效果,才是關(guān)鍵。

一、尊重臨床指南

做臨床,不是發(fā)明創(chuàng)造,是很具體的實際操作,臨床指南就是圣經(jīng)。做人工智能產(chǎn)品就是要在臨床指南的范圍才有意義,說得庸俗點,才會有商業(yè)意義。因為這些產(chǎn)品將優(yōu)化臨床醫(yī)療的具體的步驟和環(huán)節(jié),無論是降低漏診,還是幫助醫(yī)生更快速更準(zhǔn)確的作出診斷,都是有價值且有價格的事情。如果非要去證明”哥德巴赫猜想“,很大的目標(biāo)價值和超小概率的乘積,恐怕也是趨近于零。

在臨床指南之內(nèi),其實有很多可以實現(xiàn)且值得去做的人工智能項目。以醫(yī)學(xué)圖像AI為例,因為醫(yī)生的肉眼和經(jīng)驗畢竟是有局限性的,所以突破這些局限性,就是臨床價值的落點。計算機(jī)視覺三大領(lǐng)域: 分類(Classification)、檢測(Detection)和分割(Segamentation),不同的臨床問題下分別都會有用武之地,同時具體的臨床需求也會需要用不同的計算機(jī)視覺方法。例如,糖尿病視網(wǎng)膜病變的自動識別:按照國際分級,如果確診為重度非增生性病變,需要醫(yī)生能夠從大約4000*4000分辨率的眼底照片每個象限中至少能數(shù)出20個出血點,還有靜脈串珠等其他病灶。這些病灶小到只有幾十個像素,那么幫助醫(yī)生快速的鎖定和計數(shù)這些微小的目標(biāo),檢測(Detection)就是最合適的手段,而做分類(Classification)只能夠起到核對診斷結(jié)果的作用,不能夠有效輔助醫(yī)生做出診斷;而此處做分割(Segamentation)有顯得沒有太大的必要性。

懂行的讀者可能會想起去年Google在美國醫(yī)學(xué)會期刊JAMA(影響因子44.405)上發(fā)表的學(xué)術(shù)成果,對糖尿病視網(wǎng)膜病變的分級就是用的對整張圖片的分類Classification,而并非對病灶的檢測Detection,沒錯,結(jié)果很好。但是試想一下,當(dāng)臨床指南發(fā)生些許變化,比如改為要數(shù)出30個出血點時,Google這項成果的所有工作,包括前期十幾萬張眼底圖片的標(biāo)注,都要完全重來一遍。

二、使用醫(yī)學(xué)的評價體系

使用醫(yī)學(xué)而不是計算機(jī)工程的評價體系來衡量人工智能系統(tǒng)是否靠譜。在此需要介紹幾個概念:

Sensitivity (敏感度):描述了系統(tǒng)正確的判斷陽性的能力,計算方法為,系統(tǒng)正確判斷為陽性數(shù)量除以所有陽性數(shù)量。敏感度越高,說明系統(tǒng)的漏診率越低。

Specificity(特異度):描述里系統(tǒng)正確的判斷陰性的能力,計算方法為,系統(tǒng)正確判斷為陰性的數(shù)量除以所有陰性數(shù)量。特異度越高,說明系統(tǒng)的誤報率越低。

我們希望系統(tǒng)能夠在漏診最少的情況下誤報也最少,也就是要求高敏感度和高特異度,但是在任何系統(tǒng),“明察秋毫”和”枉殺千人“總需要找一個平衡點。臨床要追求整體的運(yùn)行效率,犧牲敏感度追求特異度會造成漏診率提高,致使篩查或檢查不達(dá)目的;犧牲特異度追求敏感度可能導(dǎo)致醫(yī)療資源浪費(fèi)投入到假陽性的案例中(這是一道GMAT邏輯考題)。

我們再看看計算機(jī)工程界常用的評價指標(biāo):

Accuracy (準(zhǔn)確率):判斷正確的樣本數(shù)與總樣本數(shù)之間的比例。計算方法為,系統(tǒng)正確判斷為陽性與正確判斷為陰性的數(shù)量之和除以總樣本數(shù)量。

Precision (精確率):系統(tǒng)判斷為陽性的情況中正確的比例。計算方法為,系統(tǒng)正確的判斷為陽性的數(shù)量除以系統(tǒng)判斷為陽性的總數(shù)量。

Recall (召回率):等同于敏感度。

聰明的你會發(fā)現(xiàn),準(zhǔn)確率Accuracy和精確率Precision嚴(yán)重依賴于樣本總數(shù)里陽性和陰性的配比,舉個極端的案例,設(shè)計一個系統(tǒng),對于所有的輸入都報陽性,即敏感度為100%,特異度為0,這就是個沒有實際用處的系統(tǒng),那么此時取100個測試樣本中,99個為陽性,1個為陰性,此時計算出的準(zhǔn)確率為99%,精確率也是99%。

現(xiàn)實中,做出一個敏感度高特異度不高,或者反之的系統(tǒng)是很容易的,可以輕松的調(diào)整測試樣本的陽性陰性比例來優(yōu)化其準(zhǔn)確率和精確率值。

不難理解,為什么公關(guān)軟文中最常出現(xiàn)“準(zhǔn)確率超過95%”,“精確率超過98%”,云云。下次再讀到“準(zhǔn)確率超過95%”的時候,我們可以這么想,準(zhǔn)確率95%可能意味著系統(tǒng)蒙答案的時候主要蒙A選項,然后測試樣本中的A占絕對多數(shù);那么再讀到“精確率超過98%”的時候,我們可以這么想,系統(tǒng)的敏感度可能只有30%,在他能夠報出為陽性的時候,絕大部分是對的。

所以,回避了醫(yī)學(xué)常用的評價標(biāo)準(zhǔn),通過百分?jǐn)?shù)嘩眾取寵搞新聞效應(yīng)是比較容易實現(xiàn)的。甚至在一些學(xué)術(shù)論文和國際醫(yī)學(xué)圖像識別的競賽中,也經(jīng)常出現(xiàn)只看精確率和召回率,而不出現(xiàn)特異度指標(biāo)的情況,有些公司還恰恰以這些影響因子0.5分不到的學(xué)術(shù)論文為榮譽(yù),或者因在這些國際大賽中又將精確度提升了0.12個百分點而驕傲。如果你問我“茴香豆的茴字有幾種寫法”,我會回答“一萬種”。能解決臨床需求的AI才是好AI。評價醫(yī)學(xué)人工智能系統(tǒng)是否有用,要同時看其正確的判斷陽性的能力和正確的判斷陰性的能力,即敏感度和特異度。

三、關(guān)注過擬合風(fēng)險

在《新英格蘭》的文章中,“Bias偏見”的詞頻很高,是指因為數(shù)據(jù)產(chǎn)生的偏見,也就是我們常說的過擬合。文中提及傳統(tǒng)開發(fā)中使用到的數(shù)據(jù)被精確構(gòu)建以最小化偏見,但是現(xiàn)在的機(jī)器學(xué)習(xí)的開發(fā)方法已經(jīng)不可避免的放大了偏見。所以評價一個人工智能系統(tǒng),要衡量他有多偏。看測試樣本夠不夠規(guī)模、產(chǎn)生于什么時間、什么地區(qū)、以至于民族和種族。專業(yè)人士可以通過觀察訓(xùn)練樣本和測試樣本本身,來判斷人工智能項目的過擬合風(fēng)險。如果是過擬合嚴(yán)重的系統(tǒng),再高的敏感度和特異度指標(biāo),其臨床價值也要打個問號。雖然偏見不可避免,但是我們還是可以簡單的衡量一個系統(tǒng)的過擬合風(fēng)險的大小:測得多總比測得少要好,測試樣本與訓(xùn)練樣本數(shù)量比值越大越好,人口統(tǒng)計學(xué)背景越復(fù)雜越好等等,道理淺顯,不一一贅述。

嚴(yán)謹(jǐn)并樂觀著

《新英格蘭》這篇觀點文章,用詞嚴(yán)謹(jǐn)?shù)浇蹩瘫。f法隱晦到讓人感嘆知識分子罵人不帶臟字兒,但是最后還是樂觀:深度學(xué)習(xí)也不斷的在一些曾經(jīng)被認(rèn)為不可能完成的圖像識別任務(wù)中屢建戰(zhàn)功。所以,還是要樂觀,推動深度學(xué)習(xí)的幻想破滅而進(jìn)入穩(wěn)步爬升的光明期 (Slope of Enlightenment)。

雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))注:本文作者代號HHH,目前為一家人工智能醫(yī)療創(chuàng)業(yè)公司的CEO,有10多年硅谷的高科技公司的工作經(jīng)歷(Google, Cisco等),斯坦福商學(xué)院Sloan Fellow。

業(yè)內(nèi)人的“針砭時弊”:AI醫(yī)療界的3大亂象以及如何評價醫(yī)學(xué)人工智能的成果?

With machine learning situated at the peak of inflated expectations, we can soften a subsequent crash into a “trough of disillusionment” by fostering a stronger appreciation of the technology’s capabilities and limitations.

今年6月底的《新英格蘭》刊出了一篇觀點文章《Machine Learning and Prediction in Medicine — Beyond the Peak of Inflated Expectations》,《機(jī)器學(xué)習(xí)和醫(yī)學(xué)預(yù)測--遠(yuǎn)超過高期望的峰值》,文章的批判方法算是很給深度學(xué)習(xí)這個新工具留面子了。

這里插播一句,我最近接觸了一些自稱主要關(guān)注醫(yī)療方向的投資人和創(chuàng)業(yè)者,發(fā)現(xiàn)有些人居然不知道這個地球上影響因子排名前幾的臨床醫(yī)學(xué)期刊?!犊茖W(xué)》雜志主刊2016年影響因子37.205分,《自然》主刊是40.137,而《新英格蘭》是72.406分。當(dāng)然,有可能這些人也不知道什么叫影響因子。

這篇文章借用了Gartner的技術(shù)成熟度曲線Hype Cycle,講述現(xiàn)在對于醫(yī)療界來說深度學(xué)習(xí)處于過高期望的峰值(Peak of Inflated Expectations)時期,希望我們正確的理解這項技術(shù)的能力和局限性,繼而進(jìn)入幻想破滅的底谷期 (Trough of Disillusionment),而不是徹底性的崩潰,然后才有然后:穩(wěn)步爬升的光明期 (Slope of Enlightenment)和實質(zhì)生產(chǎn)的高峰期 (Plateau of Productivity)。

業(yè)內(nèi)人的“針砭時弊”:AI醫(yī)療界的3大亂象以及如何評價醫(yī)學(xué)人工智能的成果?

文章用嚴(yán)謹(jǐn)和隱晦的語言,指出了現(xiàn)在醫(yī)學(xué)人工智能界做的一些不靠譜、不合醫(yī)學(xué)邏輯和沒有臨床價值的事情?;赜^國內(nèi)市場,這些不靠譜、不合醫(yī)學(xué)邏輯和沒有臨床價值的事情反而愈演愈烈,耗費(fèi)了大量的資本和醫(yī)療資源,可謂幾大亂象。

一、樂此不疲的人機(jī)大賽

醫(yī)學(xué)是講證據(jù)的學(xué)科,如何證明一項臨床成果的先進(jìn)性,實用性和穩(wěn)定性,是個學(xué)問。

也許是阿爾法狗給大家?guī)Я藗€頭兒,覺得用人工智能PK人類只要是平了或者贏了就是證據(jù),于是大江南北人機(jī)大賽屢見不鮮:《人工智能PK最強(qiáng)醫(yī)腦系列大賽》、《首屆人機(jī)讀片競技大賽召開》、《AI-醫(yī)師讀片競賽》、《XXX達(dá)到/超過人類醫(yī)生的水平》等等,伴隨著這些大賽的,往往是一系列的發(fā)布會。一共就十幾個甚至幾個醫(yī)生參與,一共就幾百張甚至幾十張醫(yī)學(xué)影像,最后的百分?jǐn)?shù)結(jié)果保留至少四位有效數(shù)字,能夠證明毛線?且不說是否有為了發(fā)布會安排結(jié)果的嫌疑,單就醫(yī)生的水平、狀態(tài),數(shù)據(jù)隨機(jī)性和廣泛性都是論證過程中不堪一擊的節(jié)點,不能細(xì)想不可追問。

二、樂于做不可證偽的預(yù)測

醫(yī)學(xué)是講證據(jù)的學(xué)科,可是總有一些問題是沒有辦法證明對錯的。

最典型的就是做個體診斷的預(yù)測。預(yù)測,根據(jù)特征人群的患病概率來指導(dǎo)篩查是有價值的,但是對于個體診斷進(jìn)行的預(yù)測是無法證偽也是不科學(xué)的。比如,預(yù)測特定的個體將有80%的概率患肺癌,和預(yù)測30%有本質(zhì)區(qū)別嗎?得肺癌可以說明前者更準(zhǔn)嗎,不得肺癌可以說明后者更準(zhǔn)嗎,沒得肺癌可以證明明年不得嗎?深度學(xué)習(xí)這個工具有一個所謂必殺技:有問必答。別問它怎么得出來的,它聲稱是有“像人腦一樣的一套神經(jīng)元思考”出來的。作為一個擬合函數(shù),深度學(xué)習(xí)一定是有輸入就有輸出的,但是對于輸出的結(jié)果,如果沒有金標(biāo)準(zhǔn)檢驗,就方便做文章收智商稅?!缎掠⒏裉m》的文章中還提及另一種不可證偽,叫做本身就是一句廢話,也就是淺顯的道理。比如用人工智能來判斷一個高齡且有各種病史的患者有極高的手術(shù)風(fēng)險。臨床需求是看哪種診斷或治療方案更有用,而不是看誰說得廢話更多。

三、脫離臨床指南,幻想被樹上掉下來的蘋果砸到

醫(yī)學(xué)是講證據(jù)的學(xué)科,可靠的證據(jù)形成了臨床指南,可靠的證據(jù)在推動臨床指南的發(fā)展。

也許現(xiàn)在計算機(jī)的進(jìn)步讓更多的數(shù)據(jù)可以被利用起來來進(jìn)行綜合判斷,但是在這些判斷標(biāo)準(zhǔn)進(jìn)入臨床指南之前,都是科研探索的性質(zhì)?!缎掠⒏裉m》的觀點文章中明確的提到了這種行為,這種沒有已經(jīng)探明的醫(yī)學(xué)邏輯支撐,通過堆砌更多維度的數(shù)據(jù)妄想有所發(fā)現(xiàn)的行為,最終會陷于蝴蝶效應(yīng)帶來的困境之中。我國80年代曾有過大批群眾激昂熱情去攻克”哥德巴赫猜想“,當(dāng)時的數(shù)學(xué)家看待這些群眾的努力,也許就像現(xiàn)在醫(yī)學(xué)研究領(lǐng)域的科學(xué)家在看大數(shù)據(jù)工程師們。聽說全國有幾百家做基因檢測服務(wù)的公司,他們中的很多給投資人講得故事就是拼命收集數(shù)據(jù),數(shù)據(jù)堆得多了,深度學(xué)習(xí)自然就會發(fā)現(xiàn)規(guī)律。“讀書百遍,其義自見”嗎?科研工作,還是留給那些受過科學(xué)訓(xùn)練的人們吧。

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2017-08-15
AI醫(yī)療界的3大亂象以及如何評價醫(yī)學(xué)人工智能的成果?
是否人工智能和人類醫(yī)生誰更聰明的爭論在持續(xù)升溫,但是沒有意義。如何讓人工智能和人類醫(yī)生來一起實現(xiàn)任何單一方都無法提供的臨床效果,才是關(guān)鍵。

長按掃碼 閱讀全文