精品国产自永久观看在线,11学生粉嫩下面自慰喷水,日本三级吃奶头添泬

雷鋒網(wǎng)(公眾號：雷鋒網(wǎng))注：本文作者代號HHH，目前為一家人工智能醫(yī)療創(chuàng)業(yè)公司的CEO，有10多年硅谷的高科技公司的工作經(jīng)歷(Google, Cisco等)，斯坦福商學(xué)院Sloan Fellow。

業(yè)內(nèi)人的“針砭時弊”：AI醫(yī)療界的3大亂象以及如何評價醫(yī)學(xué)人工智能的成果？

With machine learning situated at the peak of inflated expectations, we can soften a subsequent crash into a “trough of disillusionment” by fostering a stronger appreciation of the technology’s capabilities and limitations.

今年6月底的《新英格蘭》刊出了一篇觀點(diǎn)文章《Machine Learning and Prediction in Medicine — Beyond the Peak of Inflated Expectations》，《機(jī)器學(xué)習(xí)和醫(yī)學(xué)預(yù)測--遠(yuǎn)超過高期望的峰值》，文章的批判方法算是很給深度學(xué)習(xí)這個新工具留面子了。

這里插播一句，我最近接觸了一些自稱主要關(guān)注醫(yī)療方向的投資人和創(chuàng)業(yè)者，發(fā)現(xiàn)有些人居然不知道這個地球上影響因子排名前幾的臨床醫(yī)學(xué)期刊?！犊茖W(xué)》雜志主刊2016年影響因子37.205分，《自然》主刊是40.137，而《新英格蘭》是72.406分。當(dāng)然，有可能這些人也不知道什么叫影響因子。

這篇文章借用了Gartner的技術(shù)成熟度曲線Hype Cycle，講述現(xiàn)在對于醫(yī)療界來說深度學(xué)習(xí)處于過高期望的峰值（Peak of Inflated Expectations）時期，希望我們正確的理解這項技術(shù)的能力和局限性，繼而進(jìn)入幻想破滅的底谷期 (Trough of Disillusionment)，而不是徹底性的崩潰，然后才有然后：穩(wěn)步爬升的光明期 (Slope of Enlightenment)和實質(zhì)生產(chǎn)的高峰期 (Plateau of Productivity)。

業(yè)內(nèi)人的“針砭時弊”：AI醫(yī)療界的3大亂象以及如何評價醫(yī)學(xué)人工智能的成果？

文章用嚴(yán)謹(jǐn)和隱晦的語言，指出了現(xiàn)在醫(yī)學(xué)人工智能界做的一些不靠譜、不合醫(yī)學(xué)邏輯和沒有臨床價值的事情?；赜^國內(nèi)市場，這些不靠譜、不合醫(yī)學(xué)邏輯和沒有臨床價值的事情反而愈演愈烈，耗費(fèi)了大量的資本和醫(yī)療資源，可謂幾大亂象。

一、樂此不疲的人機(jī)大賽

醫(yī)學(xué)是講證據(jù)的學(xué)科，如何證明一項臨床成果的先進(jìn)性，實用性和穩(wěn)定性，是個學(xué)問。

也許是阿爾法狗給大家?guī)Я藗€頭兒，覺得用人工智能PK人類只要是平了或者贏了就是證據(jù)，于是大江南北人機(jī)大賽屢見不鮮：《人工智能PK最強(qiáng)醫(yī)腦系列大賽》、《首屆人機(jī)讀片競技大賽召開》、《AI-醫(yī)師讀片競賽》、《XXX達(dá)到/超過人類醫(yī)生的水平》等等，伴隨著這些大賽的，往往是一系列的發(fā)布會。一共就十幾個甚至幾個醫(yī)生參與，一共就幾百張甚至幾十張醫(yī)學(xué)影像，最后的百分?jǐn)?shù)結(jié)果保留至少四位有效數(shù)字，能夠證明毛線？且不說是否有為了發(fā)布會安排結(jié)果的嫌疑，單就醫(yī)生的水平、狀態(tài)，數(shù)據(jù)隨機(jī)性和廣泛性都是論證過程中不堪一擊的節(jié)點(diǎn)，不能細(xì)想不可追問。

二、樂于做不可證偽的預(yù)測

醫(yī)學(xué)是講證據(jù)的學(xué)科，可是總有一些問題是沒有辦法證明對錯的。

最典型的就是做個體診斷的預(yù)測。預(yù)測，根據(jù)特征人群的患病概率來指導(dǎo)篩查是有價值的，但是對于個體診斷進(jìn)行的預(yù)測是無法證偽也是不科學(xué)的。比如，預(yù)測特定的個體將有80%的概率患肺癌，和預(yù)測30%有本質(zhì)區(qū)別嗎？得肺癌可以說明前者更準(zhǔn)嗎，不得肺癌可以說明后者更準(zhǔn)嗎，沒得肺癌可以證明明年不得嗎？深度學(xué)習(xí)這個工具有一個所謂必殺技：有問必答。別問它怎么得出來的，它聲稱是有“像人腦一樣的一套神經(jīng)元思考”出來的。作為一個擬合函數(shù)，深度學(xué)習(xí)一定是有輸入就有輸出的，但是對于輸出的結(jié)果，如果沒有金標(biāo)準(zhǔn)檢驗，就方便做文章收智商稅?！缎掠⒏裉m》的文章中還提及另一種不可證偽，叫做本身就是一句廢話，也就是淺顯的道理。比如用人工智能來判斷一個高齡且有各種病史的患者有極高的手術(shù)風(fēng)險。臨床需求是看哪種診斷或治療方案更有用，而不是看誰說得廢話更多。

三、脫離臨床指南，幻想被樹上掉下來的蘋果砸到

醫(yī)學(xué)是講證據(jù)的學(xué)科，可靠的證據(jù)形成了臨床指南，可靠的證據(jù)在推動臨床指南的發(fā)展。

也許現(xiàn)在計算機(jī)的進(jìn)步讓更多的數(shù)據(jù)可以被利用起來來進(jìn)行綜合判斷，但是在這些判斷標(biāo)準(zhǔn)進(jìn)入臨床指南之前，都是科研探索的性質(zhì)?！缎掠⒏裉m》的觀點(diǎn)文章中明確的提到了這種行為，這種沒有已經(jīng)探明的醫(yī)學(xué)邏輯支撐，通過堆砌更多維度的數(shù)據(jù)妄想有所發(fā)現(xiàn)的行為，最終會陷于蝴蝶效應(yīng)帶來的困境之中。我國80年代曾有過大批群眾激昂熱情去攻克”哥德巴赫猜想“，當(dāng)時的數(shù)學(xué)家看待這些群眾的努力，也許就像現(xiàn)在醫(yī)學(xué)研究領(lǐng)域的科學(xué)家在看大數(shù)據(jù)工程師們。聽說全國有幾百家做基因檢測服務(wù)的公司，他們中的很多給投資人講得故事就是拼命收集數(shù)據(jù)，數(shù)據(jù)堆得多了，深度學(xué)習(xí)自然就會發(fā)現(xiàn)規(guī)律。“讀書百遍，其義自見”嗎？科研工作，還是留給那些受過科學(xué)訓(xùn)練的人們吧。

如何具體評價醫(yī)學(xué)人工智能的成果

上述《新英格蘭》觀點(diǎn)論文的結(jié)束語是，是否人工智能和人類醫(yī)生誰更聰明的爭論在持續(xù)升溫，但是沒有意義。如何讓人工智能和人類醫(yī)生來一起實現(xiàn)任何單一方都無法提供的臨床效果，才是關(guān)鍵。

一、尊重臨床指南

做臨床，不是發(fā)明創(chuàng)造，是很具體的實際操作，臨床指南就是圣經(jīng)。做人工智能產(chǎn)品就是要在臨床指南的范圍才有意義，說得庸俗點(diǎn)，才會有商業(yè)意義。因為這些產(chǎn)品將優(yōu)化臨床醫(yī)療的具體的步驟和環(huán)節(jié)，無論是降低漏診，還是幫助醫(yī)生更快速更準(zhǔn)確的作出診斷，都是有價值且有價格的事情。如果非要去證明”哥德巴赫猜想“，很大的目標(biāo)價值和超小概率的乘積，恐怕也是趨近于零。

在臨床指南之內(nèi)，其實有很多可以實現(xiàn)且值得去做的人工智能項目。以醫(yī)學(xué)圖像AI為例，因為醫(yī)生的肉眼和經(jīng)驗畢竟是有局限性的，所以突破這些局限性，就是臨床價值的落點(diǎn)。計算機(jī)視覺三大領(lǐng)域: 分類(Classification)、檢測(Detection)和分割(Segamentation)，不同的臨床問題下分別都會有用武之地，同時具體的臨床需求也會需要用不同的計算機(jī)視覺方法。例如，糖尿病視網(wǎng)膜病變的自動識別：按照國際分級，如果確診為重度非增生性病變，需要醫(yī)生能夠從大約4000*4000分辨率的眼底照片每個象限中至少能數(shù)出20個出血點(diǎn)，還有靜脈串珠等其他病灶。這些病灶小到只有幾十個像素，那么幫助醫(yī)生快速的鎖定和計數(shù)這些微小的目標(biāo)，檢測(Detection)就是最合適的手段，而做分類(Classification)只能夠起到核對診斷結(jié)果的作用，不能夠有效輔助醫(yī)生做出診斷；而此處做分割(Segamentation)有顯得沒有太大的必要性。

懂行的讀者可能會想起去年Google在美國醫(yī)學(xué)會期刊JAMA(影響因子44.405)上發(fā)表的學(xué)術(shù)成果，對糖尿病視網(wǎng)膜病變的分級就是用的對整張圖片的分類Classification，而并非對病灶的檢測Detection，沒錯，結(jié)果很好。但是試想一下，當(dāng)臨床指南發(fā)生些許變化，比如改為要數(shù)出30個出血點(diǎn)時，Google這項成果的所有工作，包括前期十幾萬張眼底圖片的標(biāo)注，都要完全重來一遍。

二、使用醫(yī)學(xué)的評價體系

使用醫(yī)學(xué)而不是計算機(jī)工程的評價體系來衡量人工智能系統(tǒng)是否靠譜。在此需要介紹幾個概念：

Sensitivity （敏感度）：描述了系統(tǒng)正確的判斷陽性的能力，計算方法為，系統(tǒng)正確判斷為陽性數(shù)量除以所有陽性數(shù)量。敏感度越高，說明系統(tǒng)的漏診率越低。

Specificity（特異度）：描述里系統(tǒng)正確的判斷陰性的能力，計算方法為，系統(tǒng)正確判斷為陰性的數(shù)量除以所有陰性數(shù)量。特異度越高，說明系統(tǒng)的誤報率越低。

我們希望系統(tǒng)能夠在漏診最少的情況下誤報也最少，也就是要求高敏感度和高特異度，但是在任何系統(tǒng)，“明察秋毫”和”枉殺千人“總需要找一個平衡點(diǎn)。臨床要追求整體的運(yùn)行效率，犧牲敏感度追求特異度會造成漏診率提高，致使篩查或檢查不達(dá)目的；犧牲特異度追求敏感度可能導(dǎo)致醫(yī)療資源浪費(fèi)投入到假陽性的案例中（這是一道GMAT邏輯考題）。

我們再看看計算機(jī)工程界常用的評價指標(biāo)：

Accuracy （準(zhǔn)確率）：判斷正確的樣本數(shù)與總樣本數(shù)之間的比例。計算方法為，系統(tǒng)正確判斷為陽性與正確判斷為陰性的數(shù)量之和除以總樣本數(shù)量。

Precision （精確率）：系統(tǒng)判斷為陽性的情況中正確的比例。計算方法為，系統(tǒng)正確的判斷為陽性的數(shù)量除以系統(tǒng)判斷為陽性的總數(shù)量。

Recall （召回率）：等同于敏感度。

聰明的你會發(fā)現(xiàn)，準(zhǔn)確率Accuracy和精確率Precision嚴(yán)重依賴于樣本總數(shù)里陽性和陰性的配比，舉個極端的案例，設(shè)計一個系統(tǒng)，對于所有的輸入都報陽性，即敏感度為100%，特異度為0，這就是個沒有實際用處的系統(tǒng)，那么此時取100個測試樣本中，99個為陽性，1個為陰性，此時計算出的準(zhǔn)確率為99%，精確率也是99%。

現(xiàn)實中，做出一個敏感度高特異度不高，或者反之的系統(tǒng)是很容易的，可以輕松的調(diào)整測試樣本的陽性陰性比例來優(yōu)化其準(zhǔn)確率和精確率值。

不難理解，為什么公關(guān)軟文中最常出現(xiàn)“準(zhǔn)確率超過95%”，“精確率超過98%”，云云。下次再讀到“準(zhǔn)確率超過95%”的時候，我們可以這么想，準(zhǔn)確率95%可能意味著系統(tǒng)蒙答案的時候主要蒙A選項，然后測試樣本中的A占絕對多數(shù)；那么再讀到“精確率超過98%”的時候，我們可以這么想，系統(tǒng)的敏感度可能只有30%，在他能夠報出為陽性的時候，絕大部分是對的。

所以，回避了醫(yī)學(xué)常用的評價標(biāo)準(zhǔn)，通過百分?jǐn)?shù)嘩眾取寵搞新聞效應(yīng)是比較容易實現(xiàn)的。甚至在一些學(xué)術(shù)論文和國際醫(yī)學(xué)圖像識別的競賽中，也經(jīng)常出現(xiàn)只看精確率和召回率，而不出現(xiàn)特異度指標(biāo)的情況，有些公司還恰恰以這些影響因子0.5分不到的學(xué)術(shù)論文為榮譽(yù)，或者因在這些國際大賽中又將精確度提升了0.12個百分點(diǎn)而驕傲。如果你問我“茴香豆的茴字有幾種寫法”，我會回答“一萬種”。能解決臨床需求的AI才是好AI。評價醫(yī)學(xué)人工智能系統(tǒng)是否有用，要同時看其正確的判斷陽性的能力和正確的判斷陰性的能力，即敏感度和特異度。

三、關(guān)注過擬合風(fēng)險

在《新英格蘭》的文章中，“Bias偏見”的詞頻很高，是指因為數(shù)據(jù)產(chǎn)生的偏見，也就是我們常說的過擬合。文中提及傳統(tǒng)開發(fā)中使用到的數(shù)據(jù)被精確構(gòu)建以最小化偏見，但是現(xiàn)在的機(jī)器學(xué)習(xí)的開發(fā)方法已經(jīng)不可避免的放大了偏見。所以評價一個人工智能系統(tǒng)，要衡量他有多偏?？礈y試樣本夠不夠規(guī)模、產(chǎn)生于什么時間、什么地區(qū)、以至于民族和種族。專業(yè)人士可以通過觀察訓(xùn)練樣本和測試樣本本身，來判斷人工智能項目的過擬合風(fēng)險。如果是過擬合嚴(yán)重的系統(tǒng)，再高的敏感度和特異度指標(biāo)，其臨床價值也要打個問號。雖然偏見不可避免，但是我們還是可以簡單的衡量一個系統(tǒng)的過擬合風(fēng)險的大小：測得多總比測得少要好，測試樣本與訓(xùn)練樣本數(shù)量比值越大越好，人口統(tǒng)計學(xué)背景越復(fù)雜越好等等，道理淺顯，不一一贅述。

嚴(yán)謹(jǐn)并樂觀著

《新英格蘭》這篇觀點(diǎn)文章，用詞嚴(yán)謹(jǐn)?shù)浇蹩瘫?，說法隱晦到讓人感嘆知識分子罵人不帶臟字兒，但是最后還是樂觀：深度學(xué)習(xí)也不斷的在一些曾經(jīng)被認(rèn)為不可能完成的圖像識別任務(wù)中屢建戰(zhàn)功。所以，還是要樂觀，推動深度學(xué)習(xí)的幻想破滅而進(jìn)入穩(wěn)步爬升的光明期 (Slope of Enlightenment)。

業(yè)內(nèi)人的“針砭時弊”：AI醫(yī)療界的3大亂象以及如何評價醫(yī)學(xué)人工智能的成果？

一、樂此不疲的人機(jī)大賽

醫(yī)學(xué)是講證據(jù)的學(xué)科，如何證明一項臨床成果的先進(jìn)性，實用性和穩(wěn)定性，是個學(xué)問。

二、樂于做不可證偽的預(yù)測

醫(yī)學(xué)是講證據(jù)的學(xué)科，可是總有一些問題是沒有辦法證明對錯的。

三、脫離臨床指南，幻想被樹上掉下來的蘋果砸到

醫(yī)學(xué)是講證據(jù)的學(xué)科，可靠的證據(jù)形成了臨床指南，可靠的證據(jù)在推動臨床指南的發(fā)展。

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

AI醫(yī)療界的3大亂象以及如何評價醫(yī)學(xué)人工智能的成果？

下一篇

AI醫(yī)療界的3大亂象以及如何評價醫(yī)學(xué)人工智能的成果？