在醫(yī)學數(shù)據(jù)集的訓練算法期間面臨的許多問題中,以下三個是最常見:類別不均衡多任務數(shù)據(jù)集大小對于這些問題,本文將分享一些解決的方法。類別不均衡挑戰(zhàn)在現(xiàn)實世界中,我們看到的健康人遠遠比患病的人要多得多,這也反映了在醫(yī)學數(shù)據(jù)集中,健康和患病類別的樣本數(shù)量是不平均。在醫(yī)療數(shù)據(jù)集和信用卡欺詐數(shù)據(jù)集中,你可能會看到正樣本的數(shù)量是負樣本的一百倍。所以模型訓練的結(jié)果往往被誤認為是表現(xiàn)出色的,然而實際上卻并非如此。如果使用accuracy_score準確度這樣的簡單度量,就會發(fā)生這種情況。準確度對于這類數(shù)據(jù)集來說不是一個很好的度量標準,因為標簽嚴重傾斜,所以一個只輸出正常標簽的神經(jīng)網(wǎng)絡的準確率甚至還能略高于90%。
解決方案:終上所述,我們可以定義更有用的指標,例如F1度量或"精確度/召回率"。精確度定義為"真正例個數(shù)/(真正例個數(shù)+假正例個數(shù))",在假正例很多的情況下,這是一個很好的度量;另一方面,召回率定義為"真正例個數(shù)/(真正例個數(shù)+假反例個數(shù))",在假反例本很多的情況下,這是一個很好的度量。醫(yī)療領(lǐng)域的大多數(shù)模型是這種情況,但是我們也經(jīng)常需要同時考慮假正例個數(shù)和假反例個數(shù),這就是F1度量的功能,它在精確度(Precision)和召回率(Recall)之間取得均衡,由公式2 * ((Precision*Recall) / (Precision+Recall))給出。處理類不均衡的另一種流行技術(shù)是"重采樣",這是從多數(shù)類(樣本過多的那一類)中刪除樣本(稱為欠采樣)或在少數(shù)類中添加樣本(稱為過采樣)來在這兩個類之間取得均衡的行為。盡管它們可以通過使用復雜的重采樣技術(shù)來解決,但它們具有自己的缺點,如信息丟失和過擬合。多任務挑戰(zhàn)在現(xiàn)實世界中,通常僅預測健康或患病是不夠的,我們經(jīng)常需要將醫(yī)療數(shù)據(jù)分為多個類別或標簽,例如,僅從心律中檢測出心律失常并沒有什么市場,對患者進行分析判斷得到哪種心律失常更有價值,例如病狀可能是房顫,室上性心動過速或任何其他類型。從理論上講,可以為需要分類的每個標簽訓練單獨的神經(jīng)網(wǎng)絡模型,但是這對于寫代碼來說是非常不切實際的,如果我們可以將所有這些分類模型組合到一個返回多個預測的單個深度神經(jīng)網(wǎng)絡中,就比較有價值。
解決方案:我們可以使用一種稱為"多類別分類"或"多標簽分類"的方法來應對這一挑戰(zhàn)。這兩種方法略有不同,在多類別中,數(shù)據(jù)樣本的類別是互斥的,而在多標簽中,數(shù)據(jù)樣本可以屬于多個類別。在醫(yī)學領(lǐng)域,我們通常使用多標簽分類,因為如果患者被診斷為肺不張(肺的膨脹不全),則并不意味著他/她就不會有心臟肥大。我們將模型最后一層的分數(shù)再傳遞給Sigmoid激活函數(shù),這會把最后一層的每個分數(shù)轉(zhuǎn)換為0到1之間的值,而與其他分數(shù)無關(guān)。對于多標簽分類,我們選擇的損失函數(shù)變?yōu)閎inary_crossentropy,其中由于我們使用了Sigmoid激活函數(shù),因此每個標簽都被視為獨立的伯努利分布。在需要多類的情況下,可以用損失函數(shù)設置為categorical_crossentropy的softmax激活函數(shù)來替換Sigmoid激活函數(shù)。數(shù)據(jù)集大小挑戰(zhàn)另外一個處理醫(yī)學數(shù)據(jù)集的挑戰(zhàn)為數(shù)據(jù)集的大小。大型訓練數(shù)據(jù)集除了具有良好的體系結(jié)構(gòu)外,還對模型的性能起著重要的作用,但可用于疾病的患者數(shù)據(jù)數(shù)量往往不夠。低數(shù)據(jù)集大小會導致高偏差和高方差,這些原因?qū)е履P偷耐茝V和優(yōu)化困難。
解決方案:為了解決模型優(yōu)化的困難,我們可以使用一種稱為"遷移學習"的方法,其中我們使用從相關(guān)網(wǎng)絡較低層中學習來訓練較高層,而無需它們從頭開始學習。由于先前的訓練,較低的圖層可以用作良好的特征提取器,因此我們可以根據(jù)數(shù)據(jù)集對其進行微調(diào),該技術(shù)優(yōu)化速度更快,并減少了訓練新模型所需的數(shù)據(jù)量。為了解決模型泛化的困難,我們可以使用一種稱為"數(shù)據(jù)增強"的技術(shù),將數(shù)據(jù)提供給模型之前,可以對樣本進行一些隨機轉(zhuǎn)換,這樣我們可以使模型對于大小或亮度等微小變化保持不變。諸如水平或垂直翻轉(zhuǎn)圖像,更改圖像的亮度或?qū)Ρ榷龋瑢D像旋轉(zhuǎn)或縮放到一定程度之類的做法都有助于數(shù)據(jù)擴充。此技術(shù)在小型數(shù)據(jù)集中避免過度擬合非常有用。
☆ END ☆
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )