強化學習:了解不同的機器學習技巧
強化學習是監(jiān)督的還是無監(jiān)督的?雖然這個技術問題很重要,但讓我們把重點轉向商業(yè)視角。強化學習(RL)在改變各行業(yè)的決策過程和優(yōu)化戰(zhàn)略方面具有巨大的潛力。
計算機、智能手機和各種技術所產生的數(shù)據(jù)量之大可能令人生畏,特別是對于那些對其影響不確定的人而言。為了有效地利用這些數(shù)據(jù),研究人員和程序員經常利用機器學習來增加用戶體驗。
數(shù)據(jù)科學家每天都在使用復雜的方法,包括監(jiān)督學習、無監(jiān)督學習和強化學習技術。本文旨在簡潔地描述監(jiān)督學習、無監(jiān)督學習和強化學習,并強調它們間的區(qū)別。
強化學習是監(jiān)督的還是無監(jiān)督的?
強化學習在機器學習領域開辟了自己的道路,與監(jiān)督學習和無監(jiān)督學習截然不同。但首先,讓我們先了解一下什么是監(jiān)督學習和無監(jiān)督學習。
什么是監(jiān)督學習?
監(jiān)督學習是一種機器學習技術,其中模型是在標記數(shù)據(jù)集上訓練的。這意味著數(shù)據(jù)既包括輸入示例,也包括相應的期望輸出(標簽)。模型的目標是學習輸入和輸出之間的關系,這樣它就可以準確地預測新的、看不見的數(shù)據(jù)的輸出。
將其想象成一個學生跟著老師學習。標記的數(shù)據(jù)集就像帶有解決方案的實踐問題。學生(模型)學習這些例子,教師(算法)指導學習過程。目標是讓學生學會如何獨立解決類似的問題。
關鍵概念: 標簽數(shù)據(jù):監(jiān)督學習的核心。每個數(shù)據(jù)點都有一個輸入(特性)及其相應的正確輸出(標簽). 培訓:模型被輸入標記數(shù)據(jù)。它分析了輸入和輸出之間的模式和相關性。 學習功能:該模型開發(fā)了一個數(shù)學函數(shù),盡可能精確地將輸入映射到輸出中。 預測:一旦經過培訓,該模型可以吸收新的投入并預測相應的產出。
什么是無監(jiān)督學習?
無監(jiān)督學習是一種機器學習技術,其中模型是在未標記的數(shù)據(jù)集上訓練的。這意味著數(shù)據(jù)只包括輸入,沒有相應的目標輸出。模型的目標是發(fā)現(xiàn)數(shù)據(jù)本身中隱藏的模式、結構或關系。
將其想象成一個孩子在沒有任何具體指示的情況下探索一個新環(huán)境。孩子們通過觀察模式、對相似的物體進行分組和理解關系來學習,而不需要任何人直接告訴其事物的名稱。
關鍵概念:
無標簽數(shù)據(jù):無監(jiān)督學習沒有預先定義的答案來學習。 模式發(fā)現(xiàn):模型分析數(shù)據(jù)以找出相似性、差異性和潛在結構。 沒有明確的指導:沒有"老師"糾正模式。它通過自我發(fā)現(xiàn)學習。什么是強化學習?
強化學習是一種機器學習,其中代理人通過與環(huán)境交互的試錯來學習。代理嘗試不同的行為,根據(jù)其行為獲得獎勵或懲罰,并隨著時間的推移調整其策略以最大化總獎勵。
想象一下訓練一只狗,但沒有明確告訴狗怎么坐。相反,當它執(zhí)行導致坐著的動作時,給予它獎勵。隨著時間的推移,狗學會了把坐和獎勵聯(lián)系起來。
關鍵概念:
代理人:決策者,學習的實體。 環(huán)境:代理人與之相互作用的系統(tǒng)。 狀態(tài):代理人在其環(huán)境中的現(xiàn)狀。 行動:代理人在其環(huán)境中能做什么。 獎勵:積極或消極的反饋信號,代理人收到的行動。 策略:代理人使用的策略來決定在給定的狀態(tài)中采取什么行動。總結
沒有任何一種"最佳"的機器學習技術能超越所有其他的。最佳技術取決于需求。
無監(jiān)督學習是探索數(shù)據(jù)集、發(fā)現(xiàn)隱藏模式或在沒有預定結果的情況下分組相似數(shù)據(jù)點的完美選擇。而,如果有帶有標記示例的數(shù)據(jù)集(輸入數(shù)據(jù)及其相應的正確輸出),則選擇有監(jiān)督的學習。
強化學習對于以長期獎勵為重點的決策問題特別有用,如游戲或機器人。在強化學習中,代理人與環(huán)境交互,以獎勵或懲罰的形式獲得反饋,并學習隨著時間的推移使獎勵最大化的最佳策略。
免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。