統計學習方法有哪些

時間：2017-08-21 09:12:10 欣怡1112由分享

統計學習方法有哪些

　　統計學習方法的三要素，包括假設空間、模型的選擇準則以及模型學習的算法，簡稱為模型、策略和算法。具體請看下文，下面是學習啦小編分享給大家的統計學習方法的資料，希望大家喜歡!

　　統計學習方法一

　　1.極大似然原理：

　　例子1：原理是這樣的，一個師傅和一個徒弟去打獵，如果第一個獵物被打到了，不知道是誰打的，就猜是師傅打的，這就是極大似然。

　　例子2：假設一件事有100種可能性，在一次試驗中其中一種可能性發生了，所以給人一種感覺這種可能性是最容易發生的，極大似然的想法就是使這種可能性達到最大

　　統計學習方法二

　　2.實際應用中極大似然估計分布的參數：

　　根據n個樣本，估計整體分布的參數，比如我們知道總體是服從正態分布，但是不知道具體參數theta和u。其基本思想是這樣的：選擇一個參數使得實驗結果具有最大的概率，已知某個參數能使這個樣本出現的概率最大，我們當然不會再去選擇其他小概率的樣本，所以干脆就把這個參數作為估計的真實值。

　　Em算法和最大似然估計的關系：

　　EM算法是求最大似然估計的一種方法，但是當含有隱變量時候不方便通過似然函數求導，來求參數，所以就分了e步和m步來求，這樣方便

　　P15頁上面的“S折交叉驗證”和“留一交叉驗證”有什么區別嗎?

　　它們都是在數據集不夠的條件下使用的一種方，舉個例子吧s折交叉驗證，外層一個大循環(比如你可以讓它循環10次)，其中每一次都將數據集劃分為訓練集和測試集，這兩大塊的數據集大小的比例沒做限定，然后用訓練集訓練模型，測試集經驗風險，最后循環結束，對這些風險取平均值。

　　S折是把數據分成互不相交的S份，這里有個完備的概念，S-1份作為訓練集，剩下的一份作為測試集，注意每一份是隨機選的，但是個數相同，這S份都要遍歷一遍，最后取平均值，不是取某一份最小的值，會發現用交叉驗證每運行一次代碼，結果都不一樣，因為交叉驗證雖然把數據評論分成S份，但每分都是隨機選的，里面有個隨機量，留一法就是只留一條數據作為測試數據，其他都作為訓練集，是每份為一的交叉驗證，特殊的交叉驗證，留一法準確率高，就是運算量大，以上都是因為，我們訓練數據太少，我們要怎家訓練的多樣性，才這么干的

　　結構風險等于經驗風險加正則化項。都是復雜度越小越不容易過擬合，那完全可以加很小，趨于零相當于不加了，只剩經驗風險了。那有什么意義呢?對于過擬合。

　　對于正則化懲罰我是這么理解的。和為懲罰?我們訓練策略是要求經驗損失盡可能小，當然模型復雜了，訓練效果好了，經驗損失肯定會小，但是這時候可能過擬合了，一個模型能使損失盡量小，我們有模型后面加上一個懲罰項就是加上一個數，是他不那么容易把損失變得那么小。

　　統計學習方概論

　　為了更好的把機器學習、深度學習用到油藏開發中，需要學習最先進的算法。通過這篇概論可以看到，幾乎所有的統計學習問題，都變成了最優化問題。

　　統計學習的方法是基于數據構建統計模型從而對數據進行預測和分析。統計學習由監督學習、非監督學習、半監督學習和強化學習。李航的《統計學習方法》主要講解監督學習。

　　監督學習的任務是學習一個模型，使模型能夠對任意給定的輸入，對其相應的輸出做出一個好的預測。

　　統計學習方法的三要素，包括假設空間、模型的選擇準則以及模型學習的算法，簡稱為模型、策略和算法。

　　監督學習從訓練數據集合中學習模型，對觀測數據進行預測。人們根據輸入、輸出變量的不同類型，對預測任務給予不同的名稱：輸入變量與輸出變量均為連續變量的預測問題稱為回歸問題;輸出變量為有限個離散變量的預測問題稱為分類問題;輸入變量和輸出變量均為變量序列的預測問題稱為標注問題。

　　監督學習中，假設訓練數據與測試數據是依聯合概率分布P(X,Y)獨立同分布產生的。

　　在學習過程中，學習系統利用給定的訓練數據集，通過學習得到一個模型，表示條件概率分布P(Y|X)或決策函數Y=f(X)，條件概率分布或決策函數描述輸入與輸出隨機變量之間的映射關系。

　　在學習過程中，學習系統(也就是算法)試圖通過訓練數據集中的樣本(xi，yi)帶來的信息學習模型。

　　方法=模型+策略+算法

　　在監督學習中，模型就是要學習的條件概率分布或決策函數。一般，由決策函數表示的模型為非概率模型，由條件概率表示的模型為概率模型。模型的假設空間包含所有可能的條件概率分布或決策函數。

　　統計學習的目的在于從假設空間中選取最優模型。損失函數度量模型一次預測的好壞，風險函數度量平均意義下模型預測的好壞。

　　期望風險是模型關于聯合分布的期望損失，經驗風險是模型關于訓練樣本集的平均損失。根據大數定律，等樣本容量趨于無窮時，經驗風險區域期望風險。

　　經驗風險最小化的策略認為，經驗風險最小的模型是模型最優的模型。根據這一策略，按照經驗風險最小化求最優模型就是求解最優化問題。

　　當樣本容量足夠大時，經驗風險最小化能保證很好的學習效果，在現實中被廣泛使用。但是，當樣本容量很小時，經驗風險最小化學習的效果未必很好，會產生“過擬合”現象。

　　結構風險最小化是為了防止過擬合而提出來的策略。結構風險最小化等價于正則化，它是在經驗風險上加上表示模型復雜度的正則化項(regularizer)或懲罰項(penalty term)。模型復雜度是定義在假設空間上的泛函。結構風險小需要經驗風險與模型復雜度同時小。結構風險最小化的策略認為結構風險最小化的模型是最優的模型。所以求最優模型，就是求解最優化問題：

　　算法是指學習模型的具體計算方法。統計學習問題歸結為最優化問題，統計學習的算法成為求解最優化問題的算法。如何保證找到全局最優解，并使求解的過程非常高效，就成為一個重要問題。

　　統計學習可以利用已有的最優化算法，有時也需要開發獨自的最優化算法。

　　統計學習方法之間的不同，主要來自其模型、策略和算法的不同。

　　統計學習的目的是使學到的模型不僅對已知數據而且對未知數據都有很好的預測能力。測試誤差反應了學習方法對未知的測試數據集的預測能力，是學習中的重要概念。通常將學習方法對未知數據的預測能力稱為泛化能力(generalizationability)。

　　監督學習的任務就是學習一個模型，應用這一模型，對給定的輸入預測相應的輸出。監督學習方法可以分為生成方法和判別方法，所學到的模型分別稱為生成模型和判別模型。

　　典型的生成模型有：樸素貝葉斯法和隱馬爾可夫模型。

　　典型的判別模型包括：k鄰近法、感知法、決策樹、邏輯斯遞歸模型、最大熵抹胸、支持向量機、提升法和條件隨機場等。

　　生成方法的特點：可以還原出聯合概率分布P(X,Y)，而判別方法不能;生成方法的學習收斂速度更快，當存在隱變量時，仍可以用生成方法學習，測試判別方法不能用。

　　判別方法的特點：判別方法直接學習的是條件概率P(Y|X)或決策函數f(X)，直接面對預測，汪汪學習的準確率更好;由于直接學習P(Y|X)或f(X)，可以對數據進行各種程度上的抽象、定義特征并使用特征，因此可以簡化學習問題。

　　分類問題是監督學習的一個核心問題，監督學習從數據中學習一個分類模型或分類決策函數，稱為分類器。

　　分類問題包括學習和分類兩個過程。在學習過程中，根據已知的訓練數據集利用有效的學習方法學習一個分類器;在分類過程中，利用學習的分類器對新的輸入實例進行分類。

　　許多學習方法可以用于分類，包括k鄰近法，感知機，樸素貝葉斯，決策樹，決策列表，邏輯斯遞歸模型，支持向量機，提升方法，貝葉斯網絡，神經網絡，window等。

　　標注(tagging)也是一個監督學習問題，可以認為標注問題是分類問題的一個推廣，標注問題又是更復雜的結構預測(structureprediction)問題的一個簡單型式。標注問題類似于沉積序列問題，結構預測類似于沉積相分布預測問題。

　　標注問體的輸入是一個觀測序列，輸出是一個標記序列或狀態序列。標注問體的目標在于學習一個模型，使它能夠預測序列給出標記序列作為預測。注意，可能的標記個數是有限的，但其組合所稱的標記序列的個數是依序列的個數長度呈指數增長的。

　　標注常用的統計學習方法有：隱式馬爾科夫模型、條件隨機場。

　　標注問題在信息提取、自然語言處理等領域廣泛使用，是這些領域的基本問題。

　　回歸問題是監督學習的另一個重要問題。回歸用于預測輸入變量和輸出變量變量之間的關系，特別是當輸入變量的值發生變化時，輸出變量的值也發生的變化。回歸莫i選哪個正是表示輸入變量到輸出變量之間映射的函數。回歸問題的學習等價于函數擬合。

　　終于確認，多點地質統計學建模算法采用的就是機器學習的思路。

統計學習方法有哪些

統計學習方法一

統計學習方法二

統計學習方概論

相關文章

熱門文章