<em id="0a85b"><option id="0a85b"></option></em>

<abbr id="0a85b"></abbr>

      <nobr id="0a85b"></nobr>
        <tr id="0a85b"></tr>
        9久久伊人精品综合,亚洲一区精品视频在线,成 人免费va视频,国产一区二区三区黄网,99国产精品永久免费视频,亚洲毛片多多影院,精品久久久无码人妻中文字幕,无码国产欧美一区二区三区不卡
        學習啦 > 學習方法 > 通用學習方法 > 學習方法指導 > 統計學習方法

        統計學習方法

        時間: 欣怡1112 分享

        統計學習方法

          統計學習是關于計算機基于數據構建概率統計模型并運用模型對數據進行預測與分析的一門學科,也稱統計機器學習以下是學習啦小編分享給大家的統計學習的資料,希望可以幫到你!

          統計學習方法一

          統計學習

          統計學習的對象是數據,它從數據出發,提取數據的特征,抽象出數據的模型,發現數據中的知識,又回到對數據的分析與預測中去。統計學習關于數據的基本假設是同類數據具有一定的統計規律性,這是統計學習的前提。

          統計學習的目的就是考慮學習什么樣的模型和如何學習模型。

          統計學習方法包括模型的假設空間、模型選擇的準則以及模型學習的算法。實現統計學習的步驟如下:

          (1) 得到一個有限的訓練數據集合;

          (2) 確定包含所有可能的模型的假設空間,即學習模型的集合;

          (3) 確定模型選擇的準則,即學習的策略;

          (4) 實現求解最優模型的算法,即學習的算法;

          (5) 通過學習方法選擇最優模型;

          (6) 利用學習的最優模型對新數據進行預測或分析。

          統計學習方法二

          監督學習

          監督學習從訓練數據中學習模型,對測試數據進行預測,訓練集通常表示為

          人們根據輸入、輸出變量的不同類型,對預測任務給予不同的名稱:輸入變量和輸出變量均為連續變量的預測問題稱為回歸問題;輸出變量為有限個離散變量的預測問題稱為分類問題;輸入變量與輸出變量均為變量序列的預測問題稱為標注問題。

          監督學習假設輸入與輸出的隨機變量X和Y遵循聯合概率分布P(X,Y),P(X,Y)表示分布函數,或分布密度函數。統計學習假設數據存在一定的統計規律,X和Y具有聯合概率分布的假設就是監督學習關于數據的基本假設。

          監督學習的模型可以是概率模型或非概率模型,由條件概率分布P(Y|X)或決策函數Y=f(X)表示,隨具體學習方法而定。

          監督學習分為學習和預測兩個過程,由學習系統與預測系統組成,如下圖:

          學習過程中,學習系統利用給定的訓練數據集,通過學習得到一個模型,表示為條件概率分布P(Y|X)或決策函數Y=f(X)。預測過程中,預測系統對于給定的測試樣本集中的輸入

          統計學習方法三

          統計學習三要素

          統計學習=模型+策略+算法

          3.1 模型

          統計學習中,首先要考慮學習什么樣的模型,在監督學習中,模型就是所要學習的條件概率分布或決策函數,由決策函數表示的模型為非概率模型,由條件概率分布表示的模型為概率模型。

          3.2 策略

          有了模型的假設空間,統計學習接著需要考慮的是按照什么樣的準則學習或選擇最優的模型。監督學習實際上就是一個經驗風險或者結構風險函數的最優化問題。風險函數度量平均意義下模型預測的好壞,模型每一次預測的好壞用損失函數來度量。

          監督學習問題就是從假設空間F中選擇模型f作為決策函數,對于給定的輸入X,由f(X)給出相應的輸出Y,這個輸出的預測值f(X)與真實值Y可能一致也可能不一致,用一個損失函數來度量預測錯誤的程度。損失函數記為L(Y, f(X))。常用的損失函數有以下幾種:

          3.3 算法

          統計學習問題歸結為以上的最優化問題,這樣,統計學習的算法就是求解最優化問題的算法。如果最優化問題有顯示的解析解,這個最優化問題就比較簡單,但通常這個解析解不存在,所以就需要利用數值計算的方法來求解。統計學習可以利用已有的最優化算法,也可以開發獨自的最優化算法。

          統計學習方法四

          模型評估與模型選擇

          當損失函數給定時,基于損失函數的模型的訓練誤差和模型的測試誤差就自然成為學習方法評估的標準。

          訓練誤差是模型Y=f(x)關于訓練數據集的平均損失:

          下圖給出了M=0,M=1,M=3,M=9時的多項式函數擬合的情況,其中綠色曲線為真模型,紅色為預測模型。

          其中,M=0和M=1模型簡單,擬合不足,訓練誤差較大;M=9模型復雜,過擬合,訓練誤差為0,但基本不具備推廣性;M=3模型復雜度適中,泛化能力強,效果最好。

          下圖描述了訓練誤差和測試誤差與模型的復雜度之間的關系:

          當模型的復雜度增大時,訓練誤差會逐漸減小并趨向于0,而測試誤差會先減少,達到最小值后又增大。模型選擇的典型方法是正則化與交叉驗證。

          統計學習方法五

          正則化與交叉驗證

          模型選擇的典型方法是正則化,正則化的一般形式如下:

          其中,第一項是經驗風險,第二項是正則化項,正則化項可以取不同的形式,例如,正則化項可以是模型參數向量的范數。回歸問題中,損失函數是平方損失,正則化項可以是參數向量的L2范數:

          正則化項也可以是參數向量的L1范數:

          經驗風險較小的模型可能較復雜,這時正則化項的值會較大,正則化的作用是選擇經驗風險與模型復雜度同時較小的模型。

          正則化符合奧卡姆剃刀原理,在所有可能的模型中,能夠很好的解釋已知數據并且十分簡單的模型才是最好的模型。從貝葉斯估計的角度來看,正則化項對應于模型的先驗概率,可以假設復雜的模型有較小的先驗概率,簡單的模型有較大的先驗概率。

          模型選擇的另一種方法是交叉驗證,使用交叉驗證的前提是數據不充足,常見的有簡單交叉驗證、S折交叉驗證和留一交叉驗證。如果數據充足,選擇模型的一種簡單方法是隨機的將數據集分成三部分,分別為訓練集、驗證集和測試集,訓練集用來訓練模型,驗證集用于模型的選擇,而測試集用于最終對學習方法的評估。如果數據不充足,可以采用交叉驗證的方法來選擇模型。

          統計學習方法六

          泛化能力

          統計學習方法七

          生成模型與判別模型

          判別模型

          該模型主要對p(y|x)建模,通過x來預測y。在建模的過程中不需要關注聯合概率分布。只關心如何優化p(y|x)使得數據可分。通常,判別式模型在分類任務中的表現要好于生成式模型。但判別模型建模過程中通常為有監督的,而且難以被擴展成無監督的。

          常見的判別式模型有:

          Logisticregression

          Lineardiscriminant analysis

          Supportvector machines

          Boosting

          Conditionalrandom fields

          Linearregression

          Neuralnetworks

          生成模型

          該模型對觀察序列的聯合概率分布p(x,y)建模,在獲取聯合概率分布之后,可以通過貝葉斯公式得到條件概率分布。生成式模型所帶的信息要比判別式模型更豐富。除此之外,生成式模型較為容易的實現增量學習。

          常見的生成式模型有:

          Gaussian mixture model and othertypes of mixture model

          HiddenMarkov model

          NaiveBayes

          AODE

          LatentDirichlet allocation

          RestrictedBoltzmann Machine

          由上可知,判別模型與生成模型的最重要的不同是,訓練時的目標不同,判別模型主要優化條件概率分布,使得x,y更加對應,在分類中就是更可分。而生成模型主要是優化訓練數據的聯合分布概率。而同時,生成模型可以通過貝葉斯得到判別模型,但判別模型無法得到生成模型。

          統計學習方法八

          分類問題、標注問題和回歸問題

          前面提到過,輸入變量和輸出變量均為連續變量的預測問題稱為回歸問題;輸出變量為有限個離散變量的預測問題稱為分類問題;輸入變量與輸出變量均為變量序列的預測問題稱為標注問題。

          對于二分類問題,常用的評價指標是精確率和召回率。通常以關注的類為正類,其他類為負類,分類器在測試數據集上的預測或正確或不正確,4中情況出現的總數分別記為:

          TP——將正類預測為正類數;

          FN——將正類預測為負類數;

          FP——將負類預測為正類數;

          TN——將負類預測為負類數。

          則,精確率定義為:

          許多統計方法可以用于分類,包括k近鄰法、感知機、樸素貝葉斯法、決策樹、決策列表、邏輯斯諦回歸模型、支持向量機、提升方法、貝葉斯網絡、神經網絡、Winnow等。

          標注問題的輸入是一個觀測序列,輸出是一個標記序列。標注問題在信息抽取、自然語言處理等領域被廣泛采用。例如,自然語言處理中的詞性標注就是一個典型的標注問題:給定一個由單詞組成的句子,對這個句子中的每一個單詞進行詞性標注,即對一個單詞序列預測其對應的詞性標記序列。標注常用的統計學習方法有:隱馬爾科夫模型、條件隨機場。

          回歸問題的學習等價于函數擬合:選擇一條函數曲線使其很好的擬合已知數據且很好地預測未知數據。回歸問題按照輸入變量的個數分為一元回歸和多元回歸,按照輸入變量和輸出變量之間的關系的類型即模型的類型,分為線性回歸和非線性回歸。回歸學習最常用的損失函數時平方損失函數,在此情況下,回歸問題可以用著名的最小二乘法求解。

        3688823 主站蜘蛛池模板: 久久精品国产亚洲av热一区| 国内自拍小视频在线看| xxxxbbbb欧美残疾人| 三级4级全黄60分钟| 久久中精品中文字幕入口| 国产一级特黄高清大片一| 亚洲精品国产av成人网| 又爽又黄又无遮挡的激情视频| 日韩中文字幕人妻一区| 国产精品爽爽va在线观看网站| 少妇人妻88久久中文字幕| 国内精品久久人妻无码妲| 免费a级毛片18以上观看精品| www国产精品内射熟女| 亚洲 自拍 另类 制服在线| 伊人久久大香线蕉网av| 黄色大全免费看国产精品| 日韩成av在线免费观看| XXXXXHD亚洲日本HD| 国产精品黑色丝袜在线观看| 日韩人妻少妇一区二区三区| 天天综合网网欲色| 日本最大色倩网站www| 最新的国产成人精品2020| 亚洲一区二区av在线| 宫西光有码视频中文字幕| 午夜大片免费男女爽爽影院| 亚洲一区二区偷拍精品| 亚洲国产成人久久综合一区| 69天堂人成无码麻豆免费视频| 亚洲2区3区4区产品乱码2021| 开心五月激情五月俺亚洲| 开心一区二区三区激情| 亚洲精品网站在线观看不卡无广告| 国产区二区三区在线观看| 国产高清视频一区三区| 国产AⅤ天堂亚洲国产AV| 女同另类激情在线三区| 免费日韩av网在线观看| 欧美交A欧美精品喷水| 国产在线观看免费观看不卡|