版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
邏輯回歸分析及其在文本片斷聚類中的應(yīng)用徐永東2004,6,12內(nèi)容簡介研究背景邏輯回歸分析文本片斷聚類
語言特征選擇
特征自動(dòng)融合
聚類試驗(yàn)結(jié)果
結(jié)論研究背景研究背景邏輯回歸分析回歸分析Regressionanalyze:研究一個(gè)或一組變量的變動(dòng)對另一個(gè)變量的變動(dòng)的影響程度的方法用來研究可以測量的變量之間的關(guān)系的一個(gè)數(shù)學(xué)工具研究者遇到的問題自變量和因變量是否有聯(lián)系
這種聯(lián)系是強(qiáng)是弱
能否根據(jù)自變量來預(yù)測因變量
如果能,如何預(yù)測,預(yù)測誤差是多少,有效性如何?
邏輯回歸分析對上述關(guān)系進(jìn)行定量描述的數(shù)學(xué)模型為回歸模型
其中,Y為因變量,E(Y/X)為給定x的條件下Y的條件均值,ε為隨機(jī)變量,且E(ε)=0相應(yīng)的回歸方程
邏輯回歸分析當(dāng)時(shí),稱之為線性回歸方程,這里回歸分析的步驟:收集這些變量在一組單元或案例中的每一個(gè)數(shù)據(jù)。對Y和X分別進(jìn)行k次獨(dú)立觀測,得到一個(gè)訓(xùn)練樣本集〔Yi,Xi〕對回歸參數(shù)進(jìn)行估計(jì):估計(jì)方法有很多種,對于線性回歸分析主要采用最小二乘法,即選擇參數(shù)估計(jì)量,使得隨機(jī)誤差項(xiàng)εi〔因變量的觀測至于模型估計(jì)值之間的差值〕的平方和到達(dá)最小。假設(shè)檢驗(yàn)用于檢驗(yàn)擬合模型對被研究的關(guān)系是否適宜、有用。邏輯回歸分析大多數(shù)統(tǒng)計(jì)方法中,因變量是一個(gè)分類變量categoricalvariable而不是連續(xù)變量continuousvariable在分析分類變量時(shí),通常采用的一種統(tǒng)計(jì)方法是對數(shù)線性模型〔log-linearmodel),本文中,我采用它的一種特殊形式,logistic回歸模型Logistic模型:
其中為一系列影響事件發(fā)生的概率的因素的線性函數(shù)邏輯回歸分析邏輯函數(shù)的分布曲線邏輯回歸分析Logistic回歸的logit變換也稱自然對數(shù)轉(zhuǎn)換,將非線性函數(shù)轉(zhuǎn)變?yōu)榫€性函數(shù)對于k個(gè)自變量的情況相應(yīng)的邏輯回歸模型邏輯回歸分析Logistic回歸模型的估計(jì)通常采用最大似然估計(jì)——統(tǒng)計(jì)分析中的另一常用的模型參數(shù)估計(jì)方法假設(shè)由n個(gè)樣本組成的樣本空間Y,其觀測值為各項(xiàng)觀測值相互獨(dú)立,他們的聯(lián)合分布可以表示為各邊際分布的乘積其中該公式也稱為似然函數(shù),估計(jì)的過程就是求出能夠使這一似然函數(shù)的值最大的參數(shù)估計(jì)邏輯回歸分析Logistic回歸系數(shù)的意義Logistic回歸中的常數(shù)項(xiàng)α表示,在自變量不起任何作用時(shí)〔β=0時(shí)〕,因變量發(fā)生與不發(fā)生事件的概率之比的對數(shù)值。Logistic回歸中的回歸系數(shù)β表示當(dāng)自變量改變一個(gè)單位時(shí),因變量發(fā)生與不發(fā)生事件的概率之比的對數(shù)變化值。例如,當(dāng)β=0.693時(shí),那么當(dāng)自變量變化一個(gè)單位時(shí),因變量事件發(fā)生與不發(fā)生的概率比為〔0.667/0.333)邏輯回歸分析Logistic回歸系數(shù)的統(tǒng)計(jì)推斷,包含兩個(gè)方面:顯著性檢驗(yàn)和參數(shù)估計(jì)顯著性檢驗(yàn):討論在模型中自變量x對logit作用的顯著性檢驗(yàn),一個(gè)自變量是否與因變量顯著相關(guān)的統(tǒng)計(jì)假設(shè)。包括:wald檢驗(yàn)、L.R.檢驗(yàn)等等回歸參數(shù)的置信區(qū)間:為了得到關(guān)于估計(jì)精度的測量,或者說是估計(jì)參數(shù)和實(shí)際參數(shù)的具體誤差?;貧w系數(shù)的置信區(qū)間:得到實(shí)際參數(shù)距離估計(jì)參數(shù)的范圍,當(dāng)α=0.05時(shí),參數(shù)β的置信區(qū)間是發(fā)生比率的置信區(qū)間:可以通過對應(yīng)的回歸系數(shù)的置信區(qū)間的上下限求指數(shù)冪的方法取得事件概率的置信區(qū)間:得到因變量實(shí)際發(fā)生概率距離估計(jì)概率的范圍模型的擴(kuò)展:對于先擬合成功的一個(gè)初始模型,再添加假設(shè)干自變量成為擴(kuò)展模型,然后對兩者加以比較、調(diào)整,重復(fù)屢次最終到達(dá)確定最終模型.片斷聚類參數(shù)的選擇詞向量相似度:為每一個(gè)片斷構(gòu)造一個(gè)詞向量,每個(gè)元素的權(quán)重取每個(gè)詞的tf.idf值名詞向量相似度動(dòng)詞向量相似度名實(shí)體向量相似度同義詞向量相似度:為每個(gè)片斷構(gòu)造一個(gè)同義詞向量,每個(gè)元素的權(quán)重采用以下公式進(jìn)行計(jì)算其中wik是第i個(gè)片斷的第k個(gè)詞的tf.idf值,m是片斷中詞的數(shù)量,是采用基于詞矢量的語義量化模型來計(jì)算的同義詞集,是一個(gè)布爾函數(shù);sj是第j個(gè)同義詞集的尺寸同義名詞向量相似度同義動(dòng)詞向量相似度同義名實(shí)體向量相似度片斷相似度的邏輯回歸分析邏輯回歸模型其中,k是自變量的數(shù)量,在本文中k=8
vij是第i對片斷之間的關(guān)于第j個(gè)向量的相似度,這里相似度的計(jì)算采用向量夾角余弦的方法。Yi的值由手工標(biāo)注獲得,當(dāng)兩個(gè)片斷相似時(shí),Yi=1;反之,Yi=0試驗(yàn)結(jié)果FeaturevalueConfidenceintervalWord2.29985.749(3.0838,1.5158)Noun0.93912.347Verb0.24581.868Namedentity1.05356.584(1.3671,0.7399)Similarword5.634014.058(6.418,4.85)Similarnoun2.20705.505(2.991,1.423)Similarverb0.74726.145(0.9824,0.512)Similarnamedentity6.455316.138(7.2393,5.6713)聚類算法1刪除同其他片斷的相似度值小于0.1的片斷,將剩下的片斷每個(gè)作為一個(gè)候選類;2合并相似度最高的兩個(gè)類,生成一個(gè)新類;3對于所有的類別,計(jì)算兩兩間的相似度;4重復(fù)步驟2,3直到相似度矩陣中的所有元素均小于給定的閾值;5刪除所有只包含一個(gè)元素的類。聚類試驗(yàn)結(jié)果采用平均精度AA(averagedaccuracy)作為聚類評測的標(biāo)準(zhǔn)其中,a,b,c,d的取值見表1
表1Shouldbeclassifiedtothesamecluster
yesnoBeactuallyclassifiedtothesamecluster
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 云計(jì)算彈性擴(kuò)展技術(shù)-洞察與解讀
- 2026年魚骨圖清潔能源合同協(xié)議
- 2025年烏海事業(yè)單位招聘考試真題及答案解析
- 人教版六年級數(shù)學(xué)教學(xué)年計(jì)劃詳解
- 名勝古跡導(dǎo)游詞寫作范例
- 路面與人行道施工質(zhì)量控制體系
- 營養(yǎng)健康教育活動(dòng)方案設(shè)計(jì)
- 2026湖南常德煙草機(jī)械有限責(zé)任公司招聘24人備考題庫及參考答案詳解
- 2026湖北武漢大學(xué)人民醫(yī)院科研助理招聘7人備考題庫及答案詳解一套
- 2026浙江臺州椒江區(qū)社會(huì)事業(yè)發(fā)展集團(tuán)有限公司招聘工作人員的8人備考題庫及完整答案詳解
- 2024生物樣本庫中生物樣本處理方法的確認(rèn)和驗(yàn)證要求
- 舞臺音響燈光工程投標(biāo)書范本
- DZ∕T 0064.49-2021 地下水質(zhì)分析方法 第49部分:碳酸根、重碳酸根和氫氧根離子的測定 滴定法(正式版)
- 貨物供應(yīng)方案及運(yùn)輸方案
- 幼兒語言表達(dá)能力提高策略
- 農(nóng)業(yè)技術(shù)推廣指導(dǎo)-農(nóng)業(yè)推廣的概念與基本原理
- 一種拖曳浮標(biāo)三維軌跡協(xié)調(diào)控制方法
- 墓碑上的100個(gè)藥方
- TCSAE 153-2020 汽車高寒地區(qū)環(huán)境適應(yīng)性試驗(yàn)方法
- 4D廚房設(shè)備設(shè)施管理責(zé)任卡
- 人教版七年級下冊數(shù)學(xué) 平行線的性質(zhì) 同步練習(xí)(無答案)
評論
0/150
提交評論