版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
Python商業(yè)數(shù)據(jù)分析表征學(xué)習(xí)學(xué)習(xí)目標(biāo)理解什么表征學(xué)習(xí)掌握文本表征的不同方法掌握網(wǎng)絡(luò)表征的不同方法使用Gensim和Sklearn實(shí)現(xiàn)表征模型14.1文本表征學(xué)習(xí)——詞袋模型以詞出現(xiàn)的頻率作為權(quán)重的文本表征方法:對原始文本進(jìn)行分詞通過統(tǒng)計(jì)每個詞在文本中出現(xiàn)的次數(shù),用“詞-詞頻”向量表征各文本Python中g(shù)ensim庫是常用的可用來語義分析、主題建模和向量空間建模的文本分析工具可以通過corpora模塊來實(shí)現(xiàn)詞袋模型首先,創(chuàng)建一個Dictionary類作為詞典然后,使用doc2bow()方法對原始文檔進(jìn)行處理最后,可以通過One-Hot編碼轉(zhuǎn)化成稀疏向量,計(jì)算文檔1和文檔2的余弦相似詞袋模型14.1文本表征學(xué)習(xí)——詞袋模型sklearn庫feature_extraction模塊中的text.CountVectorizer()方法也可以快速實(shí)現(xiàn)詞袋模型14.1.2TF-IDF模型一個文本往往只會使用詞匯表中很少一部分詞匯,通過詞袋模型構(gòu)建的詞向量會有大量的0。當(dāng)詞匯量達(dá)萬級時,直接使用詞袋模型會導(dǎo)致每一文本向量有上萬維度,造成“維度爆炸”,極大影響了存儲和運(yùn)算的效率。如常用的“I”、“you”等詞會頻繁地出現(xiàn)在文本中,其頻率遠(yuǎn)高于文本主題詞的頻率,這些詞“喧賓奪主”,使得文本主題無法被有效地表征14.1.2TF-IDF模型
14.1.2TF-IDF模型可以通過gensim庫實(shí)現(xiàn)TF-IDF模型14.1.2TF-IDF模型sklearn庫feature_extraction模塊中的text.TfidfVectorizer()也可以快速實(shí)現(xiàn)TF-IDF模型14.1.3文檔主題模型非監(jiān)督學(xué)習(xí)的方式對文檔隱含語義結(jié)構(gòu)進(jìn)行挖掘核心思想如果一個文檔有一個中心思想,那么一些特定詞語會更頻繁地出現(xiàn)如果一篇文檔涉及了多個主題,那么與其高度相關(guān)的特定詞語會共同出現(xiàn)在文章內(nèi),且每個主題代表詞匯所占比例各不相同主題模型能自動分析每個文檔、統(tǒng)計(jì)文檔內(nèi)的詞語,根據(jù)統(tǒng)計(jì)的信息來推斷當(dāng)前文檔含有哪些主題,以及每個主題所占的比例各為多少,由此對文檔進(jìn)行表征。14.1.3文檔主題模型
14.1.3文檔主題模型通過gensim庫來使用LSA模型14.1.3文檔主題模型隱狄利克雷分布包含詞、主題和文檔的三層貝葉斯概率模型文檔服從主題的多項(xiàng)式分布,主題服從詞的多項(xiàng)式分布對于給定的一篇已知詞匯量的文檔,每個詞都是通過以一定概率選擇某個主題從這個主題中以一定概率選擇某個詞遍歷文檔中的每一個詞以形成整篇文檔14.1.3文檔主題模型
14.1.3文檔主題模型
14.1.3文檔主題模型通過gensim庫來使用LDA模型14.1.4Word2Vec模型Google在2013年開發(fā)的文本表征模型Word2VecCBOW(ContinuousBagofWords)Skip-Gram簡化的神經(jīng)網(wǎng)絡(luò)輸入One-Hot編碼后的向量隱層采用線性單元輸出層是Softmax函數(shù)訓(xùn)練后便可以對所有詞進(jìn)行向量化表征14.1.4Word2Vec模型CBOW:用一個詞的上下文作為輸入,預(yù)測這個詞本身以“analysis”前后8個詞向量作為輸入,輸出詞典中所有詞的概率訓(xùn)練目標(biāo)為使“analysis”對應(yīng)的概率最大訓(xùn)練后可以用每個詞的One-Hot編碼乘以權(quán)重矩陣得到詞向量Skip-Gram:用這個詞語作為輸入,預(yù)測它的上下文輸入“analysis”的One-Hot詞向量,輸出詞典中所有詞與“analysis”共同出現(xiàn)的概率訓(xùn)練目標(biāo)為使得前后窗口詞對應(yīng)的概率最大,訓(xùn)練后就可以得到對應(yīng)的詞向量CBOW模型適合于小型語料,而Skip-Gram模型則在大型語料中的表現(xiàn)更好14.1.4Word2Vec模型gensim庫的models模塊的word2vec.Word2Vec()函數(shù)能實(shí)現(xiàn)Word2Vec模型14.1.5Doc2Vec模型在Word2Vec模型基礎(chǔ)上設(shè)計(jì)的非監(jiān)督算法相比Word2Vec模型的輸入層,Doc2Vec新增了一個句子向量,這個向量負(fù)責(zé)保留句子承載的“記憶”,作為對詞向量的補(bǔ)充PV-DM模型(DistributedMemoryModelofParagraphVectors)PV-DBOW模型(DistributedBagofWordsofParagraphVector)14.1.5Doc2Vec模型gensim庫的models模塊中的doc2vec.Doc2Vec()函數(shù)能實(shí)現(xiàn)Doc2Vec模型14.2網(wǎng)絡(luò)表征學(xué)習(xí)——DeepWalk算法
14.2.1DeepWalk算法14.2.1DeepWalk算法14.2.1DeepWalk算法14.2.2Node2Vec算法Node2Vec算法Node2Vec與DeepWalk的不同之處在于,該算法設(shè)計(jì)了隨機(jī)游走策略以在深度優(yōu)先搜索和廣度優(yōu)先搜索這兩種搜索策略中維持平衡14.2.2Node2Vec算法
14.2.2Node2Vec算法14.2.3Metapath2Vec算法Metapath2Vec算法網(wǎng)絡(luò)中可以包含多種類型的節(jié)點(diǎn),這類網(wǎng)絡(luò)稱為異構(gòu)網(wǎng)絡(luò)(HeterogeneousNetwork)根據(jù)消費(fèi)記錄建立的“消費(fèi)者-商品”網(wǎng)絡(luò)根據(jù)學(xué)術(shù)合作關(guān)系構(gòu)造的“期刊-論文-作者”網(wǎng)絡(luò)在異構(gòu)網(wǎng)絡(luò)中,隨機(jī)游走會偏向于某些高度可見類型的節(jié)點(diǎn),即具有主導(dǎo)優(yōu)勢的節(jié)點(diǎn)需要使用基于元路徑(metapath)的隨機(jī)游走方法,通過預(yù)先設(shè)置元路徑指導(dǎo)隨機(jī)游走,指定游走時對節(jié)點(diǎn)類型的選擇模式。14.2.3Metapath2Vec算法
14.2.3Metapath2Vec算法
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 多鏈技術(shù)促進(jìn)多元慈善生態(tài)建設(shè)-洞察與解讀
- 數(shù)據(jù)中心能效提升方法-洞察與解讀
- 某化工公司產(chǎn)品檢測服務(wù)方案
- 5G設(shè)備EMC增強(qiáng)-洞察與解讀
- 情緒調(diào)節(jié)與抑郁復(fù)發(fā)風(fēng)險(xiǎn)-洞察與解讀
- 醫(yī)院物資管理制度和流程
- 簡約單頁簡歷模板
- 四年級語文老師家長會發(fā)言稿
- 六年級下小升初數(shù)學(xué)畢業(yè)總復(fù)習(xí)必考知識點(diǎn)
- 《炮獸》課文原文 高中語文選修 外國小說欣賞
- 自動駕駛系統(tǒng)關(guān)鍵技術(shù)
- 完整工資表模板(帶公式)
- 奇瑞汽車QC小組成果匯報(bào)材料
- 英語四級詞匯表
- 藥用高分子材料-高分子材料概述
- 社區(qū)春節(jié)活動方案
- CTT2000LM用戶手冊(維護(hù)分冊)
- 川2020J146-TJ 建筑用輕質(zhì)隔墻條板構(gòu)造圖集
- 新員工入職申請表模板
- 貝多芬鋼琴奏鳴曲2告別-降E大調(diào)-Op81a-E-flat-major鋼琴譜樂譜
- GA 1517-2018金銀珠寶營業(yè)場所安全防范要求
評論
0/150
提交評論