《金融大數(shù)據(jù)分析》-課件 第15章 基礎(chǔ)文本分析_第1頁
《金融大數(shù)據(jù)分析》-課件 第15章 基礎(chǔ)文本分析_第2頁
《金融大數(shù)據(jù)分析》-課件 第15章 基礎(chǔ)文本分析_第3頁
《金融大數(shù)據(jù)分析》-課件 第15章 基礎(chǔ)文本分析_第4頁
《金融大數(shù)據(jù)分析》-課件 第15章 基礎(chǔ)文本分析_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

基礎(chǔ)文本分析學(xué)習(xí)目標(biāo)本章學(xué)習(xí)目標(biāo)為:1、掌握使用詞典對金融文本進(jìn)行分析,并了解常用的中英文金融詞典2、了解常用的文本預(yù)處理步驟3、理解如計算文本相似度4、了解詞嵌入模型以及其優(yōu)點5、熟悉如何使用程序進(jìn)行簡單的文本分析文本分析簡介在金融市場中,各種文本信息都傳遞著豐富且重要的信息。雙方的交易經(jīng)常需要通過合同文本來制定交易的條件。上市公司需要定期以文本的形式向廣大股東披露公司的經(jīng)營現(xiàn)狀以及對未來業(yè)務(wù)發(fā)展的展望。新聞媒體用文本的形式向訂閱者推送經(jīng)濟(jì)以及金融市場的最新消息。分析師用文本給客戶傳達(dá)對公司的分析。雖然文本中有著極其豐富的信息,但是不同于數(shù)據(jù),文本中的信息不能直接放到機(jī)器學(xué)習(xí)模型中。在本章中我們將簡單介紹一些方法將文本中的信息轉(zhuǎn)化成機(jī)器學(xué)習(xí)模型中可以直接應(yīng)用的結(jié)構(gòu)化的數(shù)量信息,并且介紹如何使用這些信息。在以下介紹中,我們先從英文文本為例對文本分析的方法進(jìn)行介紹。在本章最后,我們將介紹如何將這些文本分析的方法應(yīng)用到中文文本上。詞袋模型詞袋模型(Bag-of-words,簡稱BOW)是最基本的文本分析方法。該方法將文本分解成不同的詞匯,并匯總文本中詞匯的意思來獲取信息。以下這段文字是摘取自微軟公司(MicrosoftCorporation)2023財年的年報。TheinvestmentswearemakingincloudandAIinfrastructureanddeviceswillcontinuetoincreaseouroperatingcostsandmaydecreaseouroperatingmargins.Wecontinuetoidentifyandevaluateopportu-nitiestoexpandourdatacenterlocationsandincreaseourserverca-pacitytomeettheevolvingneedsofourcustomers,particularlygiventhegrowingdemandforAIservices.Ourdatacentersdependontheavailabilityofpermittedandbuildableland,predictableenergy,net-workingsupplies,andservers,includinggraphicsprocessingunits("GPUs”)andothercomponents.Ourdevicesareprimarilymanu-facturedbythird-partycontractmanufacturers.Forthemajorityofourproducts,wehavetheabilitytouseothermanufacturersifacur-rentvendorbecomesunavailableorunabletomeetourrequirements.However,someofourproductscontaincertaincomponentsforwhichthereareveryfewqualifiedsuppliers.Extendeddisruptionsatthesesupplierscouldimpactourabilitytomanufacturedevicesontimetomeetconsumerdemand.詞袋模型——預(yù)處理使用詞袋模型的第一步是對段落分拆成單詞的集合。在英文中這一步非常容易。因為在英語中空格和標(biāo)點(如逗號,句點)自然地將段落或句子分割成了單詞。接下來,對每個單詞出現(xiàn)的次數(shù)進(jìn)行統(tǒng)計。因為在英文中,同一個單詞有許多變形。例如段落中的單詞“operating”的變形有“operate”,”operated”,”operation”

等。為了方便后續(xù)的處理,可以對單詞進(jìn)行詞干提?。╯temming)或詞型還原(lemmatization)。詞干提?。涸~干提取通過去除單詞的詞綴(如后綴和前綴)來將其還原到根形式。這比詞形還原更基本,有時會產(chǎn)生非實際單詞的根。例如:?Running(跑步)→Run(跑)?Better(更好)→Bett詞袋模型——預(yù)處理詞型還原:詞形還原是一種更復(fù)雜的過程,它使用詞匯和形態(tài)分析來將單詞還原到其詞典形式或詞元。例如:?Running(跑步)→Run(跑)?Better(更好)→Good(好)詞干提取通常更快,適用于計算資源有限而數(shù)據(jù)量較大的時候。詞形還原適合計算資源豐富的應(yīng)用場景。中文文本的分詞任務(wù)比英文更為復(fù)雜。但是,有一些分詞算法可以對中文進(jìn)行非常準(zhǔn)確的分詞。例如,“結(jié)巴”是一個簡單易用的中文分詞程序包。我們可以直接調(diào)用這一類的程序?qū)ξ谋具M(jìn)行分詞。詞袋模型——預(yù)處理詞頻統(tǒng)計:簡單來說,我們將每個單詞在文本中出現(xiàn)的頻率進(jìn)行統(tǒng)計。如果我們對單詞進(jìn)行過詞干提取或詞形還原,那么一般來說我們會對單詞的詞干或還原后的單詞進(jìn)行詞頻統(tǒng)計。我們對上述文本進(jìn)行詞頻統(tǒng)計,并將結(jié)果整理成如下的形式:單詞詞頻datacenter2manufacturer1device3investment1consumer1表15.1:詞頻統(tǒng)計詞袋模型——預(yù)處理否定詞:我們往往需要對否定詞進(jìn)行特殊處理,比如“growth”表示增長,而“nogrowth”表達(dá)的意思與之完全不同。在中文“不”和“否”或是“非”都表達(dá)了否定的意思。經(jīng)過這些詞的修飾,我們本來詞匯的表意會發(fā)生巨大的改變。為了防止錯誤的解釋,我們往往需要將附近有否定表達(dá)的詞匯進(jìn)行刪除。停用詞:在預(yù)處理中,我們往往會刪除掉一部分往往不傳達(dá)重要信息的詞匯。這些詞匯又被稱為“停用詞”(Stopwords)。例如﹐在英文中常見的停用詞有“and”,“has”,“your”等等。在中文中“是”,“且”,“個”,“有些”等詞匯也是停用詞。我們可以根據(jù)實際數(shù)據(jù)處理的要求找到合適的停用詞列表,并將這些停用詞排除在數(shù)據(jù)處理任務(wù)之外。詞袋模型——預(yù)處理詞頻法:最簡單的詞匯權(quán)重分配方法。即每個詞對應(yīng)的權(quán)重都是1。這種均等權(quán)重的好處是計算簡單。另外一種常見的詞匯權(quán)重分配方案是詞頻-逆文檔頻率TF-IDF)。該方法的思路是如果一個詞匯在很多不同文本中都出現(xiàn),那么這個詞匯所傳達(dá)的信息相對較少。而相對少見的詞匯則更有可能傳達(dá)重要的信息。這種方法可以將空見詞匯的作用放大。詞匯權(quán)重詞頻-逆文檔頻率:該方法有兩部分,詞頻(????)將某一個詞匯的數(shù)量除以該文檔中所有詞匯的數(shù)量。

第二部分是逆文檔頻率(IDF)。逆文檔頻率的計算方法如下

詞袋模型——預(yù)處理如果詞匯t在我們語料庫中所有的文檔中都有出現(xiàn),那么它的IDF權(quán)重是1。如果其僅出現(xiàn)在少量文檔中,那么IDF權(quán)重則會隨之變大。綜合兩個部分,我們得到以下TF-IDF公式:

即一個單詞在一個文檔中的權(quán)重會隨著該單詞在該文檔中出現(xiàn)的頻率增加而增加,同時會隨著該詞匯在其他文檔中出現(xiàn)的幾率的增加而減小。在統(tǒng)計過文本中每個單詞出現(xiàn)的頻率后,接下來通過詞典查詢詞匯中所包含的信息。對金融市場影響最大的信息包括情緒(即正面/負(fù)面的詞語)以及不確定性。對英語文本分析工作主要使用到GeneralInquiry詞典以及Loughran和McDonald教授針對金融市場編寫的詞典。前者適用范圍更為廣泛涵蓋大量的心理學(xué)文獻(xiàn)中的重要信息。后者是針對金融市場定制的。因此,這個詞典能更好的用于獲得金融市場(包括公司年報)中的詞匯中的信息。詞袋模型——詞典與詞匯信息文本情緒:可以通過文本中的正面以及負(fù)面情緒的詞匯頻率來計算文本的情緒。研究表明,財報中的文本情緒往往能反映財報數(shù)據(jù)之外的重要信息。這些信息也會影響到市場對于財報數(shù)據(jù)的解讀,從而被反映到股價的變動上。另外,文本情緒也可以用于衡量新聞報道以及社交媒體對公司的報道的文本情緒。新聞報道通常含有豐富的文本信息,而數(shù)據(jù)信息則相對較少。因此,我們可以通過新聞報道中文本的情緒來推斷該報道傳遞的信息。文本情緒依靠的是文本中正向與負(fù)向情緒詞匯詞頻的差。也有些文獻(xiàn)中直接使用負(fù)向詞匯的詞頻(因為負(fù)向詞匯似乎比正向詞匯中含有更豐富的信息)。不確定性:另一類重要的信息是文本中的不確定性。Loughran與McDonald教授在詞典中整理出一個表示不確定性的詞匯列表可以測量公司層面的不確定性。另一些研究則直接使用新聞中的“uncertainty”(不確定性)這個詞匯與其他的詞匯的組合來測量經(jīng)濟(jì)或政策中的不確定性。其他文本信息:文本中還含有大量其他的信息。我們可以根據(jù)需要將對應(yīng)的信息進(jìn)行處理。比如,如果管理層在文本中模糊的語言太多,可能說明其對披露信息缺乏信心。也有許多詞匯預(yù)示著公司有較高的幾率遇到法律糾紛。詞袋模型——詞典與詞匯信息中文詞典國內(nèi)的研究中,汪昌云和武佳薇(2015)采用了多家主流財經(jīng)媒體的文本數(shù)據(jù),運用詞典法構(gòu)建了媒體正、負(fù)面語氣指數(shù);于琴等(2017)運用文本挖掘技術(shù)構(gòu)建了新聞情緒指標(biāo)。目前運用較為廣泛的是姜富偉等(2021)構(gòu)建的中文金融情感詞典。下面我們將詳細(xì)介紹其構(gòu)建方法并應(yīng)用其詞典對上市公司年報進(jìn)行情感分析。姜富偉等(2021)構(gòu)建中文金融情感詞典的兩大素材是英文金融詞典(Loughran-McDonald金融詞典)以及現(xiàn)有的中文通用情感詞典。為了避免金融情感詞語的遺漏,他們利用word2vec算法從語料中找到與前兩部分詞語高度相關(guān)并且具有合適情感傾向的詞語,從而實現(xiàn)擴(kuò)充詞典的目的。最后,將上述三種方法得到的詞語合并去除,得到最終的中文金融情感詞典。同時,為了避免不同通用情感詞典之間特征差異的影響,也為了保證詞語的完備性,將三個應(yīng)用程度較為廣泛的詞典(知網(wǎng)HowNet情感詞典、清華大軍李軍詞典以及臺灣大學(xué)NTUSD詞典)合并去重,作為通用情感詞典。表15.2提供了該中文詞典中的一些正向及負(fù)向詞語及其來源。以下,我們用招商銀行2019年年報中的一段話來對中文文本分析的結(jié)果做一個說明。在該段文字中,我們先用結(jié)巴進(jìn)行分詞工作。接下來,我們使用詞典來判斷每一個詞匯的情緒。情感分析總得分為24-8-16。我們接下來可以計算該文本的情緒。詞袋模型——詞典與詞匯信息2019年,全市場銀行對客戶人民幣匯率衍生交易量萎縮近18%,但央行在8月改革完善貸款市場報價利率(LPR),進(jìn)一步推進(jìn)人民幣利率市場化,帶來客戶應(yīng)對利率市場波動風(fēng)險定制生交易方案的需求。本集團(tuán)在持續(xù)為客戶提供匯率類產(chǎn)品衍生交易服務(wù)的同時,發(fā)揮在利率互換等金融市場衍生交易方面的專業(yè)優(yōu)勢,拓展新的對客衍生交易服務(wù)品種,并積極為客戶提供線上交易服務(wù),批發(fā)客戶數(shù)量和交易規(guī)模繼續(xù)保持增長。以公允價值計量且其變動計入當(dāng)期損益的金融投資截至報告期末,以公允價值計量且其變動計入當(dāng)期損益的金融投資余額為3982.76億元,主要類別為債券投資和非標(biāo)資產(chǎn)投資等。債券投資主要是本集團(tuán)通過宏觀經(jīng)濟(jì)和貨幣政策等基本面分析來把握債券市場的交易機(jī)會從而獲取投資收益非標(biāo)資產(chǎn)投資以票據(jù)非標(biāo)投資為主,是本集團(tuán)票據(jù)資產(chǎn)結(jié)構(gòu)配置的一部分本集團(tuán)結(jié)合經(jīng)營需要和貨幣市場走勢,通過把握票據(jù)市場交易機(jī)會獲取投資收益。有關(guān)詳情請參閱財務(wù)報告附注10。以攤余成本計量的金融投資截至報告期末,以攤余成本計量的金融投資余額為9074.72億元,其中債券投資以中國政府債券和政策性銀行債券為主,該類投資是基于銀行賬戶利率風(fēng)險管理及流動性管理的需要,兼顧收益與風(fēng)險,作為本集團(tuán)資產(chǎn)負(fù)債的戰(zhàn)略性配置而長期持有。有關(guān)詳情請參閱財務(wù)報告附注11。以公允價值計量且其變動計入其他綜合收益的債務(wù)工具投資截至報告期末,以公允價值計量且其變動計入其他綜合收益的債務(wù)工具投資余額為4,725.86億元報告期內(nèi),受市場環(huán)境變化影響,人民幣債券市場利率呈現(xiàn)震蕩走勢,中高等級信用債利差大幅收窄,同時違約事件增多。本集團(tuán)密切跟蹤市場變化,人民幣組合久期維持高位運行,積極把握波段機(jī)會,并適時調(diào)整存量組合結(jié)構(gòu),重點增持國債、地方和中高等級信用債等配置價值較高的資產(chǎn),配置專門信用評審團(tuán)隊,優(yōu)化資產(chǎn)結(jié)構(gòu),有效規(guī)避了信用風(fēng)險事件。有關(guān)詳情請參閱財務(wù)報告附注12。指定為以公允價值計量且其變動計入其他綜合收益的權(quán)益工具投資截至報告期末,指定為以公允價值計量且其變動計入其他綜合收益的權(quán)益工具投資余額為60.77億元。該類投資主要是本集團(tuán)持有的對被投資方無控制、無共同控制、無重大影響的非交易性股權(quán)投資。有關(guān)詳情請參閱財務(wù)報告附注13。詞袋模型——詞典與詞匯信息詞語傾向來源詞語詞語傾向來源詞語負(fù)向詞語LM詞典中文翻譯跌正向詞語LM詞典中文翻譯漲被降級的晉升管理不善先發(fā)優(yōu)勢曠工獨家經(jīng)營漏稅超額完成通用情感詞典篩選誹謗通用情感詞典篩選一帆風(fēng)預(yù)擔(dān)心井然有序艱苦可靠的薄弱合法的懲罰完美Word2Vec詞典擴(kuò)充敗下陣來Word2Vec詞典擴(kuò)充愛崗敬業(yè)變相漲價大好時機(jī)操作失誤高回報炒魷魚絕對優(yōu)勢大跌眼鏡可喜成績表15.2:中文詞典的情緒詞匯文本相似度文本與文本的相似度經(jīng)常也可以透露重要的信息。例如,研究表明公司上市披露中與近期其他上市公司的披露不同的信息可以有效降低上市過程中的信息不對稱以及IPO折價現(xiàn)象。另外,不同公司對其產(chǎn)品或商業(yè)模式說明的文字的相似性可以用來衡量公司之間的競爭關(guān)系。計算文本相似度的方法非常簡單,只需要統(tǒng)計的兩個文本的詞頻并對其進(jìn)行比較。例如有兩個文檔之與1。我們將文檔的詞頻整理成一個向量。以表15.1為例,可以得到以下詞頻的向量:

21311datacentermanufacturerdeviceinvestmentconsumer文本相似度值得注意的是,在整理該向量時,該向量中應(yīng)該包含所有存在于i或j文檔的詞。如果有詞匯出現(xiàn)于i文檔,但是沒有出現(xiàn)于文檔,那么將該詞在1文檔向量中對應(yīng)的值為0。接下來,我們將兩個向量的相似性進(jìn)行比較。常用的比較方法是余弦相似性(CosineSimilarity):

該相似性度量的值在0于1之間,1表示完全相同。還有一種常用的方法是歐幾里得距離:

歐幾里得距離越小則說明兩個文檔相似性越高。歐幾里得距離與余弦相似性有著非常緊密的關(guān)系。歐幾里得相似性沒有強(qiáng)制對向量進(jìn)行縮放,因此長文本與短文本中的向量之間會有較大的歐幾里得距離。如果我們對兩個向量進(jìn)行縮放(除以向量的范數(shù)),那么歐幾里得距離與余弦相似性則呈嚴(yán)格的反向關(guān)系。詞嵌入詞嵌入(Wordembedding)是一種將單詞或短語轉(zhuǎn)換成向量的方法。在這種方法中,每一個單詞都會被賦予一個向量,這個向量捕捉到了該單詞的語義信息。詞嵌入的目的是將語言中的單詞或短語轉(zhuǎn)化為計算機(jī)可以更好理解的形式。原理:它依賴于“分布假說”,即相似的單詞會在相似的上下文中出現(xiàn)。因此,通過大量的文本數(shù)據(jù),我們可以訓(xùn)練模型來學(xué)習(xí)單詞之間的關(guān)系,并將這些關(guān)系映射到一個高維空間中,使得語義上相似的單詞在這個空間中彼此靠近。相比詞袋法詞向量能更好的從文本中得到精確且豐富的信息。舉例:常見的詞嵌入模型有Word2Vec,GloVe和FastText等。這些模型可以通過監(jiān)督學(xué)習(xí)或無監(jiān)督學(xué)習(xí)來訓(xùn)練,以捕捉單詞之間的各種關(guān)系。使用詞嵌入可以極大地改善各種自然語言處理任務(wù)的性能,包括但不限于情感分析、機(jī)器翻譯和問答系統(tǒng)等。它為理解和處理自然語言提供了一個強(qiáng)大而靈活的工具。我們將簡單介紹Word2Vec模型。詞嵌入——Word2VecWord2Vec是一個經(jīng)典的詞嵌入模型。主要有兩種架構(gòu):CBOW(連續(xù)詞袋模型)和Skip-gram。這兩種方案達(dá)到的效果略微不同,但是總體思路類似。接下來,我們將簡單介紹連續(xù)詞袋模型。連續(xù)詞袋模型中我們將掩蓋掉一個詞,模型需要通過該詞周圍的語境來猜測掩蓋掉的詞是哪一個。以之前微軟財報段落中的第一句為例。原文是:TheinvestmentswearemakingincloudandAlinfrastructureanddeviceswillcontinuetoincreaseouroperatingcostsandmaydecreaseouroperatingmargins.我們首先去掉文本中的停止詞。接下來將以每一個詞為中心創(chuàng)建一個小的移動窗口,窗口包括中心詞的前兩個及后兩個詞匯。我們用中心詞周圍的詞來推測中心詞。下面我們展示了前四個中心詞(刪除掉的詞匯是中心詞)以及其周圍的語境中的詞匯(方框中的其他詞):詞嵌入——Word2Vec1、investments,making,cloud,AI,infrastructure,devices,continue,increase,operating,costs,decrease,margins2、investments,making,cloud,AI,infrastructure,devices,continue,increase,operating,costs,decrease,margins3、investments,making,cloud,AI,infrastructure,devices,continue,increase,operating,costs,decrease,margins4、investments,making,cloud,AI,infrastructure,devices,continue,increase,operating,costs,decrease,margins接下來,我們將用一個淺層神經(jīng)網(wǎng)絡(luò)來完成任務(wù)(該神經(jīng)網(wǎng)絡(luò)有一個隱藏層)。圖15.1表示的是一個簡單的連續(xù)詞袋型神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)。詞匯的輸入編碼方案為獨熱編碼(one-hotencoding)。如果我們文本中有V個不同的詞匯那么我們向量中就應(yīng)該有V個元素,每一個元素對應(yīng)一個詞匯。每一個詞匯的編碼向量對于該詞匯的元素取值1,其他元素取值為0。因此每一個詞匯都是一個有一個元素為1,其他元素為0的向量。嵌入層的神經(jīng)元數(shù)量由我們決定。該層將輸入向量進(jìn)行線性組合,并改變向量的維度。隱藏層將嵌入層輸出的向量進(jìn)行平均。輸出層是一個Softmax函數(shù),輸出一個含有V個元素的向量。每一個元素含有的是一個對應(yīng)詞匯出現(xiàn)的概率。我們可以將這個向量與中心詞的向量進(jìn)行對比,并通過誤差來更新模型中的參數(shù)。詞嵌入——Word2Vec詞嵌入——Word2Vec圖15.1:連續(xù)詞袋模型當(dāng)我們訓(xùn)練好一個Word2Vec模型之后,我們可以將新的詞匯用獨熱向量的形式輸入該模型,嵌入層的輸出給我們提供詞嵌入向量。該向量的長度與嵌入層神經(jīng)元的數(shù)量一致。如果我們有幾個詞,那么我們可以獲得每個詞的嵌入向量并且取這些詞嵌入向量的平均值得到一個語句或段落的嵌入向量。我們可以使用該嵌入向量獲得豐富的文本信息。下面是一個經(jīng)典的詞向量的例子。如果我們使用嵌入向量表達(dá)詞語,我們甚至可以得到以下關(guān)系:詞嵌入——Word2Vec女王≈國王?男性+女性倫敦≈巴黎?法國+英國或是因此,用嵌入向量進(jìn)行文本比較可以取得非常好的效果。也可以用嵌入向量來分析其他金融文本中的信息。例如,有文獻(xiàn)用這些嵌入向量對股價變化進(jìn)行預(yù)測。研究發(fā)現(xiàn)使用詞嵌入方法比簡單的詞袋法效果明顯增強(qiáng)。拓展:數(shù)據(jù)獲取除了直接向數(shù)據(jù)供應(yīng)商購買數(shù)據(jù)之外,我們也可以通過互聯(lián)網(wǎng)獲取海量的文本數(shù)據(jù)。并且這些數(shù)據(jù)經(jīng)常是免費向我們開放的。接下來,我們將介紹兩種常用的數(shù)據(jù)獲取方式:網(wǎng)絡(luò)爬蟲以及API接口。網(wǎng)絡(luò)爬蟲:網(wǎng)絡(luò)爬蟲是一種自動化的計算機(jī)程序,用于在互聯(lián)網(wǎng)上收集信息和數(shù)據(jù)。它們的工作方式類似于蟲子在網(wǎng)上爬行,因此得名“爬蟲”。網(wǎng)絡(luò)爬蟲通過訪問網(wǎng)頁、解析HTML內(nèi)容和跟蹤鏈接來收集信息。網(wǎng)絡(luò)爬蟲的應(yīng)用非常廣泛,包括但不限于搜索引擎的搜索結(jié)果生成、數(shù)據(jù)挖掘、市場調(diào)研、價格比較、新聞聚合等。爬蟲可以自動化地訪問大量網(wǎng)頁,提取有用的信息,然后將其存儲或分析,以便用戶進(jìn)行檢索或分析。然而,網(wǎng)絡(luò)爬蟲也需要遵守一些道德和法律準(zhǔn)則。不得未經(jīng)許可訪問私人網(wǎng)站或敏感信息,也不能過于頻繁地請求網(wǎng)站,以免對服務(wù)器造成不必要的負(fù)擔(dān)。因此,在使用網(wǎng)絡(luò)爬蟲時,需要謹(jǐn)慎選擇目標(biāo)網(wǎng)站,并遵守相關(guān)規(guī)定和協(xié)議,以確保合法和合道德的數(shù)據(jù)收集行為。拓展:數(shù)據(jù)獲取API接口:API(ApplicationProgrammingInterface)是一種允許不同軟件應(yīng)用程序之間相互通信和交互的方式。它定義了一組規(guī)則和協(xié)議,允許一個應(yīng)用程序請求另一個應(yīng)用程序的功能或數(shù)據(jù),并以一種結(jié)構(gòu)化的方式進(jìn)行通信。通過API獲得數(shù)據(jù)的過程通常包括以下步驟:查找API:首先,您需要找到提供您所需數(shù)據(jù)的API。許多互聯(lián)網(wǎng)服務(wù)、社交媒體平臺、數(shù)據(jù)提供商和在線應(yīng)用程序都提供了API,允許開發(fā)者訪問其數(shù)據(jù)或功能。通常,這些API都會有官方文檔,其中包含了關(guān)于如何使用API的詳細(xì)信息。獲取API密鑰:許多API需要身份驗證,通常通過提供API密鑰或令牌來完成。您需要注冊并獲得這些密鑰,以便訪問API。密鑰通常用于標(biāo)識您的應(yīng)用程序,并控制訪問權(quán)限。發(fā)起API請求:一旦獲得了API密鑰,您可以使用編程語言(如Python、JavaScript等)編寫代碼,以發(fā)起API請求。這通常涉及使用HTTP請求(如GET、POST等)來訪問API的特定端點(URL)并傳遞所需的參數(shù)以指定您希望獲取的數(shù)據(jù)。處理API響應(yīng):API將會響應(yīng)您的請求,通常以JSON或XML等數(shù)據(jù)格式返回所請求的數(shù)據(jù)。您需要解析這個響應(yīng)并提取出您需要的信息。使用數(shù)據(jù):一旦您成功獲取了數(shù)據(jù),您可以將其用于您的應(yīng)用程序中,進(jìn)行分析、顯示、存儲或其他操作,根據(jù)您的需求來決定如何處理數(shù)據(jù)。程序:中文文本情緒分析接下來,我們將使用以下程序來解析之前招商銀行財務(wù)報告中段落的情緒。數(shù)據(jù)讀取及處理從posi_word.xlsx文件中讀取積極詞匯,轉(zhuǎn)化為列表形式從nega_word.xlsx文件中讀取消極詞匯,轉(zhuǎn)化為列表形式posi_list=pd.read_excel("posi_word.xlsx").values.flatten().tolist()nega_list=pd.read_excel("nega_word.xlsx").values.flatten().tolist()對讀取的詞匯列表進(jìn)行預(yù)處理,去除空白字符,并轉(zhuǎn)化為列表形式分別存儲在posi_words和nega_words中posi_words=[word.strip()forwordinposi_listifword.strip()!=""]nega_words=[word.strip()forwordinnega_listifword.strip()!=""]以讀取模式打開“zhaoshang_short.txt”文件,并將其內(nèi)容讀入text中withopen("zhaoshang_short.txt","r",encoding="utf-8")asfile:

text=file.read()程序:中文文本情緒分析定義tokenize函數(shù),用于對文本進(jìn)行分詞處理,返回分詞后的結(jié)果列表deftokenize(text):returnjieba.lcut(text)定義sentimentanalysis函數(shù),用于對文本進(jìn)行情感分析,返回積極詞匯數(shù)量、消極詞匯數(shù)量、情感得分和投資者情緒影響指數(shù)其結(jié)構(gòu)具體包含:1.對文本進(jìn)行分詞處理,得到詞匯列表tokens2.統(tǒng)計tokens中積極詞匯的數(shù)量,存儲在posi_count中3.統(tǒng)計tokens中消極詞匯的數(shù)量,存儲在nega_count中4.根據(jù)積極詞匯數(shù)量和消極詞匯數(shù)量計算情感得分,存儲在score中5.根據(jù)Sobel公式計算投資者情緒影響指數(shù),存儲在si中6.返回結(jié)果程序:中文文本情緒分析defsentiment_ana

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論