【基于文本挖掘的可持續(xù)發(fā)展目標(biāo)特征分析模型的建立案例2500字】_第1頁
【基于文本挖掘的可持續(xù)發(fā)展目標(biāo)特征分析模型的建立案例2500字】_第2頁
【基于文本挖掘的可持續(xù)發(fā)展目標(biāo)特征分析模型的建立案例2500字】_第3頁
【基于文本挖掘的可持續(xù)發(fā)展目標(biāo)特征分析模型的建立案例2500字】_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

基于文本挖掘的可持續(xù)發(fā)展目標(biāo)特征分析模型的建立案例本文旨在挖掘互聯(lián)網(wǎng)企業(yè)披露的與實(shí)現(xiàn)可持續(xù)發(fā)展目標(biāo)相關(guān)的文本,對(duì)其進(jìn)行內(nèi)容分析。研究選擇百度、阿里巴巴、騰訊等互聯(lián)網(wǎng)企業(yè)披露的可持續(xù)發(fā)展目標(biāo)報(bào)告為研究目標(biāo),因?yàn)檫@些公司是國內(nèi)規(guī)模較大的互聯(lián)網(wǎng)企業(yè),其業(yè)務(wù)收入占中國互聯(lián)網(wǎng)百強(qiáng)企業(yè)總收入的25%以上,對(duì)經(jīng)濟(jì)的增長做出巨大貢獻(xiàn),此外營業(yè)利潤占總體比重近60%,是行業(yè)中最具影響力的參與者,他們定期在企業(yè)官網(wǎng)披露公司的大事記、綜合報(bào)告以及可持續(xù)發(fā)展報(bào)告等,報(bào)告中的部分或全部內(nèi)容闡述企業(yè)關(guān)于《變革我們的世界:2030可持續(xù)發(fā)展議程》所作出的貢獻(xiàn)。1.1數(shù)據(jù)獲取首先利用互聯(lián)網(wǎng)獲取這些企業(yè)披露的與可持續(xù)發(fā)展目標(biāo)相關(guān)的報(bào)告,例如可持續(xù)發(fā)展報(bào)告、企業(yè)社會(huì)責(zé)任報(bào)告、ESG報(bào)告等,報(bào)告來自各企業(yè)的官方網(wǎng)站,這些報(bào)告記錄了企業(yè)在一個(gè)時(shí)間段內(nèi)的可持續(xù)發(fā)展實(shí)施成果,將獲取的報(bào)告時(shí)間設(shè)置在2016年至2020年,該時(shí)間段的報(bào)告中涵蓋了企業(yè)為響應(yīng)聯(lián)合國在2015年提出的可持續(xù)發(fā)展目標(biāo)做出努力和貢獻(xiàn)的相關(guān)內(nèi)容。獲取到的10份報(bào)告平均長度約為90頁,最長為127頁,最短為42頁,其中包含了豐富的文本信息。在獲得報(bào)告后,通過數(shù)據(jù)預(yù)處理和利用文本挖掘的方法進(jìn)行進(jìn)一步的分析。1.2數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理主要分為三個(gè)階段,為文本格式轉(zhuǎn)換、文本分類和中文分詞及去停用詞。在信息披露監(jiān)管制度下,企業(yè)常以便攜式文檔格式(PortableDocudentFoemat,PDF)對(duì)利益相關(guān)方進(jìn)行公開信息的披露。PDF實(shí)現(xiàn)了方便閱讀的目的,但同時(shí)使得文本處理工具和軟件無法直接對(duì)PDF文檔中的內(nèi)容進(jìn)行處理和提取。因此,解析PDF文檔,即獲取文檔中的信息內(nèi)容成為數(shù)據(jù)預(yù)處理的第一步。通過光學(xué)字符識(shí)別技術(shù)(OpticalCharacterRecognition,OCR),本文把PDF文檔轉(zhuǎn)為TXT格式,以便進(jìn)行后續(xù)的處理。在獲取的信息中心,包括了大量的文本段落、圖片信息以及表格等多種類型的內(nèi)容,依據(jù)文本研究的需要,刪除字?jǐn)?shù)少于10的行以此來去除文本中的表格、標(biāo)題等信息,同時(shí)對(duì)文字中存在的少量錯(cuò)誤(如亂碼和錯(cuò)誤字符等)進(jìn)行人工修正。在文本分類的過程中,研究將報(bào)告中提及的一個(gè)事件、活動(dòng)或項(xiàng)目作為一個(gè)分析的單位,因?yàn)槠淇赡軙?huì)涉及到一個(gè)或多個(gè)與可持續(xù)發(fā)展目標(biāo)相關(guān)的關(guān)鍵主題。參考聯(lián)合國可持續(xù)發(fā)展目標(biāo)官方網(wǎng)站(https://sustainabledevelopment.UN.org)公布的材料,確定與每個(gè)可持續(xù)發(fā)展目標(biāo)相關(guān)的關(guān)鍵詞,將此作為對(duì)文本進(jìn)行分類的指標(biāo),為每個(gè)分析單位分配可持續(xù)發(fā)展目標(biāo)的組別。例如,包含貧困、貧窮和低收入等關(guān)鍵詞的事件被分配給可持續(xù)發(fā)展目標(biāo)1;將含有教育、學(xué)生等關(guān)鍵詞的活動(dòng)分配給可持續(xù)發(fā)展目標(biāo)4。接下來,完整閱讀已分配好的事件,可以獲取更多更詳細(xì)的識(shí)別指標(biāo),例如,生活困難、負(fù)擔(dān)不起和扶貧等關(guān)鍵詞可被添加為與可持續(xù)發(fā)展目標(biāo)1相關(guān)活動(dòng)的有效指標(biāo),學(xué)校培養(yǎng)、教學(xué)培訓(xùn)等關(guān)鍵詞可被添加為可持續(xù)發(fā)展目標(biāo)4的識(shí)別指標(biāo)。通過分類,可以根據(jù)文本信息用可持續(xù)發(fā)展目標(biāo)分配事件、項(xiàng)目和活動(dòng)。從報(bào)告中共分類獲得919條文本信息,形成了進(jìn)一步可進(jìn)行處理的文本語料數(shù)據(jù)集。本文使用Python的jieba模塊實(shí)現(xiàn)中文分詞和去停用詞,對(duì)文本語料數(shù)據(jù)集進(jìn)行分詞,添加自定義詞語如“云計(jì)算”、“政務(wù)云”、“全球化”、“海綿城市”等等;文本信息包含許多無意義的詞匯,結(jié)合停用詞表去除無意義的詞匯,在通用停用詞表的基礎(chǔ)上,依據(jù)多次分詞的結(jié)果,對(duì)最初的停用詞表進(jìn)行擴(kuò)展,添加無意義的高頻詞匯如“百度”、“阿里巴巴”、“阿里”、“騰訊”等。分詞及去停用詞后,構(gòu)成文本矩陣,矩陣的行表示與可持續(xù)發(fā)展目標(biāo)相關(guān)的事件,矩陣的列內(nèi)容為詞或字。1.3文本挖掘具體實(shí)現(xiàn)本文應(yīng)用文本挖掘的方法對(duì)文本信息進(jìn)行進(jìn)一步的分析。研究使用weka軟件用于基于關(guān)聯(lián)規(guī)則的文本挖掘過程,Vosviewer工具用于可視化的聚類結(jié)果呈現(xiàn)。本文使用的是關(guān)聯(lián)規(guī)則中的FP_Growth算法,通過構(gòu)建FP-tree和遞歸挖掘頻繁項(xiàng)集進(jìn)行規(guī)則的挖掘。Vosviewer工具運(yùn)用概率論的思想,它可以作為獨(dú)立假設(shè)下觀測到的同現(xiàn)頻率偏差的測度,可視化結(jié)果可以直觀地展現(xiàn)網(wǎng)絡(luò),具有很強(qiáng)的呈現(xiàn)能力。具體來說,第一,運(yùn)用weka軟件中的關(guān)聯(lián)規(guī)則分析模塊對(duì)文本進(jìn)行挖掘,對(duì)每個(gè)可持續(xù)發(fā)展目標(biāo)下的文本矩陣進(jìn)行轉(zhuǎn)換,將關(guān)鍵字以及關(guān)鍵詞作為列屬性,若行中出現(xiàn)該關(guān)鍵詞或關(guān)鍵字則在矩陣中相應(yīng)位置標(biāo)1,沒有則標(biāo)0,通過轉(zhuǎn)換,文本矩陣變成01矩陣,將生成的矩陣導(dǎo)入weka,通過屬性類型轉(zhuǎn)換和數(shù)據(jù)稀疏化后進(jìn)行關(guān)聯(lián)規(guī)則的分析,分析的結(jié)果一般以規(guī)則的形式給出,為了保證挖掘出的關(guān)聯(lián)規(guī)則的可靠性,研究將支持度的閾值設(shè)在0.1,將置信度的閾值設(shè)在0.8,得到的部分關(guān)聯(lián)規(guī)則結(jié)果如表1所示,每行表示一個(gè)可持續(xù)發(fā)展目標(biāo),一條規(guī)則中的關(guān)鍵詞置于一個(gè)單元格內(nèi),本文的研究不考慮關(guān)鍵詞的方向性。本文對(duì)文本數(shù)量大于5的可持續(xù)發(fā)展目標(biāo)文本集進(jìn)行研究,得到的可持續(xù)發(fā)展目標(biāo)2(零饑餓)文本數(shù)量過少,因此不展開關(guān)聯(lián)規(guī)則與文本聚類的實(shí)現(xiàn)。第二,將生成的結(jié)果輸入到Vosviewer中形成聚類可視化結(jié)果,根據(jù)挖掘出的關(guān)聯(lián)規(guī)則的結(jié)果,將出現(xiàn)在同一條關(guān)聯(lián)規(guī)則中的關(guān)鍵詞兩兩相連,構(gòu)建出關(guān)鍵詞網(wǎng)絡(luò),標(biāo)簽和關(guān)鍵詞的大小反映了關(guān)鍵詞之間建立連接的次數(shù),曲線的粗細(xì)反映了兩個(gè)相關(guān)關(guān)鍵詞之間的鏈接強(qiáng)度。表SEQ表\*ARABIC1部分關(guān)聯(lián)規(guī)則結(jié)果可持續(xù)發(fā)展目標(biāo)關(guān)聯(lián)規(guī)則中的關(guān)鍵詞目標(biāo)1鄉(xiāng)村,振興(1)脫貧,鄉(xiāng)村,發(fā)展(1)社會(huì),脫貧(0.88)目標(biāo)3員工,公益(0.94)發(fā)起,公益(0.83)組織,公益(0.81)目標(biāo)4數(shù)字,教育(1)扶貧,教育(1)教育,創(chuàng)新(0.88)目標(biāo)5鄉(xiāng)村,女性(1)保障,女性(1)困境,女性,平臺(tái)(0.86)目標(biāo)6環(huán)保,數(shù)據(jù)(1)公眾,環(huán)保,項(xiàng)目(0.86)公益,基金會(huì),環(huán)保(0.8)目標(biāo)7排放,數(shù)據(jù)中心,碳(1)效率,數(shù)據(jù)中心(0.88)能源,綠色(0.82)目標(biāo)8公司,管理,員工(1)文化,員工(0.9)員工,體系(0.83)目標(biāo)9服務(wù),互聯(lián)網(wǎng),技術(shù)(1)數(shù)據(jù),基礎(chǔ)設(shè)施,技術(shù)(0.89)數(shù)據(jù),人工智能,計(jì)算(0.88)目標(biāo)10產(chǎn)品,信息無障礙,人群(1)信息無障礙,技術(shù)(0.86)技術(shù),人群,互聯(lián)網(wǎng)(0.83)目標(biāo)11城市,技術(shù),數(shù)據(jù)(1)資源,融合,平臺(tái)(0.83)平臺(tái),參與,公益(0.83)目標(biāo)12消費(fèi),綠色(1)平臺(tái),碳,綠色(1)互聯(lián)網(wǎng),平臺(tái)(0.91)目標(biāo)13公眾,環(huán)境(1)環(huán)保,發(fā)展(1)環(huán)境,公眾,互聯(lián)網(wǎng)(1)目標(biāo)14自然,保護(hù)(1)守護(hù),公益(1)公益,活動(dòng),守

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論