版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
主講人:XXX第九章非結(jié)構(gòu)化數(shù)據(jù)分析方法01文本分析方法02圖像分析方法03音頻分析方法目錄CONTENTS04視頻分析方法01文本分析方法文本書面語(yǔ)言的表現(xiàn)形式通常由具有完整、系統(tǒng)含義的一個(gè)或多個(gè)句子構(gòu)成文本分析從文本中提取特征項(xiàng)并進(jìn)行量化的方法體系文本內(nèi)容的定性和定量分析(一)文本分析的含義信息來源公眾公司披露的文本外部專業(yè)機(jī)構(gòu)發(fā)布的文本媒體報(bào)道文本社交網(wǎng)絡(luò)文本(一)文本分析的信息來源(二)文本分析的實(shí)施數(shù)據(jù)搜集與準(zhǔn)備文本分析使用的技術(shù)方法文本分析的實(shí)施01數(shù)據(jù)收集:從各信息來源獲取原始文本數(shù)據(jù)如數(shù)據(jù)庫(kù)、社交媒體、互聯(lián)網(wǎng)等信息來源數(shù)據(jù)清洗:對(duì)文本數(shù)據(jù)進(jìn)行一系列預(yù)處理包括去除HTML標(biāo)簽、糾正拼寫錯(cuò)誤、過濾停用詞、詞干化、詞形還原等文本分詞:將連續(xù)的字序列重新分成詞語(yǔ)序列,尤其適用于中文文本1.數(shù)據(jù)收集與準(zhǔn)備(二)文本分析的實(shí)施021.字典法:定義:基于預(yù)設(shè)的字典和規(guī)則識(shí)別目標(biāo)文檔中的詞匯,通過統(tǒng)計(jì)計(jì)算得到文本的量化特征文本分析步驟:識(shí)別詞語(yǔ)識(shí)別句子特征提取2.文本分析的技術(shù)方法(二)文本分析的實(shí)施022.人工判別法:定義:由專業(yè)人員對(duì)文本進(jìn)行分類和標(biāo)注,適用于需要高精度的文本分類任務(wù)優(yōu)勢(shì):基于人類的語(yǔ)言理解能力和專業(yè)知識(shí)與經(jīng)驗(yàn),克服字典法的局限性局限:人工識(shí)別工作量大2.文本分析的技術(shù)方法(二)文本分析的實(shí)施023.機(jī)器學(xué)習(xí)法:定義:利用訓(xùn)練樣本進(jìn)行反復(fù)訓(xùn)練,獲得具有文本信息分類能力的模型基于是否需要輸入人工標(biāo)簽的分類:有監(jiān)督的學(xué)習(xí)算法:根據(jù)人工標(biāo)注的素材來引導(dǎo)計(jì)算機(jī)模擬人類行為無監(jiān)督的學(xué)習(xí)算法:利用聚類算法來識(shí)別文本特征2.文本分析的技術(shù)方法(二)文本分析的實(shí)施(三)文本特征1.文本數(shù)量3.文本可讀性文本特征2.文本情緒4.文本相似度01文本數(shù)量定義:對(duì)文本數(shù)據(jù)集進(jìn)行的計(jì)數(shù),以度量與指定主體相關(guān)的某類文本的累計(jì)數(shù)量度量方法:計(jì)數(shù)特定時(shí)間段內(nèi)或數(shù)據(jù)集內(nèi)的文本條目數(shù)02文本情緒定義:文本所表達(dá)的情感極性
(如積極、消極、中性)或情感類別
(如喜悅、悲傷、憤怒)度量方法:字典法(三)文本特征03文本可讀性定義:衡量文本是否便于理解度量方法:Fog指數(shù)(Li,2008)04文本相似度定義:衡量?jī)蓚€(gè)文本之間的相似程度度量方法基于關(guān)鍵詞匹配將文本映射到向量空間,計(jì)算余弦相似度深度學(xué)習(xí)算法(三)文本特征問題的提出分析師報(bào)告中的定性文本表述能否為信息使用者提供定量預(yù)測(cè)以外的增量信息理論分析與研究假設(shè)研究假設(shè):分析師報(bào)告總體文本語(yǔ)氣更積極(消極),投資者對(duì)有利(不利)定量預(yù)測(cè)信息的反應(yīng)更強(qiáng)研究設(shè)計(jì)與方法文本分析方法:樸素貝葉斯機(jī)器學(xué)習(xí)方法計(jì)算分析師報(bào)告層面總體語(yǔ)氣研究結(jié)果分析師報(bào)告文本意見更積極(消極)時(shí),投資者對(duì)有利(不利)的分析師定量預(yù)測(cè)的反應(yīng)更強(qiáng)烈(四)圖像分析在會(huì)計(jì)學(xué)術(shù)研究中的應(yīng)用示例未來發(fā)展可考慮將文本信息整合到大數(shù)據(jù)的分析框架下02局限現(xiàn)有文獻(xiàn)從文本中提取的對(duì)象特征碎片化,未充分考慮各類文本特征間影響傳統(tǒng)的文本分析框架中,僅考慮文本自身,未考慮所研究的文本信息在各類文本中的位置01(五)文本分析的局限和未來02圖像分析方法圖像的定義“圖”指用點(diǎn)、線、符號(hào)、文字和數(shù)字等描繪事物的幾何特征、形態(tài)、位置及大小“像”是人的視覺系統(tǒng)所接受的圖在人腦中所形成的印象或認(rèn)識(shí)圖像分析的定義將數(shù)學(xué)模型和計(jì)算機(jī)算法結(jié)合處理圖像,用來分析圖像的底層特征和上層結(jié)構(gòu),提取智能性信息,對(duì)圖像進(jìn)行理解和解釋圖像分析過程對(duì)圖像的預(yù)處理、特征提取、分類和解釋數(shù)字圖像已轉(zhuǎn)換為由邏輯0和l組成的計(jì)算機(jī)可讀二進(jìn)制格式的圖像圖像分析技術(shù)主要關(guān)注數(shù)字圖像的處理(一)圖像分析的含義與信息來源圖像的信息來源企業(yè)管理層與證券分析師的照片高管社交賬戶頭像年報(bào)中的董事長(zhǎng)簽名審計(jì)報(bào)告中的注冊(cè)會(huì)計(jì)師簽名腦電圖衛(wèi)星云圖(一)圖像分析的含義與信息來源數(shù)據(jù)來源數(shù)據(jù)庫(kù)
財(cái)務(wù)報(bào)告互聯(lián)網(wǎng)公開數(shù)據(jù)第三方數(shù)據(jù)圖像預(yù)處理過程灰度化去噪對(duì)比度增強(qiáng)1.數(shù)據(jù)搜集和準(zhǔn)備02人工標(biāo)注法根據(jù)圖像內(nèi)容對(duì)圖像進(jìn)行分類和標(biāo)注軟件分析法提取圖像基本特征,并利用基本特征和標(biāo)注后的圖像數(shù)據(jù)集訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)模型,以輸出需要預(yù)測(cè)的特征2.圖像分析的技術(shù)方法01(二)圖像分析的實(shí)施①人臉特征會(huì)計(jì)學(xué)指標(biāo):面部吸引力、面部寬高比、面部可信度②簽名圖像特征定義:人們書寫或簽字時(shí)的潛意識(shí)行為會(huì)計(jì)學(xué)指標(biāo):簽名圖像的大?、苣X電圖和眼動(dòng)儀成像特征定義:使用腦部電極和眼動(dòng)追蹤眼鏡識(shí)別人類情緒的多模態(tài)圖形會(huì)計(jì)學(xué)指標(biāo):個(gè)體注意力③衛(wèi)星遙感成像特征定義:用于地球科學(xué)研究,包括生物圈、冰凍圈、水圈或大氣層的影響的分析產(chǎn)品會(huì)計(jì)學(xué)指標(biāo):燈光亮度指標(biāo)(三)圖像特征問題的提出審計(jì)師的自戀程度如何影響其出具的審計(jì)報(bào)告質(zhì)量理論分析與研究假設(shè)自戀審計(jì)師的積極自我認(rèn)知觀點(diǎn),對(duì)審計(jì)質(zhì)量呈現(xiàn)出正向和負(fù)向的影響,凈效應(yīng)取決于哪種力量占主導(dǎo)地位審計(jì)師自戀程度的度量獲取上市公司年報(bào)中審計(jì)合伙人的簽名圖像,使用ImageJ軟件測(cè)量簽名大小,衡量審計(jì)師自戀程度研究結(jié)果審計(jì)質(zhì)量隨著審計(jì)合伙人自戀程度的增加而提高(四)圖像分析在會(huì)計(jì)學(xué)術(shù)研究中的應(yīng)用示例未來發(fā)展企業(yè)發(fā)布圖像信息更生動(dòng)形象,圖像分析應(yīng)用場(chǎng)景將更廣泛圖像質(zhì)量提高,圖像分析準(zhǔn)確性不斷提高未來的圖像分析技術(shù)需要更快的處理速度和更低的功耗02局限圖像來源少圖像分析技術(shù)耗用大量計(jì)算資源有些圖像屬于瞬時(shí)圖像,只能代表一次性事件01(五)圖像分析的局限和未來03音頻分析方法聲音定義:由聲源引起的分子振蕩產(chǎn)生的機(jī)械波音頻定義:可以被電腦或其他設(shè)備處理、存儲(chǔ)和傳輸?shù)穆曇舻谋磉_(dá)形式音頻分析:定義:從音頻數(shù)據(jù)中抽取出信息、并為音頻信號(hào)賦予含義分類:語(yǔ)音分析
、音樂分析、一般聲音分析優(yōu)點(diǎn):提供言語(yǔ)無法表達(dá)的額外信息;幫助人們理解言語(yǔ)內(nèi)容;音頻中的信息難以被完全控制01(一)音頻分析的含義與信息來源會(huì)計(jì)學(xué)領(lǐng)域的音頻信息來源公司披露類音頻如電話會(huì)議公開宏觀會(huì)議類音頻如美國(guó)聯(lián)邦公開市場(chǎng)委員會(huì)FOMC會(huì)議的音頻交易場(chǎng)所環(huán)境聲音如芝加哥交易所國(guó)債期貨交易場(chǎng)所的日內(nèi)交易背景聲音02(一)音頻分析的含義與信息來源1.音頻的獲取2.音頻的預(yù)處理3.音頻的處理4.有效性的驗(yàn)證驗(yàn)證方法實(shí)驗(yàn)驗(yàn)證人工審查外部信息驗(yàn)證機(jī)器學(xué)習(xí)法步驟:提取特征向量、應(yīng)用機(jī)器學(xué)習(xí)模型、預(yù)測(cè)輸出特征方法分類:直接應(yīng)用音頻分析模型和訓(xùn)練機(jī)器學(xué)習(xí)模型人工識(shí)別法優(yōu)點(diǎn):較為靈活缺點(diǎn):成本高、可復(fù)制性低處理步驟格式轉(zhuǎn)換拆分其他預(yù)處理流程降噪對(duì)齊音頻現(xiàn)實(shí)的時(shí)間點(diǎn)獲取方法錄制從視頻中提取數(shù)據(jù)庫(kù)中獲取(最常用)(二)音頻分析的實(shí)施聲音情緒定義:衡量聲音的情緒和情感狀態(tài)度量方法:機(jī)器學(xué)習(xí)01聲音認(rèn)知失調(diào)標(biāo)記定義:反映在聲音中的個(gè)人認(rèn)知失調(diào)程度度量指標(biāo):說謊可能性02發(fā)言者個(gè)人特征特征內(nèi)容:性別、年齡、口音、幽默感特征提取方法:機(jī)器學(xué)習(xí)03(三)音頻特征13242.理論分析與研究假設(shè)財(cái)務(wù)錯(cuò)報(bào)的可能性與首席執(zhí)行官聲音中包含的認(rèn)知失調(diào)標(biāo)記的程度正相關(guān)1.問題的提出如何檢測(cè)財(cái)務(wù)錯(cuò)報(bào)3.研究設(shè)計(jì)使用商用LVA軟件Ex-SenseProR識(shí)別音頻中的認(rèn)知水平指標(biāo),度量認(rèn)知失調(diào)程度4.研究結(jié)果聲音認(rèn)知失調(diào)與公司的財(cái)務(wù)重述、重述公告日股價(jià)跌幅顯著正相關(guān)(四)音頻分析在會(huì)計(jì)學(xué)術(shù)研究中的應(yīng)用示例未來發(fā)展:音頻數(shù)量和種類的日趨豐富帶來研究潛力分析技術(shù)的應(yīng)用推動(dòng)音頻特征的進(jìn)一步豐富02局限可研究的音頻種類和樣本數(shù)量有限構(gòu)建獨(dú)特特征的成本較高01(五)音頻分析的局限和未來04視頻分析方法PART01視頻分析是從視頻中提取時(shí)間和空間維度特征的一系列方法,屬于計(jì)算機(jī)視覺領(lǐng)域。視頻包含音頻、視覺和文本等多種數(shù)據(jù),是信息高度密集型的數(shù)據(jù)類型。(一)視頻分析的含義與信息來源01視頻定義:對(duì)動(dòng)態(tài)形式視覺信息的記錄,其中包括一系列單個(gè)畫面,通常伴隨著音頻分類:數(shù)字視頻和模擬視頻視頻分析定義:從視頻中提取時(shí)間和空間維度特征的一系列方法,包括對(duì)象檢測(cè)、動(dòng)作識(shí)別、自動(dòng)化安全和監(jiān)督等多種技術(shù)PPT中視頻分析主要指數(shù)字視頻分析優(yōu)點(diǎn)
提供與特定主體個(gè)人特征
(如五官、身高、音色、性格)有關(guān)的信息傳遞溝通中的各類非言語(yǔ)線索(如表情、肢體動(dòng)作等)PART01視頻分析是從視頻中提取時(shí)間和空間維度特征的一系列方法,屬于計(jì)算機(jī)視覺領(lǐng)域。視頻包含音頻、視覺和文本等多種數(shù)據(jù),是信息高度密集型的數(shù)據(jù)類型。(一)視頻分析的含義與信息來源02視頻信息來源公司披露類視頻初創(chuàng)企業(yè)的推介視頻上市公司的上市路演視頻公司高管采訪類視頻新聞媒體對(duì)上市公司高管的采訪視頻公開宏觀會(huì)議類視頻如美國(guó)聯(lián)邦公開市場(chǎng)委員會(huì)會(huì)議1.視頻的獲取獲取來源數(shù)據(jù)爬取軟件或算法從互聯(lián)網(wǎng)中爬取錄制2.視頻的預(yù)處理預(yù)處理步驟匹配公司代碼視頻拆分視覺維度信息拆分(二)視頻分析的實(shí)施驗(yàn)證方法替代性度量方法驗(yàn)證人工審查4.有效性的驗(yàn)證機(jī)器學(xué)習(xí)法直接應(yīng)用視頻分析模型
訓(xùn)練機(jī)器學(xué)習(xí)模型人工識(shí)別法優(yōu)點(diǎn):可度量視頻觀看者的主觀感受缺點(diǎn):度量出的特征難以復(fù)制、成本過高且無法保證精確性3.視頻的處理(二)視頻分析的實(shí)施面部表情面部情緒:面部表達(dá)的情緒和情感狀態(tài)面部表情不對(duì)稱度:人臉一側(cè)相對(duì)于另一側(cè)的表情強(qiáng)度或肌肉參與程度的不對(duì)稱程度肢體語(yǔ)言身體擴(kuò)張程度:身體四肢
(手和腳)和頭部的擴(kuò)張程度溝通風(fēng)格與印象發(fā)言者的綜合特征:如整體溝通風(fēng)格、給觀眾留下的印象等(三)視頻特征01020304問題的提出管理層的身體運(yùn)動(dòng)是否與公司預(yù)測(cè)和估值信息中的有利報(bào)告以及公
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 湖北省十堰市東風(fēng)第五中學(xué)2025-2026學(xué)年七年級(jí)上學(xué)期10月月考數(shù)學(xué)試卷(含答案)
- 2025-2026學(xué)年廣東省揭陽(yáng)市普寧市九年級(jí)(上)期末數(shù)學(xué)試卷(含答案)
- 微生物考試題及答案
- 2022公司員工年度工作總結(jié)(5篇)
- 七年級(jí)道德與法治(上冊(cè))期中試卷及參考答案
- 班務(wù)工作總結(jié)(20篇)
- 讓生活更美好多彩的作文
- 復(fù)合鋼結(jié)構(gòu)技術(shù)發(fā)展要點(diǎn)
- 單位工程驗(yàn)收技術(shù)方法
- 機(jī)械制圖試題
- 公路工程施工安全技術(shù)與管理課件 第09講 起重吊裝
- 企業(yè)管理 華為會(huì)議接待全流程手冊(cè)SOP
- 2026年城投公司筆試題目及答案
- 北京市東城區(qū)2025-2026學(xué)年高三上學(xué)期期末考試英語(yǔ) 有答案
- 2025年煤礦安全規(guī)程新增變化條款考試題庫(kù)及答案
- 2025年教師師德師風(fēng)自查問題清單及整改措施范文
- 2026年及未來5年市場(chǎng)數(shù)據(jù)中國(guó)激光干涉儀行業(yè)發(fā)展監(jiān)測(cè)及投資戰(zhàn)略規(guī)劃研究報(bào)告
- 人工智能技術(shù)在小學(xué)語(yǔ)文閱讀教學(xué)中的實(shí)踐應(yīng)用課題報(bào)告教學(xué)研究課題報(bào)告
- 2026年廣東農(nóng)墾火星農(nóng)場(chǎng)有限公司公開招聘作業(yè)區(qū)管理人員備考題庫(kù)及參考答案詳解
- 國(guó)家電投集團(tuán)江蘇公司招聘筆試題庫(kù)2026
- 國(guó)家安全生產(chǎn)十五五規(guī)劃
評(píng)論
0/150
提交評(píng)論