版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
基于人工智能技術(shù)的大數(shù)據(jù)分析方法研究進展費一鳴
(香港恒生大學(xué),香港,999077)
1大數(shù)據(jù)分析方法問題的提出
1.1大數(shù)據(jù)分析的重要性
大數(shù)據(jù)是人類發(fā)展過程中的重要資源,使我們必不可少的重要內(nèi)容。關(guān)注大數(shù)據(jù)技術(shù)的研究工作,可以充分挖掘大數(shù)據(jù)的內(nèi)在價值和科學(xué)知識,認識工業(yè)經(jīng)濟的快速發(fā)展。當下數(shù)據(jù)無所不在:在我國經(jīng)濟發(fā)展中,可以科學(xué)控制工業(yè)生產(chǎn)過程[1],從而實現(xiàn)產(chǎn)業(yè)經(jīng)濟結(jié)構(gòu)的調(diào)整,為我國經(jīng)濟發(fā)展注入新的活力。此外,大數(shù)據(jù)技術(shù)的應(yīng)用有效結(jié)合人工智能技術(shù),將智能制造應(yīng)用于社會制造,為制造業(yè)轉(zhuǎn)型做出巨大貢獻。
1.2技術(shù)路線
基于人工智能技術(shù)的大數(shù)據(jù)分析,智能是前提,離不開高端的技術(shù)支持。利用大數(shù)據(jù)、人工智能等技術(shù)和硬件,實現(xiàn)信息的實時動態(tài)采集,整合分析社會的需求,為社會決策作出最優(yōu)解。從收集數(shù)據(jù)到分析需求,再到數(shù)據(jù)整合、數(shù)據(jù)清洗、數(shù)據(jù)分析、深度培訓(xùn)、設(shè)計合適的方案,整個過程涉及大數(shù)據(jù)、人工智能等相關(guān)技術(shù)。
1.2.1大數(shù)據(jù)與Hadoop
根據(jù)麥肯錫全球研究院的定義,大數(shù)據(jù)一般是指大到足以捕獲、存儲、分析和處理超出傳統(tǒng)數(shù)據(jù)管理工具能力的非結(jié)構(gòu)化數(shù)據(jù)的集合。大數(shù)據(jù)只是為了實現(xiàn)某些公司或其他利益相關(guān)者的某些目標或運營策略而收集的大量數(shù)據(jù)。大數(shù)據(jù)技術(shù)在于將這些海里數(shù)據(jù)專業(yè)化處理成有價值的信息。
必須處理大量數(shù)據(jù)才能提取信息。首先要解決的問題是數(shù)據(jù)存儲問題。Hadoop工具具有分布式HDFS文件系統(tǒng)。初衷是在數(shù)百臺計算機上存儲大量數(shù)據(jù)。HDFS是提供的管理解決數(shù)據(jù)存儲問題。
1.2.2人工智能與Python
人工智能,英文縮寫是AI,研究的重點是人類的思維和意識,這種人類的行為是通過機器模擬,通過數(shù)學(xué)計算和分析來實現(xiàn)的。人工智能包括兩個非常重要的模塊:常用的機器學(xué)習和深度學(xué)習。
創(chuàng)建模型需要使用Python爬蟲技術(shù)從互聯(lián)網(wǎng)上獲取企業(yè)數(shù)據(jù)以外的數(shù)據(jù),這就需要用到Python中的Requests、Scrapy、Selenium、BeautifulSoup等庫。機器學(xué)習和深度學(xué)習只有在數(shù)據(jù)被抓取后才能進行。機器學(xué)習和深度學(xué)習以及整個人工智能領(lǐng)域中的大多數(shù)模型和算法都使用Python作為基礎(chǔ)語言。
2基于人工智能的大數(shù)據(jù)發(fā)現(xiàn)網(wǎng)絡(luò)技術(shù)設(shè)計
2.1大數(shù)據(jù)的網(wǎng)絡(luò)掃描處理
網(wǎng)絡(luò)掃描是使用電子系統(tǒng)識別、讀取和記錄數(shù)據(jù)的過程,以便未經(jīng)授權(quán)的數(shù)據(jù)可以通過檢查。其作用是加快數(shù)據(jù)驗證,保證數(shù)據(jù)安全,但對于人工智能技術(shù)平臺人員來說[2],查找數(shù)據(jù)存在難度,所以要解決這個問題,首先要對數(shù)據(jù)進行網(wǎng)絡(luò)掃描。
數(shù)據(jù)采用大數(shù)據(jù)掃描處理,它是對瀏覽量數(shù)據(jù)進行分類和定性分類的過程。這個過程中用到的參數(shù)叫做分辨率,是掃描的關(guān)鍵。
2.2大數(shù)據(jù)信息的提取
大數(shù)據(jù)信息的提取旨在從人工智能技術(shù)平臺的頁面瀏覽數(shù)據(jù)中獲取有價值的信息。現(xiàn)在數(shù)字處理應(yīng)用于構(gòu)建基于人工智能的大數(shù)據(jù)識別網(wǎng)絡(luò)。其基本思路如下:首先對提取的客戶瀏覽量數(shù)據(jù)進行預(yù)處理,然后確定大數(shù)據(jù)識別屬性,以便過濾他們出來。
2.3數(shù)據(jù)分析方法
2.3.1聚類分析法
聚類分析方法的主要特點是對通過相似性收集到的信息進行分組和分類,使信息以分段的形式呈現(xiàn)。這種方法論對看似雜亂無章的數(shù)據(jù)進行深入研究,根據(jù)分析的目標將數(shù)據(jù)劃分為不同的組。然后利用數(shù)據(jù)之間的聯(lián)系提取有價值的信息,發(fā)現(xiàn)信息的潛在價值。聚類分析方法有一定的缺點,因為數(shù)據(jù)信息本身的個性化,使得在計算統(tǒng)計時難以進行數(shù)據(jù)分析,也難以識別數(shù)據(jù)。
2.3.2人工神經(jīng)網(wǎng)絡(luò)分析方法
人工神經(jīng)網(wǎng)絡(luò)法是指試圖通過模擬大腦神經(jīng)網(wǎng)絡(luò)處理和存儲信息的方式,分析和抽象復(fù)雜而廣泛的數(shù)據(jù),接收和使用計算結(jié)果的方式來處理信息的方法。例如:人工神經(jīng)網(wǎng)絡(luò)法主要是在數(shù)學(xué)模型上建立算法,輸入神經(jīng)網(wǎng)絡(luò)的研究值都是數(shù)值型的。在收集相關(guān)數(shù)據(jù)時需要根據(jù)自身實際需要對相關(guān)數(shù)據(jù)進行分析。最好是進行數(shù)據(jù)分析,確保人工智能技術(shù)的應(yīng)用。
2.3.3相關(guān)性分析方法
相關(guān)性分析法是一種利用大數(shù)據(jù)揭示數(shù)據(jù)庫中不同信息之間關(guān)系的分析技術(shù)。相關(guān)性分析方法可以對采集到的數(shù)據(jù)和不能直接應(yīng)用的信息進行相關(guān)性分析,實現(xiàn)隱藏信息的挖掘和相應(yīng)的處理,識別數(shù)據(jù)的唯一性。這類分析方法具有更好的準確性和目的性,因此這類分析方法更常用于數(shù)據(jù)的精確分析,例如:在管理文件信息方面。
2.3.4特征數(shù)據(jù)分析方法
數(shù)據(jù)特征分析是一種基于數(shù)據(jù)質(zhì)量分析結(jié)果的數(shù)據(jù)分析方法.利用計算數(shù)據(jù)的特定相關(guān)特征集等方法,得到的人工智能結(jié)果可能更接近先前預(yù)期的數(shù)據(jù)分析結(jié)果或一致。所以使用這種方法進行數(shù)據(jù)分析可以更好地實現(xiàn)大規(guī)模數(shù)據(jù)分析。大數(shù)據(jù)時代,海量數(shù)據(jù)和信息呈現(xiàn)快速增長趨勢,給數(shù)據(jù)整理和分析帶來信息的使用困難。
2.4確定大數(shù)據(jù)發(fā)現(xiàn)的屬性
為了使大數(shù)據(jù)更容易識別,需要在識別描述中盡可能完整地描述大數(shù)據(jù)信息,但同時對大數(shù)據(jù)識別網(wǎng)絡(luò)本身的描述也很重要。另外,由于大數(shù)據(jù)的輸出結(jié)果是一個數(shù)據(jù)集,需要定義很多操作來滿足用戶的不同需求。因此,有必要明確大數(shù)據(jù)識別應(yīng)涵蓋的數(shù)據(jù)來源。
2.5實現(xiàn)大數(shù)據(jù)檢測網(wǎng)絡(luò)的建設(shè)
在基于人工智能的大數(shù)據(jù)發(fā)現(xiàn)中,網(wǎng)絡(luò)發(fā)現(xiàn)處理可以加快數(shù)據(jù)驗證速度,保證數(shù)據(jù)安全,然后根據(jù)大數(shù)據(jù)信息的提取確定大數(shù)據(jù)發(fā)現(xiàn)的屬性。
基于大數(shù)據(jù)發(fā)現(xiàn)完成大數(shù)據(jù)信息提?。灰揽看髷?shù)據(jù)檢測屬性的確定,使大數(shù)據(jù)檢測成為現(xiàn)實。完成關(guān)于構(gòu)建基于人工智能的大數(shù)據(jù)發(fā)現(xiàn)網(wǎng)絡(luò)的擬議研究。
3基于人工智能技術(shù)的大數(shù)據(jù)分析方法研究方向
3.1機器學(xué)習的大數(shù)據(jù)分析
機器學(xué)習是人工智能技術(shù)的組成部分之一,在當前大數(shù)據(jù)分析技術(shù)的研究階段[3],應(yīng)用機器學(xué)習已經(jīng)成為大數(shù)據(jù)分析技術(shù)中最重要的部分。技術(shù)人員利用機器學(xué)習技術(shù)有效討論當前大數(shù)據(jù)分析技術(shù),提高當前工作質(zhì)量,將大數(shù)據(jù)技術(shù)應(yīng)用到日常生活中。研究人員對大數(shù)據(jù)的分析從四個主要方面開始:大數(shù)據(jù)聚類、大數(shù)據(jù)關(guān)聯(lián)分析、大數(shù)據(jù)分類和大數(shù)據(jù)預(yù)測。研究人員在使用機器學(xué)習分析大數(shù)據(jù)技術(shù)時,需要結(jié)合現(xiàn)階段機器學(xué)習技術(shù)的實際情況[4],才能有效地將機器學(xué)習技術(shù)應(yīng)用到日常生活中。
例如,當研究人員使用機器學(xué)習分析大數(shù)據(jù)時,他們使用傳統(tǒng)的聚類算法對現(xiàn)階段的大量數(shù)據(jù)進行阻塞和簡化,然后將這些計算結(jié)果重新組合以實現(xiàn)大數(shù)據(jù)分析。其中,MapReduce是目前分布式計算的主流框架之一,研究人員可以使用該框架通過機器學(xué)習來實現(xiàn)數(shù)據(jù)分析。在研究傳統(tǒng)聚類算法時,由于現(xiàn)階段數(shù)據(jù)量較大,所有的研究工作都比較繁瑣。它是一種并行聚類算法,可以有效提高計算機處理速度來分析經(jīng)典大數(shù)據(jù)。
3.2深度學(xué)習的大數(shù)據(jù)分析
當前的大數(shù)據(jù)研究強調(diào)使用深度學(xué)習技術(shù),并為提高計算機操作質(zhì)量做出相應(yīng)貢獻。深度學(xué)習代表了這一階段人工智能技術(shù)的關(guān)鍵技術(shù),它要求公司員工在模型訓(xùn)練過程中注意對各種閾值和參數(shù)的迭代計算[5],以實現(xiàn)這一階段的計算機智能并構(gòu)建為這些隱藏階段構(gòu)建深度網(wǎng)絡(luò),逐漸適應(yīng)當前的工作質(zhì)量,并為大數(shù)據(jù)分析指明方向。
目前,深度學(xué)習技術(shù)研究取得了一定的進展,有力地支撐了我國經(jīng)濟和產(chǎn)業(yè)的發(fā)展?;赟park的分布式平臺可以利用內(nèi)存計算訓(xùn)練模型參數(shù),逐步構(gòu)建深度網(wǎng)絡(luò),提高大數(shù)據(jù)分析效率,為當前階段大數(shù)據(jù)探索指明方向。在深度神經(jīng)網(wǎng)絡(luò)分析中,研究人員重視算法工作,并借助信息論逐漸適應(yīng)當前工作的發(fā)展,明確整體數(shù)據(jù)中隱藏神經(jīng)元的數(shù)量。然后將大數(shù)據(jù)劃分為塊,并根據(jù)深度學(xué)習-訓(xùn)練步驟實現(xiàn)對各種數(shù)據(jù)的迭代計算,從而改變當前的工作質(zhì)量[6],提高深度學(xué)習模型的學(xué)習速度,提高相應(yīng)大數(shù)據(jù)分析技術(shù)的準確性,從而實現(xiàn)大數(shù)據(jù)的構(gòu)建。
3.3大數(shù)據(jù)分析的計算智能
在當前人工智能的發(fā)展中,計算智能是計算機研究的一個重要分支,借助現(xiàn)有的計算智能研究方法,可以高效處理大數(shù)據(jù)。研究人員重視傳統(tǒng)優(yōu)化算法的使用,有效利用計算智能技術(shù)實現(xiàn)大數(shù)據(jù)的高效處理。
基于群體智能的大數(shù)據(jù)分析技術(shù)是這一階段實現(xiàn)具有動態(tài)特性的大數(shù)據(jù)分析的重要手段。群體智能的大數(shù)據(jù)分析方法是這一階段分布式計算的一個重要分支,常用于大數(shù)據(jù)分析。目前的技術(shù)人員能夠基于粒子群優(yōu)化技術(shù)有效地處理大數(shù)據(jù)。該階段的研究人員基于數(shù)據(jù)拆分合并策略,實現(xiàn)了不同樣本的拆分,保持了原始數(shù)據(jù)之間的信息傳遞,有效地整合了不同的子集,從而提高了大數(shù)據(jù)分析的效率。目前,利用計算智能技術(shù),可以逐步建立起由數(shù)據(jù)存儲和并行計
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年湖北省咸寧市單招職業(yè)傾向性考試模擬測試卷附答案
- 中國裝配式建筑政策推動與建筑業(yè)降本增效路徑分析
- 求??坡?lián)盟協(xié)議書
- 江蘇返聘合同范本
- 汽修會員合同范本
- 汽車清洗合同范本
- 汽車贈予合同范本
- 沈陽市就業(yè)協(xié)議書
- 沙石協(xié)議合同范本
- 2025至2030中國接觸網(wǎng)作業(yè)車行業(yè)運營態(tài)勢與投資前景調(diào)查研究報告
- 皮影藝術(shù)資源引入初中美術(shù)教學(xué)的應(yīng)用研究
- 貴州省生態(tài)文明教育讀本(高年級) -教案(教學(xué)設(shè)計)
- 《財務(wù)會計-學(xué)習指導(dǎo)習題與實訓(xùn)》全書參考答案
- 2021大慶讓胡路萬達廣場商業(yè)購物中心開業(yè)活動策劃方案預(yù)算-67P
- 2022年福建翔安區(qū)社區(qū)專職工作者招聘考試真題
- 2023年考研考博-考博英語-湖南師范大學(xué)考試歷年真題摘選含答案解析
- 英語電影的藝術(shù)與科學(xué)智慧樹知到答案章節(jié)測試2023年中國海洋大學(xué)
- 2023-2024學(xué)年新疆維吾爾自治區(qū)烏魯木齊市小學(xué)數(shù)學(xué)六年級上冊期末??紲y試題
- GB/T 15814.1-1995煙花爆竹藥劑成分定性測定
- GB/T 11446.7-2013電子級水中痕量陰離子的離子色譜測試方法
- 中國地質(zhì)大學(xué)武漢軟件工程專業(yè)學(xué)位研究生實踐手冊
評論
0/150
提交評論