付費(fèi)下載
下載本文檔
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1.1視覺(jué)的一般處理過(guò) 角點(diǎn)提取算 試從定義出發(fā),分析峰值信噪比PSNR對(duì)圖像質(zhì)量評(píng)價(jià)的優(yōu)缺點(diǎn) (FT(CT HCI評(píng)估,人機(jī)交互可用 簡(jiǎn)單設(shè)計(jì)準(zhǔn) 網(wǎng)絡(luò)攻防——云計(jì) 云計(jì)算的定 云計(jì)算的一個(gè)云計(jì)算的 云計(jì)算安全虛擬化技 換坐標(biāo)系 文本分 2012年考 網(wǎng)頁(yè)預(yù)處 確定網(wǎng)頁(yè)是否滿(mǎn)足特定用戶(hù)的算 HMM簡(jiǎn) HMM的三個(gè)基本問(wèn) 2011年考 8——大數(shù) 大數(shù)據(jù)的 需要革新性的技術(shù)應(yīng)用場(chǎng) Hadoop分布式計(jì)算平 MapReduce計(jì)算模 Hadoop生態(tài) 如何看待在過(guò)去半個(gè)世紀(jì)工程發(fā)展?你從中學(xué)到了什么經(jīng)驗(yàn)和教訓(xùn)?(2012年考題 如何評(píng)價(jià)工程各領(lǐng)域的發(fā)展趨勢(shì)對(duì)未來(lái)中國(guó)行業(yè)的影響,以及對(duì)生活的影響 李征1.1視覺(jué)的一般處理過(guò):右圖像中8個(gè)以上的匹配點(diǎn)求得兩臺(tái)機(jī)的外部參數(shù)包括世界坐標(biāo)系到坐標(biāo)系的轉(zhuǎn)角點(diǎn)提取算U越強(qiáng)WWT W1
x
yx’y’小于指定整數(shù),且不同時(shí)為零iH1exp(d2/D2i仿射配準(zhǔn)的處理流程(2011、2012年考題xj axir
13lryjr
yil1 l
11 P、QP、Q中選擇一個(gè)未嘗試的三點(diǎn)對(duì), p21 pp1 311 使用得到的變換矩陣,求P中所有特征點(diǎn)在Q中滿(mǎn)足度D(誤差,以像素為單位)1步。何坤試從定義出發(fā),分析峰值信噪比PSNR對(duì)圖像質(zhì)量評(píng)價(jià)的優(yōu)缺點(diǎn)峰值信噪比定義:PSNR=10
W?Hi1∑∑W?Hi
(3分W為圖像的寬,H為圖像的高
fR(i,j)為有噪聲圖fS(i,j)為噪聲原始圖像1)PSNR公式中fS(i,j)表示是原始未降質(zhì)的圖像,而實(shí)際生活中,這往往是不存在的PSNR只能用于階段 (3分分母1∑∑[
(ijf(ij)]2PSNR
ij (3分0
fR(i,j)fS(i,j)
1∑∑[f(i,j)?f (1分
ij 從定義出發(fā),分析傳統(tǒng)圖像處理方法中傅里葉變換(FT、余弦變換(CT(BCT(WT(2011年考題)(2011K-LCT變換的題FT公式:F(f)=∫f(t缺點(diǎn):a)被積函數(shù)積分上下限為(,),故只能反映整體信息 b)e?j2πft=cos(-jsin(2πft))余弦變換CT公式:CT(ω)=∫+∞f(tcos缺點(diǎn):積分區(qū)間仍然為(,),故只能反映整體信息, BCT公式:C(μ)=a(uN?1()
(2x+1)μπ],u=0,1,…N-u=0f
其中:a(μ)
√1?Nμ=2N√? μ=1,2NN{WTa,b
a,b(t)
(tb1|1|a
abR且a
=
(t)dt 1 t
Wa,b(x)a,b(t)f(x)dx
2
)faa為尺度因子,表示與頻率相關(guān)的伸縮,b優(yōu)點(diǎn):a)既能反映局部信息又能反映整體信息。是目前基于像素變換的最好變換。a)離散K-L變換:又稱(chēng)為霍特林(Holing)變換,以圖像的統(tǒng)計(jì)性質(zhì)為基礎(chǔ)的。變換核容的最好的變換。b)可以基于能量的物理模型得到。離的,二維不可分,一般情況下,K-L林濤人機(jī)交互和人機(jī)界面概 人機(jī)界面:是人與計(jì)算機(jī)之間“交互”的媒介和接口,包括軟、硬件。人機(jī)界面是人認(rèn)知心理學(xué)的三個(gè)基本問(wèn)(關(guān)鍵是要用自己的話(huà),舉例子信息在頭腦中是怎樣和加工的。1)編碼:是的第一個(gè)基本過(guò)程,把來(lái)自感官的信息變成系統(tǒng)能夠接收和使用的形緒體驗(yàn)會(huì)加強(qiáng)效果知道感官系統(tǒng)對(duì)于刺激并非悉數(shù)接收,所以時(shí)所獲得的編憶碼內(nèi)容。所以,碼是被選出來(lái)的信息中建立起來(lái)的。。,):()已經(jīng)編碼的信息必須在頭腦中得到保存,在一定時(shí)間后才可能被提取。神經(jīng)元的聯(lián)越密越形成定式這個(gè)定也經(jīng)回路神回路的成一般為有四感覺(jué)區(qū)內(nèi)的時(shí)很短如果息時(shí)通過(guò)加處理分類(lèi)會(huì)形成的印長(zhǎng)時(shí)間續(xù)增強(qiáng)會(huì)長(zhǎng)信息留的時(shí)這個(gè)階段也第一級(jí)信息在第一級(jí)停留時(shí)間后就進(jìn)入第二,這段信息的保留能和蛋白有關(guān)的信如果常使用它就會(huì)被遺忘會(huì)往下一級(jí)跳第三級(jí)內(nèi)就形成,人在使用計(jì)算機(jī)過(guò)程中存在什么局限性,要如何改進(jìn),給出具體例方式難以滿(mǎn)足計(jì)算機(jī)領(lǐng)域的擴(kuò)張,特別是虛擬現(xiàn)實(shí)、三維CAD與多等方面的發(fā)展對(duì)交HCI評(píng)估,人機(jī)交互可用可用性:ISO9241/11中的定義:一個(gè)產(chǎn)品可以被特定的用戶(hù)在特定的境況中,有效、可用性可用性HCILearnability可學(xué)習(xí)性Efficiency效率Memorability可 Errors出錯(cuò)Satisfaction滿(mǎn)意度User為什么要提出人機(jī)交前CPU的處理能力已不是制約計(jì)算機(jī)應(yīng)用和發(fā)展的,最關(guān)鍵的制約因素是人機(jī)交互。簡(jiǎn)單設(shè)計(jì)準(zhǔn)為什么認(rèn)知心理學(xué)和人機(jī)工程學(xué)是人機(jī)交互的基礎(chǔ)?(20112012年考題;知識(shí)又是怎樣用來(lái)指導(dǎo)的注意和行為。了解并遵循認(rèn)知心理學(xué)的原理是進(jìn)行人網(wǎng)絡(luò)攻防——云計(jì)云計(jì)算的定云計(jì)算的五大基礎(chǔ)特On-demandself-service按需自服務(wù):一個(gè)消費(fèi)者可以單方面獲取計(jì)算能力,例如服務(wù)時(shí)間和網(wǎng)絡(luò),根據(jù)需要自動(dòng)而無(wú)需人工與每個(gè)服務(wù)提供者進(jìn)行交互“云”是一個(gè)龐大Broadnetworkaccess泛在網(wǎng)絡(luò)接入:網(wǎng)絡(luò)使這些功能可以得到利用,這些功能通過(guò)標(biāo)的指定位置抽象(例如,國(guó)家,州或數(shù)據(jù)中心。資源的例子包括,處理,內(nèi)存,網(wǎng)絡(luò)RapidElasticity快速?gòu)椥裕涸谀承┣闆r下,功能可以快速,彈性的供應(yīng),快速地向外擴(kuò)MeasuredService可測(cè)量的服務(wù):云系統(tǒng)通過(guò)利用在一定程度上適合于不同的服務(wù)(例云計(jì)算的四種部署模PublicCloud公用云:主要客戶(hù)為中小型企業(yè),云基礎(chǔ)設(shè)施提供給廣大市民或者一個(gè)大PrivateCloud私有云:以大型企業(yè)為主要客戶(hù),云基礎(chǔ)設(shè)施是有一個(gè)單獨(dú)的組織機(jī)構(gòu)管CommunityCloud學(xué)術(shù)云:學(xué)術(shù)為主,一些組織共享云基礎(chǔ)設(shè)施,并支持特定社會(huì)共同HybridCloud混合云:以大型企業(yè)為主要客戶(hù),云基礎(chǔ)設(shè)施由兩個(gè)或多個(gè)云(私有,社云計(jì)算的三種服務(wù)模1):InfrastructureasaService基礎(chǔ)設(shè)施即服務(wù)(e.g.Amazon,租賃計(jì)算服務(wù)或服,提供給消用戶(hù)的功是加工,網(wǎng)絡(luò)和其它基本的計(jì)算資源,在這些資源上消費(fèi)者能存,部署的應(yīng)用程序,并可能是有限的控制選擇網(wǎng)絡(luò)組件(例如主機(jī)等)2)PaaS:PlatformasaService平臺(tái)(部署)即服務(wù)(e.g.云計(jì)算,應(yīng)用、數(shù)據(jù)、計(jì)算能力、空間向互聯(lián)網(wǎng)遷移,用戶(hù)通過(guò)sdk調(diào)用的服務(wù),部署自己的應(yīng)用),3)SaaS:SoftwareasaService即服務(wù)(e.g.web瀏覽器(Web統(tǒng),,甚至自己應(yīng)用程序功能,有限的用戶(hù)特定應(yīng)用程序可能是個(gè)例外配置設(shè)置。云計(jì)算的二大研究方:Centerized,:Diversif,云計(jì)算的一個(gè)Anytime,AnywherewithAnydevices,Accessing安全:隱私、合規(guī)風(fēng)險(xiǎn)標(biāo)準(zhǔn):沒(méi)有標(biāo)準(zhǔn)vs太多標(biāo)準(zhǔn)ROI:如何提高投資收益云計(jì)算的安全風(fēng)險(xiǎn)分除企業(yè)數(shù)據(jù)被出去的可能性。使用云計(jì)算服務(wù)之前應(yīng)事先向云計(jì)算服務(wù)商了解這些服務(wù)商是否從屬于服務(wù)器放所4)數(shù)據(jù)風(fēng)險(xiǎn):在云計(jì)算中,大量企業(yè)用戶(hù)的數(shù)據(jù)處于共享環(huán)境下,即使采用數(shù)據(jù),也不能保證做到萬(wàn)無(wú)一失。務(wù)商或被他人收購(gòu),企業(yè)客戶(hù)既有服務(wù)將被中斷或變得不穩(wěn)定。云計(jì)算,。么。例如知道特定的機(jī)器能夠調(diào)用服務(wù),因?yàn)闄C(jī)器在允許調(diào)用服務(wù)之前已經(jīng)經(jīng)過(guò)了管理安全系統(tǒng)通常需要一以追蹤,需要能夠?qū)λ械膮⑴c者進(jìn)行和認(rèn)證。,。需要被提供給應(yīng)用或云服務(wù)時(shí),它們會(huì)被。虛擬化技礎(chǔ)上而不是真實(shí)的基礎(chǔ)上運(yùn)行,他可以擴(kuò)大硬件的容量,簡(jiǎn)化的重新配置過(guò)程,減少軟FullVirtualization
GuestOSis ofVMM:Ring0
修改Guest 虛擬化優(yōu)點(diǎn)金屬安裝與恢復(fù)
無(wú)需VMM處理
缺點(diǎn)翻譯指令,性能開(kāi) 特定的OS+
代表VMWare,Hyper-應(yīng)用VMWareESX/vSphere,Hyer-V,CitrixXenServer,OracleVM,Amazon
KVM,Xen* Redhat,IBM,1)地心坐標(biāo)系(GC,GeoCntricCrtsiancoordiatesysem)i,ZX軸和YX與GrenWich2大地坐標(biāo)系(LLE,LongimeLattudendElevationreenWihX軸和YXYz軸表示高程,始終垂于當(dāng)?shù)厮嬷赶蛏显撟鴺?biāo)系大特點(diǎn)是對(duì)于同的組合情況下,其各個(gè)坐標(biāo)軸在空間的指向是隨時(shí)變化的。對(duì)于繞地球飛行的航天器來(lái)說(shuō),一般采用該坐標(biāo)系。3)投影坐標(biāo)系標(biāo)原點(diǎn)通常取在赤道平面與GreenWich子午線(xiàn)的交點(diǎn);X軸表示經(jīng)度,指向東方;Y軸表示坐標(biāo)系統(tǒng)的X軸和Y軸在不同時(shí)的指向可能會(huì)發(fā)生變化投影坐標(biāo)系對(duì)于總體觀察航坐標(biāo)系還需要借助某一種投影方式,才能完成與大地坐標(biāo)系和地心坐標(biāo)系的轉(zhuǎn)換。VegaPrime中提供了轉(zhuǎn)換函數(shù),建立了相應(yīng)的坐標(biāo)系和投影方式之后,可以利用函數(shù)進(jìn)行數(shù)據(jù)轉(zhuǎn)請(qǐng)簡(jiǎn)述LOD技術(shù)及實(shí)際應(yīng)用,列舉圖形學(xué)中的幾種坐標(biāo)系LOD技術(shù)稱(chēng)作多層次細(xì)節(jié)技術(shù)為了解決可視化仿真過(guò)程中系統(tǒng)的實(shí)時(shí)性和模型的真度之間的,按照當(dāng)前視點(diǎn)到模型對(duì)象距離的不同細(xì)節(jié)層次,距離近時(shí)調(diào)用復(fù)雜的模型,顯示的細(xì)節(jié),距離遠(yuǎn)時(shí)調(diào)用簡(jiǎn)單的模型,不必顯示細(xì)節(jié),以便減少計(jì)算量,保證系統(tǒng)的【另一種答OD技術(shù)是簡(jiǎn)化場(chǎng)景復(fù)雜性的有效,通常會(huì)為同一個(gè)物體建立幾實(shí)際應(yīng)用:例如飛機(jī)飛行模擬系統(tǒng)中,模擬視角,地形、天空等場(chǎng)景根據(jù)與觀察坐標(biāo)系通常是以視點(diǎn)的位置為原點(diǎn),通過(guò)用戶(hù)指定的一個(gè)向上的觀察向量(viewup成像窗口的情況下,可進(jìn)一步在屏幕坐標(biāo)系統(tǒng)中定義稱(chēng)為視圖區(qū)(viewport)的有界區(qū)域,視設(shè)備坐標(biāo)系(DeviceCoordinate,DC)是圖形設(shè)備上采用的與具體設(shè)備相關(guān)的坐標(biāo)系。設(shè)備于中華——文本挖文本分但是如果直接用分詞算法和詞頻統(tǒng)計(jì)方法得到的特征項(xiàng)來(lái)表示文本向量中的各個(gè)維,那么這個(gè)向量的度將是常的大這處的文本量不僅給續(xù)工作來(lái)巨大計(jì)算開(kāi),,,,,最有效的辦法就是通過(guò)特征選擇來(lái)1)使用詞向量來(lái)表示文檔,詞匯表V={t1,t2,…,t|v|}表示詞匯表Viti在文檔djBOOL0、1.(TFIDF特征項(xiàng)要能夠確實(shí)標(biāo)識(shí)文本內(nèi)容2特征項(xiàng)具有將目標(biāo)文本與其他文本相區(qū)分的能力3特征項(xiàng)的個(gè)數(shù)不能太多;)特征項(xiàng)分離要比較容易實(shí)現(xiàn)。在中文文本中可以采用或短語(yǔ)作特征抽的主要能是在損傷文信情況下盡減少要理的單數(shù)以此分類(lèi)聚類(lèi)理自動(dòng)以及用模式發(fā)現(xiàn)知發(fā)現(xiàn)等關(guān)方面研究都有非常重要的影響。通常根據(jù)某個(gè)特征評(píng)估函數(shù)計(jì)算各個(gè)特征的評(píng)分值,然后按評(píng)分值對(duì)這些特征進(jìn)行排序,選取若干個(gè)評(píng)分值最高的作為特征詞,這就是特征抽取(eareSeeco)。常用的特征選擇方法tf-idf、互信息(MutualInformation、期望交叉熵(ExpectedCrossEntropy、信息增益(InformationGain、χ2統(tǒng)計(jì)等等。常用分類(lèi)方法:貝葉斯、k近鄰、支持向量機(jī)聚類(lèi)方法:k均值2012確定網(wǎng)頁(yè)是否滿(mǎn)足特定用戶(hù)的算法網(wǎng)頁(yè)的提?。ㄆ胀╤tml網(wǎng)頁(yè)提取,站點(diǎn)RSS網(wǎng)頁(yè)提取多個(gè),而且它們給互聯(lián)網(wǎng)上的各種應(yīng)用的效率、效果、等帶來(lái)不利影響)URL的方法、基于聚類(lèi)的方法、基于抽取信息的方法。 信息增益法(informationgain)互信息法(mutualinformation)Theχ2test(chi-square)TF*IDF,TF稱(chēng)為詞頻,用于計(jì)算該詞描述文檔內(nèi)容的能力;IDF稱(chēng)為反文檔頻率,用于計(jì)算該詞區(qū)分文檔的能力。TF*IDF的指導(dǎo)思想建立在這點(diǎn)。另外還要考慮單詞區(qū)別不同類(lèi)別的能力,TF*IDF法認(rèn)為一個(gè)單詞出現(xiàn)的文本頻率越IDFTFIDF的TFIDF算法來(lái)計(jì)算特征詞的權(quán)重值是表示當(dāng)一個(gè)詞在這篇文檔中出現(xiàn)的頻率越高,權(quán)重值就應(yīng)該越大將所有詞的權(quán)值排序,根據(jù)需要可以有兩種:(1)選擇權(quán)值最大的某一固定數(shù)n個(gè);(2)選擇權(quán)值大于某一閾值的。一些實(shí)驗(yàn)表示,人工選擇關(guān)鍵詞,4∽7個(gè)比較合適,機(jī)選10∽15通常具有最好的覆蓋度和專(zhuān)指度。算方法應(yīng)該體現(xiàn)出HTML的結(jié)構(gòu)特征。特征詞在不同的標(biāo)記符中對(duì)文章內(nèi)容的反映程度不詞頻方法(Word過(guò)濾的影響也較小但是在信息檢索的研究中認(rèn)為有時(shí)頻率小的詞含有的信息因此,文檔頻次方法(文檔頻數(shù)(Frequency,DF)是最為簡(jiǎn)單的一種特征選擇算法,它指的是在整個(gè)且根據(jù)預(yù)先設(shè)定的闌值去除那些文檔頻次特別低和特別高的特征。文檔頻次通過(guò)在訓(xùn)練文在訓(xùn)練文本集中對(duì)每個(gè)特征計(jì)算它的文檔頻數(shù),DF值小于某個(gè)閾值則將其刪除,DF值大于某個(gè)閾值也將其去掉。因?yàn)樗麄兎謩e代表了“沒(méi)有代表性”和“沒(méi)有區(qū)分度”2種的情況。DF特征選取使稀有詞要么不含有用信息,要么太少而不足以對(duì)分類(lèi)產(chǎn)生影響,要么是噪音,所以可以刪去。DF的優(yōu)點(diǎn)在于計(jì)算量很小,而在實(shí)際運(yùn)用中卻有很好的90%x2統(tǒng)計(jì)的性能還不相上下。DF是最簡(jiǎn)單的特征項(xiàng),而且該方法的計(jì)算復(fù)雜度低,能夠勝任大規(guī)模的分類(lèi)任務(wù)?;バ畔?Mutual,用于表示信息之間的關(guān)系,是特征項(xiàng)和類(lèi)別的互信息體現(xiàn)了特征項(xiàng)與類(lèi)別的相關(guān)程度,是一種廣泛用于建立詞關(guān)聯(lián)統(tǒng)計(jì)模型的標(biāo)準(zhǔn)。互信息與期望交叉熵的不同在于沒(méi)有考慮特征出現(xiàn)的頻率,這樣導(dǎo)致互信互信息計(jì)算的時(shí)間復(fù)雜度類(lèi)似于信息增益,互信息的平均值就是信息增益。互信息的不實(shí)驗(yàn)數(shù)據(jù)顯示,互信息分類(lèi)效果,其次是文檔頻率、CC統(tǒng)計(jì),CHI統(tǒng)計(jì)分類(lèi)效果),特息,樣就會(huì)來(lái)了時(shí)和空間的額外銷(xiāo)2)根據(jù)互信函數(shù)的義,認(rèn)這些低頻詞攜帶較為類(lèi)別息,從而它們有同度的倚重.訓(xùn)練料庫(kù)沒(méi)達(dá)到一,3次)的詞條他.,大,,期望交叉熵(ExpectedCrossEntropy):交叉嫡,也稱(chēng)KL距離。它反映了文本類(lèi)的概率分布和在出現(xiàn)了某特定詞匯的條件下文本類(lèi)的概率分布之間的距離,詞匯w的交叉嫡越大,對(duì)文本類(lèi)分布的影響中的特征項(xiàng)。如果特征項(xiàng)和類(lèi)別強(qiáng)相關(guān)PCi|w就大,P(Ci)又很小的話(huà),則說(shuō)明該特征布之間的距離,t的交叉熵越大,對(duì)文本類(lèi)別分布的影響也越大。熵的特征選擇效果二次信息熵信息增益方法(Information某相關(guān)文本中對(duì)于該有多少信息。通過(guò)計(jì)算信息增益可以得到那些在正例樣,,,,,,信息增益是信息論中的一個(gè)重要概念,它表示了某一個(gè)特征項(xiàng)的存在與否對(duì)類(lèi)別的影響,定義為考慮某一特征項(xiàng)在文本中出現(xiàn)前后的信息熵之差。某個(gè)特征項(xiàng)的信息增益值越大,貢獻(xiàn)越大,對(duì)分類(lèi)也越重要。信息增益方法的不足之處在于它考慮了特征未發(fā)生的情況。特別是在類(lèi)分布和特征值分布高度不平衡的情況下,絕大多數(shù)類(lèi)都是負(fù)類(lèi),絕大多數(shù)特征都不出現(xiàn)。此時(shí)的函數(shù)值由不出現(xiàn)的特征決定,因此,信息增益的效果就會(huì)大大降低。信x2統(tǒng)計(jì)量方法x2統(tǒng)計(jì)量用于度量特征w和類(lèi)C之間的獨(dú)立性。當(dāng)特征w和類(lèi)C之間完全獨(dú)立的時(shí)候,x20。x2統(tǒng)計(jì)量和互信息的差別在于它是歸一化的統(tǒng)計(jì)量,但是它對(duì)低頻特征的區(qū)分效果也不好。X2統(tǒng)計(jì)得分的計(jì)算有二次復(fù)雜度,相似于互信息和信息增益。在X2X2是規(guī)格化評(píng)價(jià),X2評(píng)估分值對(duì)在同類(lèi)中的詞是可比的,但是X2統(tǒng)計(jì)對(duì)于低頻詞來(lái)說(shuō)是不可靠的。x2統(tǒng)計(jì)方法來(lái)進(jìn)行特征抽取是基于如下假設(shè):在指定類(lèi)別文本中出現(xiàn)頻率高的詞x2估計(jì)特征選擇算法的準(zhǔn)確率在實(shí)驗(yàn)中最高,其分類(lèi)效果受訓(xùn)練集影響較小,比較穩(wěn)定。而且在對(duì)文教類(lèi)和政治類(lèi)存在類(lèi)別交叉現(xiàn)象的文本進(jìn)行分類(lèi)時(shí),采用x2估計(jì)的分類(lèi)系統(tǒng)了優(yōu)于其它方法的分類(lèi)性能。X2估計(jì)的可靠性較好,便于對(duì)程序的控制,無(wú)需因決策樹(shù)(DecisionTrees)KNN算法K-aeteghbou)(aeewok)神經(jīng)網(wǎng)絡(luò)NeralNework)oosng()(VM)確定網(wǎng)頁(yè)是否滿(mǎn)足特定用戶(hù)的算法通過(guò)發(fā)現(xiàn),用戶(hù)的瀏覽行為反映了用戶(hù)的,兩者之間的關(guān)系具有如下特點(diǎn):、不同、職業(yè)的用戶(hù)偏好反映在用戶(hù)對(duì)商品的瀏覽行為上;b)用戶(hù)偏好具有動(dòng)態(tài)、移性,將其反映在用戶(hù)度上,即若用戶(hù)偏好發(fā)生轉(zhuǎn)移,則原來(lái)的度值減少;c)用戶(hù)對(duì)感的商品會(huì)高頻度地點(diǎn)擊和瀏覽,假設(shè)用戶(hù)對(duì)某種/某類(lèi)商品的瀏覽時(shí)間越長(zhǎng)、頻率越高,顧客對(duì)該種/類(lèi)商品越感,反映用戶(hù)偏好的度值也會(huì)隨之增加。利用以上特征可以構(gòu)建一個(gè)用戶(hù)度矩陣,根據(jù)建立的用戶(hù)對(duì)商品的度矩陣,利用Pearson相關(guān)度計(jì)量方法尋找與目標(biāo)用戶(hù)相似的鄰居集合,在此基礎(chǔ)上目標(biāo)主要就是文本間相似性計(jì)算基于概率模型的相關(guān)度(OkapiBM25(VSM的相關(guān)度計(jì)算方法Jaccard計(jì)算機(jī)語(yǔ)言學(xué)(統(tǒng)計(jì)自然語(yǔ)言處理,特別是隱馬爾科夫模型HMM簡(jiǎn)HMM(HiddenMarkovModel,隱馬爾科夫模型)是一種用參數(shù)表示的用于描述隨機(jī)過(guò)程統(tǒng)計(jì)特性的概率模型,是一個(gè)雙重隨機(jī)過(guò)程,由兩個(gè)部分組成:馬爾可夫鏈和一般隨機(jī)過(guò)程。其中馬爾可夫鏈狀態(tài)的轉(zhuǎn)移,用轉(zhuǎn)移概率描述。一般隨機(jī)過(guò)程狀態(tài)與觀察HMM模型,其的狀態(tài)轉(zhuǎn)換過(guò)程是不可觀察的,因HMM定義X代表一組狀態(tài)的集合,其中XS1,S2,...,SN},狀態(tài)數(shù)為N,tqt時(shí)刻的關(guān)。狀態(tài)的聯(lián)系就是從一個(gè)狀態(tài)可以到其它狀態(tài)。O代表一組可觀察符號(hào)的集合OV1,V2,...,VM,M是從每一狀態(tài)可能輸出的不同的觀狀態(tài)轉(zhuǎn)移概率分布Aaij},這里a、Pq、Sq、Sij、Nij、tjti££|}11。特殊情況下,每個(gè)狀態(tài)都可以一步到達(dá)其它任何狀態(tài),這時(shí)對(duì)任意(i,j)有aij>0。對(duì)于其他的HMMaij=0(i,jjB={bj(k)}j輸出相應(yīng)觀察值的概率,其中bj(k)=P{Ot=Vk|qt=Sj},1≤j≤N,1≤k≤M。p{pi,piP{q1Si},1i≤N由上,HMMl:lX,O,pAB)lpA,HMM的三個(gè)基本問(wèn)評(píng)估問(wèn)題OO1O2...OTlA,B,pP(O|l)2)問(wèn)題Q=q1q2...qT3)2011代碼實(shí)現(xiàn),不能描述得太籠統(tǒng)(13分)集 姓氏度:Pl(L)名字度Pf(F)構(gòu)詞度Pw(W)ame=L(’
Ps(Wi(2,定義ó=(Ps(W2)-Ps(W1))/min(Ps(W1),Ps(W2));定義初始化函數(shù)Initialize(),函數(shù)功能是計(jì)算姓氏度:Pl(L)名字度Pf(F)構(gòu)詞度Pw(W,ó,以及賦值B1,B2,并保存在堆內(nèi)存中。對(duì)輸入文本按常規(guī)切分得到單詞序列W1依據(jù)LastName和Name字表,建立潛在鏈(注意:一個(gè)句子通常不只包含一個(gè)潛在)并且依據(jù)LastName和Name字表中姓和名的度計(jì)算每一個(gè)潛在的Pw(name)掃描潛在鏈,當(dāng)Pw’(name)<B2時(shí),刪除此潛在(這里的B2為潛在的P(name根據(jù)保留在潛在鏈中的中文,建立按切分序列W2Ps(W1,Ps(W2,ó,分序列W1。S:{S1,…,Sn}表示狀態(tài)的集合;O:{O1,…,Om}表示觀察值的集合;P={pi}表示狀態(tài)的初始概率;Aaij}SiSjBbjkSjOkWW
w1,w2,w3,...,wm,NETNE
|W)Bayes
|W)
i
|ti1
|T)
|ti其中
|ti1)表示狀態(tài)ti1到狀態(tài)ti的轉(zhuǎn)移概率。
|ti表示在狀態(tài)ti件下觀察到wiWP(W)的值是確定的,可T*可以表示為:T*識(shí)別
g
HMMNE{A,B,P}WQ*
Q
|Ws(i)歸納后有
s
..w
|)is1(j)[maxs(i)aij]*bj(ws1i課堂筆記:文本挖掘之情感分析和觀點(diǎn)挖、抽取五元組<who,whatTime>,其中,who為評(píng)論者,what為評(píng)、設(shè)計(jì)一個(gè)英語(yǔ)句子邊界識(shí)別的啟發(fā)式算法,分析其優(yōu)缺點(diǎn)".?!"彭德中——神經(jīng)網(wǎng)神經(jīng)網(wǎng)絡(luò)在特征提取中的圖像壓縮與重建,圖像處理n1xi,i ,
2:PCAOja’sywT w(k1)w(k)(k)[y(k)x(k)
ywT
x:n維數(shù)據(jù),y1結(jié)果:n1維壓縮比為nnm維步驟如下:xi,i ,
mPCASolution:Orderedeigenvalues:1mwTCw w wTCw w theithPrincipal yw
,m Ey2EwT,m
wTCw12Ey2Ey212w1(kw1(k1)w1(k)y1(k)x(k)w1(k)w2(kw2(k1)w2(k)μy2(k)[x(k)w1(k)y1(k)w2(k)y2ExwyxwyT 1 1 1Ce 1可得知矩陣R的最大特征值為2w為2對(duì)應(yīng)的特征向量e2。3:壓縮圖像ywT
x:n維數(shù)據(jù),ym維數(shù)據(jù)
nm維壓縮比為n聲音數(shù)字水印技術(shù)的原數(shù)字水印(DigitalWatermarking)是往宿主數(shù)據(jù)(如圖像、聲音、信、文本等)中碼等)到音頻。音頻的所有者可以提取這些數(shù)據(jù)來(lái)宣布了他們的。信編編偽噪聲序列(密鑰原始聲信原始聲偽噪聲序列(密鑰最重要2個(gè)過(guò)程:編碼和 其中,y(n)x(nn0)x(nn01)x(nn0L1)p(L0n0n1,n0n2:Fy(n),p(nn0Fy(n),p(nn1Fy(n),p(nn201提取。如此,就8——大數(shù)大數(shù)據(jù)的2億+,每天幾億條;僅一個(gè)百萬(wàn)家庭級(jí)別城市的智能電網(wǎng)每月可產(chǎn)生數(shù)十億的智能電表數(shù)據(jù);20156300PB非結(jié)構(gòu)化數(shù)據(jù)無(wú)固定格式變化多Variety:文本///文檔等結(jié)(數(shù)據(jù)庫(kù)表格(XMLVelocity:海量數(shù)據(jù)的及時(shí)有效分析;用戶(hù)基數(shù)龐大/設(shè)備數(shù)量Value:?jiǎn)螚l數(shù)據(jù)本身并無(wú)太多價(jià)值,但龐大的數(shù)據(jù)量累積并隱藏了需要革新性的應(yīng)用場(chǎng) HadoopEC2364TBTIFF圖像—405KTIFF3.3MSGML405KXML—800KWebPNG圖像大數(shù)據(jù)案例:醫(yī)療、百貨、電子商務(wù)Hadoop分布式計(jì)算平它是由Apache開(kāi)發(fā)的一個(gè)開(kāi)源分布式計(jì)算平臺(tái)以分布式文件系(HDFS)Hadoop的應(yīng)用已經(jīng)遍地開(kāi)花,尤其是在互聯(lián)網(wǎng)領(lǐng)域。MapReduce計(jì)算模HadoopMap/Reuce義的Map/Reuce工作一個(gè)Ma/Reduce計(jì)算可兩個(gè)階段個(gè)段和一化簡(jiǎn)階HadoopMap/Reduce目標(biāo)MapReduce是一種編程模型(并不是自己開(kāi)發(fā)的編程工具用于大規(guī)模數(shù)據(jù)(大于1TB)的并行運(yùn)算。概念"Map()"和"Reduce(化簡(jiǎn))",和他們的主要思想,都是當(dāng)前的實(shí)現(xiàn)是指定一個(gè)Map()函數(shù),用來(lái)把一組鍵值對(duì)成一組新的鍵值對(duì),指定并發(fā)的Reduce(化簡(jiǎn))函數(shù),用來(lái)保證所有的鍵值對(duì)中的每一個(gè)共享相同的MapReduceMapReduceHadoop中,用于執(zhí)是用于管理和調(diào)度工作的,TaskTrackerHadoop集群中只有一臺(tái)HadoopDistributedFileSystem,HDFSHDFS有著高容錯(cuò)性(fault-tolerant)的特點(diǎn),并且設(shè)計(jì)用來(lái)部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(highthroughput)來(lái)應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集(largedataset)的應(yīng)用程序。HDFShadoop項(xiàng)目的一部分。Hadoop的分布式文件系統(tǒng)被設(shè)計(jì)在整個(gè)大的機(jī)器集群上可靠的大量的文件。該設(shè)計(jì)的靈感來(lái)源于谷歌文件系統(tǒng)。Hadoop的分布式文件系統(tǒng)將每一個(gè)文件視為塊序列來(lái),每個(gè)文件的塊大小和副本因子都是可配置的分布式文件系統(tǒng)里文件都是只能是寫(xiě)入,HadoopNameNodeDataNodeNameNodeHDFS允許用戶(hù)以文件的形式數(shù)據(jù)。從來(lái)看,文件被分成若干個(gè)數(shù)據(jù)塊,而且這若干個(gè)數(shù)據(jù)塊存放在一組DataNode上。NameNode執(zhí)行文件系統(tǒng)名空間操作,比如打開(kāi)、關(guān)閉、重命名文件或等,它也負(fù)責(zé)數(shù)據(jù)塊到具體DataNode的。DataNode負(fù)責(zé)除和工作。圖1-3為HDFS的體系結(jié)構(gòu)。Hadoop生態(tài)序員在Hadoop上編程的運(yùn)用靈活性。于是Hadoop提供了兩個(gè)解決方案,使得Hadoop編程Pig是一種編程語(yǔ)言,它簡(jiǎn)化了Hadoop常見(jiàn)的工作任務(wù)。Pig可加載數(shù)據(jù)、表達(dá)轉(zhuǎn)換數(shù)據(jù)以及最終結(jié)果。Pig內(nèi)置的操作使得半結(jié)構(gòu)化數(shù)據(jù)變得有意義(如日志文件。PigJavaHive在Hadoop中扮演數(shù)據(jù)倉(cāng)庫(kù)的角色。Hive添加數(shù)據(jù)的結(jié)構(gòu)在HDFS(hiveHDFS與Pig一樣,Hive的功能是可擴(kuò)展的。Pig和Hive總是令人困惑的。Hive更適合于數(shù)據(jù)倉(cāng)庫(kù)的任務(wù),Hive主要用于靜態(tài)的結(jié)構(gòu)以及需要經(jīng)常分析的工作。HiveSQL相似促使其成為Hadoop其他BI工具結(jié)合的理使用HadoopJavaAPIs可大幅削減代碼量。正因?yàn)槿绱耍琍ig仍然是吸引大量的開(kāi)發(fā)改善數(shù)據(jù):HBase、Sqoop以及中定位所需的數(shù)據(jù)并它。HBase利用MapReduce來(lái)處理的海量數(shù)據(jù)。同時(shí)Hive和Pig都可以與HBase組合使用,Hive和Pig還為HBase提供了語(yǔ)言支持,使得在HBase生在HDFS之上的Hive要慢4-5倍。同時(shí)HBase大約可PB級(jí)的數(shù)據(jù),與之相比HDFS應(yīng)用的一部分,包括日志、計(jì)算以及時(shí)間序列數(shù)據(jù)。Sqoop和Flume可改進(jìn)數(shù)據(jù)的互操作性和其余部分。Sqoop功能主要是從關(guān)系數(shù)據(jù)庫(kù)導(dǎo)入數(shù)據(jù)到Hadoop,并可直接導(dǎo)入到HFDS或HiveFlume設(shè)計(jì)旨在直接將流數(shù)據(jù)或日志數(shù)HDFS。Hive具備的友好SQL查詢(xún)是與繁多數(shù)據(jù)庫(kù)的理想結(jié)合點(diǎn),數(shù)據(jù)庫(kù)工具通過(guò)JDBC或ODBC數(shù)負(fù)責(zé)協(xié)調(diào)工作流程的ZooKeeper問(wèn)服務(wù)和如何配置,ZooKeeper而在Hadoop執(zhí)行的任務(wù)有時(shí)候需要將多個(gè)Map/Reduce作業(yè)連接到一起之間或許Ambari是加入Hadoop的項(xiàng)目,Ambari項(xiàng)目旨在將和管理等功能加入Hadoop項(xiàng)目。Ambari可幫助系統(tǒng)管理員部署和配置Hadoop,升級(jí)集群以及服務(wù)。還可APIHadoop現(xiàn)今相對(duì)中立,當(dāng)前支持AmazonEC2Rackspace服務(wù)。各類(lèi)組織需求的不同導(dǎo)致相關(guān)的數(shù)據(jù)形形,對(duì)這些數(shù)據(jù)的分析也需要多樣化的方法。Mahout提供一些可擴(kuò)展的機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典算法的實(shí)現(xiàn),旨在幫助開(kāi)發(fā)更加方便快捷地創(chuàng)建智能應(yīng)用程序。Mahout包含許多實(shí)現(xiàn),包括集群、分類(lèi)、過(guò)濾、頻繁子項(xiàng)挖掘洪玫——工程、測(cè)如何看待在過(guò)去半個(gè)世紀(jì)工程發(fā)展?你從中學(xué)到了什么經(jīng)驗(yàn)和教訓(xùn)(2012年考題(AViewof20thand21stC
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年中醫(yī)基礎(chǔ)理論知識(shí)與應(yīng)用實(shí)踐試題中藥知識(shí)與方劑運(yùn)用
- 2026年中考語(yǔ)文古詩(shī)文閱讀理解訓(xùn)練題目
- 2026年國(guó)際商務(wù)談判技巧練習(xí)題提升跨文化溝通能力
- 2026年歷史小說(shuō)鑒賞者初級(jí)試題模擬
- 客服售后回訪(fǎng)培訓(xùn)
- 2026年廣西工商職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能考試參考題庫(kù)含詳細(xì)答案解析
- 外貿(mào)知識(shí)分享教學(xué)
- 2026年硅湖職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能考試模擬試題含詳細(xì)答案解析
- 2026年天津交通職業(yè)學(xué)院?jiǎn)握芯C合素質(zhì)筆試模擬試題含詳細(xì)答案解析
- 2026年南充電影工業(yè)職業(yè)學(xué)院?jiǎn)握芯C合素質(zhì)考試參考題庫(kù)含詳細(xì)答案解析
- web開(kāi)發(fā)面試題及答案
- 《特種設(shè)備使用單位落實(shí)使用安全主體責(zé)任監(jiān)督管理規(guī)定》知識(shí)培訓(xùn)
- 口腔客服工作總結(jié)
- 醫(yī)院培訓(xùn)課件:《臨床輸血過(guò)程管理》
- 音樂(lè)作品制作與發(fā)行服務(wù)合同
- 制粒崗位年終總結(jié)
- 《中國(guó)心力衰竭診斷和治療指南2024》解讀(總)
- 《MSA測(cè)量系統(tǒng)分析》考核試題
- JB-T 14188.1-2022 激光切管機(jī) 第1部分:精度檢驗(yàn)
- XJ4830晶體管圖示儀說(shuō)明書(shū)
- (汪曉贊)運(yùn)動(dòng)教育課程模型
評(píng)論
0/150
提交評(píng)論