付費(fèi)下載
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、智能新時(shí)代不可不知的數(shù)據(jù)常識(shí)人人都能學(xué)好的數(shù)字生活必修課開篇實(shí)例:Google的PageRank基于大數(shù)據(jù)的搜索引擎的原理The Web廣告索引庫Web Spider網(wǎng)絡(luò)爬蟲索引器索引庫Search用戶搜索示例:華東師范大學(xué)網(wǎng)頁排序結(jié)果問題:搜索引擎怎么知道哪個(gè)網(wǎng)頁排在前面,哪個(gè)排在后面呢?即如何衡量網(wǎng)頁的重要性?其他相關(guān)信息大規(guī)模網(wǎng)頁排名算法:PageRank網(wǎng)頁排名是網(wǎng)絡(luò)搜索引擎的核心PageRank 是著名網(wǎng)絡(luò)搜索引擎 Google 用于評(píng)測一個(gè)網(wǎng)頁 “重要性” 或 “影響力” 的一種方法PageRank的決定因素Google 的 PageRank是基于這樣一個(gè)理論:若 B 網(wǎng)頁上有連接
2、到 A 網(wǎng)頁的鏈接 ,說明 B 認(rèn)為 A 有鏈接價(jià)值,是一個(gè)“重要”的網(wǎng)頁一個(gè)網(wǎng)頁的重要性大致由下面兩個(gè)因素決定:該網(wǎng)頁的導(dǎo)入鏈接的數(shù) 這些導(dǎo)入鏈接的重要性BA嘗試計(jì)算PageRank值問題先有雞還是先有蛋?Internet的拓?fù)浣Y(jié)構(gòu)頁面C頁面A頁面B頁面D1009?5053可以用數(shù)據(jù)思維與模型來解決這類問題503例:右圖為一個(gè)有向圖,記為 D頂點(diǎn)組成的集合:V(D)=u,v,w弧組成的集合: A(D)=(u,w),(w,u),(u,v)有向圖的知識(shí) 有向圖 頂點(diǎn)的出度(Out-degree) 頂點(diǎn)的入度(In-degree)頂點(diǎn) u 的出度:頂點(diǎn) u 的入度:od(u)=2id(u)=1如何
3、表示這個(gè)圖,以便更好計(jì)算PageRank值呢? 為研究需要,我們定義鄰接矩陣對(duì)于下例 中的有向圖,其鄰接矩陣為鄰接矩陣1 2 3 4 5 6 7 8123 4 5 67 8超鏈接矩陣(Hyperlink Matrix) 進(jìn)一步,如果將鄰接矩陣中的元素除以對(duì)應(yīng)節(jié)點(diǎn)的出度,可以得到該圖的超鏈接矩陣超鏈接矩陣的特點(diǎn):所有元素非負(fù)每列元素的總和為1隨機(jī)矩陣 (Stochastic Matrix)馬爾可夫矩陣1 2 3 4 5 6 7 8123 4 5 67 8矩陣的特征向量和特征值I 是 H 的對(duì)應(yīng)于特征值 =1 的特征向量數(shù)學(xué)的奇妙:原來不知如何下手的互聯(lián)網(wǎng)頁的排序問題,現(xiàn)在已經(jīng)輕而易舉地變成了求解
4、矩陣H的特征向量問題定理:超鏈接矩陣H的最大特征向量即為該矩陣的PageRank值如何計(jì)算PageRank值?I010000000冪迭代方法I1 0 0.5 0.5 0 0 0 0 0I2 0 0.25 0 0.5 0.25 0 0 0I3I4.I60 0 0.0278 . 0.06 0.1667 0.0833 . 0.0675 0 0 . 0.03 0.25 0.1667 . 0.0675 0.1667 0.1111 . 0.0975 0.25 0.1806 . 0.2025 0.0833 0.0972 . 0.18 0.0833 0.3333 . 0.295I61 0.0600 0.067
5、5 0.0300 0.0675 0.0975 0.2025 0.1800 0.2950PageRank算法第一步:將互聯(lián)網(wǎng)作為一個(gè)有向圖,并用鄰接矩陣進(jìn)行表示;第二步:將該鄰接矩陣轉(zhuǎn)換為超鏈接矩陣;第三步:求解該超鏈接矩陣的最大特征向量(如冪迭代法);第四步:求得的特征向量中的值即為對(duì)應(yīng)網(wǎng)頁的PageRank值。PageRank算法 PageRank 算法中使用的數(shù)學(xué)知識(shí)包括:矩陣的性質(zhì)、特征值和特征向量、冪迭代方法等 這一漂亮的想法出自于Stanford大學(xué)1998年在讀博士研究生Larry Page和Sergey Brin第七次國際World Wide Web會(huì)議(WWW98)上的論文“T
6、he PageRank citation ranking:Bringing order to the Web”參考文獻(xiàn)L. Page, S. Brin, R. Motwani, T. Winograd, The PageRank Citation Ranking: Bringing Order to the Web, Technical Report, Stanford University, 1998.K. Bryan, T. Leise, The $25,000,000,000 eigenvector: The linear algebra behind Google,SIAM Revie
7、w, 48 (3), 569-81, 2006.P. Berkin, A survey on PageRank computing, Internet Mathematics, 2:73120, 2005.A-SATA model課程總覽Outline數(shù)據(jù)科學(xué)的數(shù)學(xué)基礎(chǔ)概率統(tǒng)計(jì)基礎(chǔ)統(tǒng)計(jì)建模:線性回歸模型數(shù)據(jù)科學(xué)的數(shù)學(xué)基礎(chǔ)數(shù)據(jù)科學(xué)的數(shù)學(xué)基礎(chǔ)Matrices & Linear Algebra(矩陣和線性代數(shù))Relational Algebra (關(guān)系代數(shù))Probability Theory(概率論)Statistics(統(tǒng)計(jì))Calculus(微積分)Machine Learning Foun
8、dation(機(jī)器學(xué)習(xí)基礎(chǔ))矩陣和線性代數(shù)矩陣(Matrix)是一個(gè)按照長方陣列排列的復(fù)數(shù)或?qū)崝?shù)集合。涉及到的機(jī)器學(xué)習(xí)應(yīng)用有SVD、PCA、最小二乘法、共軛梯度法等。線性代數(shù)是研究向量、向量空間、線性變換等內(nèi)容的數(shù)學(xué)分支。向量是線性代數(shù)最基本的內(nèi)容。中學(xué)時(shí),數(shù)學(xué)書告訴我們向量是空間(通常是二維的坐標(biāo)系)中的一個(gè)箭頭,它有方向和數(shù)值。在數(shù)據(jù)科學(xué)家眼中,向量是有序的數(shù)字列表。線性代數(shù)是圍繞向量加法和乘法展開的。矩陣和線性代數(shù)是一體的,矩陣是描述線性代數(shù)的參數(shù)。它們構(gòu)成了數(shù)據(jù)科學(xué)的龐大基石。標(biāo)量、向量和矩陣一款網(wǎng)路游戲智力敏捷力量矩陣的運(yùn)算矩陣的加法和減法矩陣的乘法:矩陣與數(shù)字的乘法矩陣與矩陣的乘法
9、矩陣的轉(zhuǎn)置逆矩陣Relational Algebra(關(guān)系代數(shù))它是一種抽象的查詢語言?;镜拇鷶?shù)運(yùn)算有選擇、投影、集合并、集合差、笛卡爾積和更名。關(guān)系型數(shù)據(jù)庫就是以關(guān)系代數(shù)為基礎(chǔ),在SQL語言中都能找到關(guān)系代數(shù)相應(yīng)的計(jì)算。The SELECT operationThe PROJECT operationThe JOIN operationProbability Theory(概率論)Bayes Theorem(貝葉斯定理)Random Variables(隨機(jī)變量)Cumulative Distribution Function(累計(jì)分布函數(shù))Continues Distributions(
10、連續(xù)分布)Probability Density Function(概率密度函數(shù))ANOVA(方差分析)Central Limit Theorem(中心極限定理)Monte Carlo Method(蒙特卡羅方法)Hypothesis Testing(假設(shè)檢驗(yàn))p-Value(P值)Estimation(估計(jì))Confidence interval(置信區(qū)間)Maximum Likelihood Estimate(極大似然估計(jì))Kernel Density Estimate(核密度估計(jì))Regression(回歸)Covariance(協(xié)方差)Correlation(相關(guān)性)Pearson c
11、orrelation coefficient(Pearson相關(guān)系數(shù))Causation(因果性)Least Squares Fitting(最小二乘法)Euclidean Distance(歐氏距離)統(tǒng)計(jì)學(xué)統(tǒng)計(jì)學(xué)(Statistics)是通過搜索、整理、分析、描述數(shù)據(jù)等手段,以達(dá)到推斷所測對(duì)象的本質(zhì),甚至預(yù)測對(duì)象未來的一門綜合性科學(xué)。事物的發(fā)展充滿了不確定性,而統(tǒng)計(jì)學(xué),既研究如何從數(shù)據(jù)中把信息和規(guī)律提取出來,找出最優(yōu)化的方案;也研究如何把數(shù)據(jù)當(dāng)中的不確定性量化出來。大數(shù)據(jù)告知信息但不解釋信息。打個(gè)比方,大數(shù)據(jù)是“原油”而不是“汽油”,不能被直接拿來使用。大數(shù)據(jù)時(shí)代,統(tǒng)計(jì)學(xué)是數(shù)據(jù)分析的靈魂。統(tǒng)
12、計(jì):起源起源:用單個(gè)數(shù)或者數(shù)的小集合捕獲可能很大值集的各種特征頻率度量:眾數(shù)位置度量:均值和中位數(shù)散度度量:極差和方差數(shù)據(jù)分布:頻率表、直方圖多元匯總統(tǒng)計(jì):相關(guān)矩陣、協(xié)方差矩陣匯總數(shù)據(jù)的初衷如公司的組織結(jié)構(gòu),高層期望看到工作概要,而不是細(xì)節(jié)統(tǒng)計(jì):設(shè)計(jì)標(biāo)準(zhǔn)差:想設(shè)計(jì)一個(gè)指標(biāo),可以用來衡量數(shù)據(jù)集合的發(fā)散性,經(jīng)過如下思考每個(gè)樣本的偏差累加就可以衡量 (real num - mean)加和 偏差較大的值應(yīng)該具有更大的權(quán)重 (real num - mean)2 集合中數(shù)字越多,方差越大,應(yīng)該與集合大小無關(guān) Mean(real num mean)2) 量綱與原始數(shù)據(jù)不同,無法比 Sqrt(Mean(rea
13、l num mean)2)最終結(jié)果,RMSE(均方根誤差)匯總數(shù)據(jù)指標(biāo)的設(shè)計(jì),源于非常樸素的思想貌似這個(gè)寬度就可以體現(xiàn)數(shù)據(jù)的波動(dòng)性大小5次約會(huì),每次遲到10分鐘,與一次遲到50分鐘,哪個(gè)更難接受?統(tǒng)計(jì)分析方法統(tǒng)計(jì)分析是基于統(tǒng)計(jì)理論,是應(yīng)用數(shù)學(xué)的一個(gè)分支。在統(tǒng)計(jì)理論中,隨機(jī)性和不確定性由概率理論建模。統(tǒng)計(jì)分析技術(shù)可以分為:Descriptive Statistics(描述性統(tǒng)計(jì)):解釋數(shù)據(jù)的一些特征;Exploratory Statistics Analysis(探索性統(tǒng)計(jì)分析):開始關(guān)注數(shù)據(jù)的內(nèi)在規(guī)律;Inferential Statistics(推斷性統(tǒng)計(jì)):怎樣用已知數(shù)據(jù)來進(jìn)行預(yù)測和判斷。
14、例如多元統(tǒng)計(jì)分析:回歸、因子分析、聚類和判別分析等。統(tǒng)計(jì)學(xué)家最關(guān)心的問題如何避免掉入數(shù)據(jù)的陷阱?關(guān)于統(tǒng)計(jì)學(xué)、概率論和數(shù)理統(tǒng)計(jì)的區(qū)別與聯(lián)系公眾號(hào)文章:說說統(tǒng)計(jì)學(xué)、概率論和數(shù)理統(tǒng)計(jì)這些老梗,2017-02-17微積分導(dǎo)數(shù)和積分極限:變化的終點(diǎn)復(fù)合函數(shù)多元函數(shù)與偏導(dǎo)數(shù)極值與最值數(shù)據(jù)科學(xué)中,常常遇到尋求曲線最值點(diǎn)的問題Machine Learning Foundation(機(jī)器學(xué)習(xí)基礎(chǔ))Numerical Variable(數(shù)值變量)數(shù)值變量和分量變量Supervised Learning(監(jiān)督學(xué)習(xí))常見于KNN、線性回歸、樸素貝葉斯、隨機(jī)森林等Unsupervised Learning(非監(jiān)督學(xué)習(xí))
15、常見于聚類、隱馬爾可夫模型等Input space , Output space and Feature space(輸入空間、輸出空間、和特征空間)Training Data and Test Data(訓(xùn)練集和測試集)Cross validation(交叉驗(yàn)證)Machine Learning Foundation(機(jī)器學(xué)習(xí)基礎(chǔ))Classifier(分類)Prediction(預(yù)測)Regression(回歸)Ranking(排序)Lift curve (Lift曲線)Receiver Operating Characteristic Curve(ROC曲線)Overfitting an
16、d underfitting(過擬合和欠擬合)Bias and Variance(偏差和方差)Classification Rate(分類正確率)Boosting(提升方法)Perceptron(感知機(jī))Neural Networks(神經(jīng)網(wǎng)絡(luò))思考題統(tǒng)計(jì)學(xué)、概率論和數(shù)理統(tǒng)計(jì)這幾個(gè)概念有什么區(qū)別?概率統(tǒng)計(jì)基礎(chǔ)什么是概率?現(xiàn)實(shí)世界里,充滿了各種隨機(jī)事件彩票中獎(jiǎng)、擲骰子的點(diǎn)數(shù)概率是用來刻畫隨機(jī)的一種數(shù)學(xué)工具概率的定義在隨機(jī)結(jié)果有限的情況下:定義樣本空間S:所有隨機(jī)結(jié)果組成的集合定義概率:滿足如下三個(gè)條件的,從樣本空間到實(shí)數(shù)的函數(shù)條件概率條件概率量化信息的價(jià)值獨(dú)立事件隨機(jī)變量刻畫隨機(jī)變量的方法正態(tài)分布中心極限定理置信區(qū)間置信區(qū)間:概率值等于a,且以期望為中心的對(duì)稱區(qū)域(在實(shí)際中a常常等于0.95)對(duì)于置信區(qū)間的兩個(gè)邊界值,它們的P-value為(1 - a)/2思考題概率統(tǒng)計(jì)在數(shù)據(jù)科學(xué)中的地位是怎樣的?統(tǒng)計(jì)建模:線性回歸模型統(tǒng)計(jì)模型與機(jī)器學(xué)習(xí)模型統(tǒng)計(jì)模型機(jī)器學(xué)習(xí)模型注重用數(shù)學(xué)的方法來搭建模型理論更加扎實(shí)模型容易理解和控制注重用工程的方法來搭建模型可以處
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年及未來5年市場數(shù)據(jù)中國礦用潛水排污泵市場全面調(diào)研及行業(yè)投資潛力預(yù)測報(bào)告
- 企業(yè)質(zhì)量管理體系制度
- 企業(yè)薪酬管理制度
- 企業(yè)合同管理制度
- 臨時(shí)麻醉管理制度
- 2026湖北省定向中國政法大學(xué)選調(diào)生招錄備考題庫附答案
- 2026電科華錄校園招聘備考題庫附答案
- 2026福建寧德市藍(lán)海旅游發(fā)展有限公司招聘參考題庫附答案
- 2026福建省面向上海財(cái)經(jīng)大學(xué)選調(diào)生選拔工作備考題庫附答案
- 2026福建福州市戰(zhàn)坂置業(yè)有限公司招聘4人備考題庫附答案
- 2025算力行業(yè)剖析及融資租賃業(yè)務(wù)模式探索
- 2026年及未來5年市場數(shù)據(jù)中國汽車車身電子控制行業(yè)全景評(píng)估及投資規(guī)劃建議報(bào)告
- 征信修復(fù)協(xié)議書
- 黑龍江省哈爾濱市五區(qū)2025-2026學(xué)年八年級(jí)(五四學(xué)制)上學(xué)期期中語文試題(含答案)
- 2026年寧夏賀蘭工業(yè)園區(qū)管委會(huì)工作人員社會(huì)化公開招聘備考題庫及參考答案詳解1套
- 黃芪中藥課件
- 赤峰市敖漢旗2025年網(wǎng)格員考試題庫及答案
- 船舶除銹涂裝課件
- 天貓店主體變更申請(qǐng)書
- 亞馬遜運(yùn)營年終總結(jié)
- 幼兒園老師面試高分技巧
評(píng)論
0/150
提交評(píng)論