數(shù)據(jù)分析與數(shù)據(jù)挖掘課件第2章 數(shù)據(jù)_第1頁(yè)
數(shù)據(jù)分析與數(shù)據(jù)挖掘課件第2章 數(shù)據(jù)_第2頁(yè)
數(shù)據(jù)分析與數(shù)據(jù)挖掘課件第2章 數(shù)據(jù)_第3頁(yè)
數(shù)據(jù)分析與數(shù)據(jù)挖掘課件第2章 數(shù)據(jù)_第4頁(yè)
數(shù)據(jù)分析與數(shù)據(jù)挖掘課件第2章 數(shù)據(jù)_第5頁(yè)
已閱讀5頁(yè),還剩49頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第2章數(shù)據(jù)目錄

CONTENTS1.52

2.12.22.3數(shù)據(jù)的屬性數(shù)據(jù)的基本統(tǒng)計(jì)描述數(shù)據(jù)的相似性與相異性Chapter2.1數(shù)據(jù)的屬性4

數(shù)據(jù)集由數(shù)據(jù)對(duì)象組成。一個(gè)數(shù)據(jù)對(duì)象代表一個(gè)實(shí)體。例如:銷售數(shù)據(jù)庫(kù):顧客、

商品、銷售醫(yī)療數(shù)據(jù)庫(kù):患者、醫(yī)生、診斷治療選課數(shù)據(jù)庫(kù):學(xué)生、教師、課程數(shù)據(jù)對(duì)象又稱為樣本、實(shí)例、數(shù)據(jù)點(diǎn)、對(duì)象或元組。數(shù)據(jù)對(duì)象用屬性描述。數(shù)據(jù)表的行對(duì)應(yīng)數(shù)據(jù)對(duì)象;列對(duì)應(yīng)屬性。2.1數(shù)據(jù)的屬性1.數(shù)據(jù)對(duì)象5

屬性(特征,變量)是一個(gè)數(shù)據(jù)字段,表示數(shù)據(jù)對(duì)象的一個(gè)特征。例如:客戶編號(hào)、姓名、地址等商品編號(hào)、商品名、價(jià)格、種類等2.1數(shù)據(jù)的屬性2.屬性(Attributes)6

標(biāo)稱屬性(nominal)二元屬性(binary)序數(shù)屬性(ordinal)數(shù)值屬性(numeric)區(qū)間標(biāo)度屬性(interval-scaled)比率標(biāo)度屬性(ratio-scaled)2.1數(shù)據(jù)的屬性3.屬性類型7

標(biāo)稱屬性(nominalattribute):類別,狀態(tài)或事物的名字每個(gè)值代表某種類別、編碼或狀態(tài),這些值不必具有有意義的序,可以看做是枚舉的例如:頭發(fā)顏色={赤褐色,黑色,金色,棕色,褐色,灰色,白色,紅色}也可以用數(shù)值表示這些符號(hào)或名稱,但并不定量地使用這些數(shù)。例如:婚姻狀況,職業(yè),ID號(hào),郵政編碼,

可以用0表示未婚、1表示已婚2.1數(shù)據(jù)的屬性3.屬性類型8

二元屬性(binaryattribute):布爾屬性,是一種標(biāo)稱屬性,只有兩個(gè)狀態(tài):0或1。對(duì)稱的(symmetric):兩種狀態(tài)具有同等價(jià)值,且具有相同的權(quán)重。例如:性別非對(duì)稱的(asymmetric):其狀態(tài)的結(jié)果不是同樣重要。例如:體檢結(jié)果(陰性和陽(yáng)性),慣例:重要的結(jié)果用1編碼(如,HIV陽(yáng)性)。2.1數(shù)據(jù)的屬性3.屬性類型9

序數(shù)屬性(ordinalattribute),其可能的值之間具有有意義的序或者秩評(píng)定(ranking),但是相繼值之間的差是未知的。例如:尺寸={小,中,大},軍銜,職稱序數(shù)屬性可用于主觀質(zhì)量評(píng)估例如:顧客對(duì)客服的滿意度調(diào)查。0-很不滿意;1-不太滿意;2-基本滿意;3-滿意;4-非常滿意2.1數(shù)據(jù)的屬性3.屬性類型10

數(shù)值屬性(numericattribute):定量度量,用整數(shù)或?qū)崝?shù)值表示區(qū)間標(biāo)度(interval-scaled)屬性:使用相等的單位尺度度量。值有序,可以評(píng)估值之間的差,不能評(píng)估倍數(shù)。沒(méi)有絕對(duì)的零點(diǎn)。例如:日期,攝氏溫度,華氏溫度比率標(biāo)度(ratio-scaled)屬性:具有固定零點(diǎn)的數(shù)值屬性。值有序,可以評(píng)估值之間的差,也可以說(shuō)一個(gè)值是另一個(gè)的倍數(shù)。例如:開(kāi)式溫標(biāo)(K),重量,高度,速度2.1數(shù)據(jù)的屬性3.屬性類型11

離散屬性(discreteAttribute):具有有限或者無(wú)限可數(shù)個(gè)值。有時(shí),表示為整型量。例如:郵編、職業(yè)或文庫(kù)中的字集二進(jìn)制屬性是離散屬性的一個(gè)特例連續(xù)屬性(ContinuousAttribute):屬性值為實(shí)數(shù),一般用浮點(diǎn)變量表示。例如,溫度,高度或重量,實(shí)際上,真實(shí)值只能使用一個(gè)有限的數(shù)字來(lái)測(cè)量和表示。2.1數(shù)據(jù)的屬性離散屬性VS連續(xù)屬性Chapter2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述13

2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述目的數(shù)據(jù)的基本統(tǒng)計(jì)描述更好地識(shí)別數(shù)據(jù)的性質(zhì),把握數(shù)據(jù)全貌。中心趨勢(shì)度量、數(shù)據(jù)分散度量、數(shù)據(jù)的圖形表示中心趨勢(shì)度量均值、加權(quán)算數(shù)均值、中位數(shù)、眾數(shù)、中列數(shù)數(shù)據(jù)分散度量極差、分位數(shù)和四分位數(shù)、方差和標(biāo)準(zhǔn)差數(shù)據(jù)的圖形顯示箱圖、餅圖、頻率直方圖、散點(diǎn)圖均值(Mean)令x1,x2,…,xN為某數(shù)值屬性X的N個(gè)觀測(cè)值,該值集合的均值如式(2-1)所示。14

2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述1.中心趨勢(shì)度量例:有學(xué)生考試成績(jī)的值:60,45,33,77,80,100,100,90,70,65。

(2-1)截尾均值15

例:某同學(xué)的某一科的考試成績(jī):平時(shí)測(cè)驗(yàn)80,期中90,期末95??颇砍煽?jī)的計(jì)算方式是:平時(shí)測(cè)驗(yàn)占20%,期中成績(jī)占30%,期末成績(jī)占50%。這里,每個(gè)成績(jī)所占的比重為權(quán)重。那么,2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述1.中心趨勢(shì)度量加權(quán)算數(shù)平均數(shù)(WeightedMean)(2-2)對(duì)于i=1,…,N,每個(gè)值xi都有一個(gè)權(quán)重wi。

中位數(shù)(Median):正中間的值如果值有奇數(shù)個(gè),取中間值,否則取中間兩個(gè)數(shù)的平均值有序數(shù)據(jù)值的中間值如果觀察值有偶數(shù)個(gè),通常取最中間的兩個(gè)數(shù)值的平均數(shù)作為中位數(shù)。16

2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述1.中心趨勢(shì)度量例:數(shù)據(jù)按遞增排序?yàn)椋?3,45,60,65,70,77,80,90,100,100。有10個(gè)觀測(cè)值,因此中位數(shù)不唯一。中間兩個(gè)值為70和77,則中位數(shù)為17

分組數(shù)據(jù)中位數(shù)(GroupedMedian)2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述1.中心趨勢(shì)度量Me:中位數(shù),L:中位數(shù)所在組的下限,Sm-1:中位數(shù)所在組以下各組的累計(jì)頻數(shù),fm:中位數(shù)所在組的頻數(shù),d:中位數(shù)所在組的組距。根據(jù)N/2確定中位數(shù)所在的組

(2-3)18

分組數(shù)據(jù)中位數(shù)2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述1.中心趨勢(shì)度量例:表2-1為某公司員工薪酬的分組數(shù)據(jù),計(jì)算數(shù)據(jù)的近似分組數(shù)據(jù)中位數(shù)。SalaryFrequency15001699180170018994601900~19998502000~20992502100~21991302200~2299702300~2399202400~249910表2-1員工薪酬分組數(shù)據(jù)①判斷中位數(shù)區(qū)間:N=110+180+320+460+850+250+130+70+20+10=2400;N/2=1200;因?yàn)椋?10+180+320+460=1070<1200<1070+850=1920;所以:1900~1999為對(duì)應(yīng)區(qū)間。

19

2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述1.中心趨勢(shì)度量經(jīng)驗(yàn)公式:可能最高頻率對(duì)應(yīng)多個(gè)不同值,導(dǎo)致多個(gè)眾數(shù)例:數(shù)據(jù)按遞增序排序?yàn)椋?3,45,60,65,70,77,80,90,100,100。mode=100眾數(shù)(Mode):數(shù)據(jù)中出現(xiàn)最頻繁的值20

2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述1.中心趨勢(shì)度量例:數(shù)據(jù)按遞增序排序?yàn)椋?3,45,60,65,70,77,80,90,100,100。中列數(shù)(Midrange):數(shù)據(jù)集中最大值和最小值的算術(shù)平均值

最小值和最大值分別為33和100,則中列數(shù)為21

2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述2.數(shù)據(jù)分散度量例:數(shù)據(jù)按遞增序排序?yàn)椋?3,45,60,65,70,77,80,90,100,100。極差(又稱全距,Range):是集合中最大值與最小值之間的差距,即最大值減最小值后所得數(shù)據(jù)。100-33=6722

2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述2.數(shù)據(jù)分散度量分位數(shù)(Quantile):取自數(shù)據(jù)分布的每隔一定間隔上的點(diǎn),把數(shù)據(jù)劃分成基本上大小相等的連貫集合。給定數(shù)據(jù)分布的第k個(gè)q-分位數(shù)的值為x,使得小于x的數(shù)據(jù)值最多為k/q,而大于x的數(shù)據(jù)值最多為(q-k)/q,其中k是整數(shù),使得0<k<q。這里有q-1個(gè)q-分位數(shù)。圖2-1某變量X的數(shù)據(jù)統(tǒng)計(jì)描述顯示23

2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述2.數(shù)據(jù)分散度量四分位數(shù)(Quantile):把數(shù)據(jù)分布劃分成4個(gè)相等的部分,使得每部分表示數(shù)據(jù)分布的四分之一。這3個(gè)數(shù)據(jù)點(diǎn)稱為四分位數(shù)。圖2-1某變量X的數(shù)據(jù)統(tǒng)計(jì)描述顯示Q1:“下四分位數(shù)”;Q2:“中位數(shù)”;Q3:“上四分位數(shù)”。24

2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述2.數(shù)據(jù)分散度量四分位數(shù)極差(

InterQuartileRange,IQR):

Q1和Q3之間的距離。圖2-1某變量X的數(shù)據(jù)統(tǒng)計(jì)描述顯示

確定四分位數(shù)的位置:

Q1的位置=(n+1)/4=(n+1)×0.25

Q2的位置=2*(n+1)/4=(n+1)×0.5

Q3的位置=3*(n+1)/4=(n+1)×0.75

n表示項(xiàng)數(shù)25

2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述2.數(shù)據(jù)分散度量四分位數(shù)極差(

InterQuartileRange,IQR):

Q1和Q3之間的距離。

例:由8人組成的旅游小團(tuán)隊(duì)年齡分別為:17,19,22,24,25,28,34,37,求其年齡的四分位差。①計(jì)算Q1與Q3的位置:Q1的位置=(n+1)/4=(8+1)/4=2.25;Q3的位置=3*(n+1)/4=3*(8+1)/4=6.75②確定Q1與Q3的數(shù)值:Q1=19+(22-19)*0.25=19.75;Q3=28+(34-28)*0.75=32.5③計(jì)算四分位差:IQR=Q3-Q1=32.5-19.75=12.7526

2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述2.數(shù)據(jù)分散度量四分位數(shù)極差(

InterQuartileRange,IQR):

Q1和Q3之間的距離。圖2-1某變量X的數(shù)據(jù)統(tǒng)計(jì)描述顯示

另一種確定四分位數(shù)的位置:

Q1的位置=1+(n-1)×0.25

Q2的位置=1+(n-1)×0.5

Q3的位置=1+(n-1)×0.75

n表示項(xiàng)數(shù)方差(樣本方差):是每個(gè)數(shù)據(jù)分別與平均數(shù)之差的平方的平均數(shù)。總體方差:樣本方差:27

標(biāo)準(zhǔn)差:方差的平方根

2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述2.數(shù)據(jù)分散度量(2-5)28

例:有學(xué)生考試成績(jī)的值:60,45,33,77,80,100,100,90,70,65。標(biāo)準(zhǔn)差:2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述2.數(shù)據(jù)分散度量29

盒圖(又稱箱線圖,Box-plot),是一種用來(lái)描述數(shù)據(jù)分布的統(tǒng)計(jì)圖形,可以表現(xiàn)觀測(cè)數(shù)據(jù)的中位數(shù)、四分位數(shù)和極值等描述性統(tǒng)計(jì)量。2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述離群點(diǎn):繪制在離群閾值范圍外的點(diǎn)盒子外線延伸到最小和最大的觀測(cè)值中位數(shù)用盒內(nèi)線標(biāo)記盒子的端點(diǎn)在四分位數(shù)上,使得盒子長(zhǎng)度為四分位數(shù)極差I(lǐng)QR用盒子表示數(shù)據(jù)3.數(shù)據(jù)的圖形顯示30

盒圖(又稱箱線圖,Box-plot),是一種用來(lái)描述數(shù)據(jù)分布的統(tǒng)計(jì)圖形,可以表現(xiàn)觀測(cè)數(shù)據(jù)的中位數(shù)、四分位數(shù)和極值等描述性統(tǒng)計(jì)量。2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述3.數(shù)據(jù)的圖形顯示離群點(diǎn):第三個(gè)四分位數(shù)之上或者第一個(gè)四分位數(shù)之下至少1.5xIQR的值盒圖:分布直觀表示,體現(xiàn)五數(shù)概括五數(shù)概括:min,Q1,median,Q3,max31

餅圖(又稱圓形圖或餅形圖,PieGraph),通常用來(lái)表示整體的構(gòu)成部分及各部分之間的比例關(guān)系。餅圖顯示一個(gè)數(shù)據(jù)系列中各項(xiàng)的大小與各項(xiàng)總和的比例關(guān)系。2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述3.數(shù)據(jù)的圖形顯示例:使用餅圖表示不同年齡區(qū)間的人參與某活動(dòng)的情況表2-4某活動(dòng)覆蓋人群年齡區(qū)間參與人數(shù)19歲及以下27020-29歲124830-39歲108040-49歲28050歲及以上180圖2-4某活動(dòng)覆蓋人群餅圖32

頻率直方圖(又稱頻率分布直方圖,F(xiàn)requencyHistogram),是在統(tǒng)計(jì)學(xué)中表示頻率分布的圖形。2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述3.數(shù)據(jù)的圖形顯示例:使用直方圖表示學(xué)生數(shù)學(xué)成績(jī)的分布學(xué)號(hào)成績(jī)70160702717035670499705667069070710070866709777106071188712797138371455表2-5

學(xué)生數(shù)學(xué)成績(jī)圖2-5學(xué)生成績(jī)數(shù)據(jù)頻率直方圖33

散點(diǎn)圖(ScatterDiagram):將樣本數(shù)據(jù)點(diǎn)繪制在二維平面或三維空間上,根據(jù)數(shù)據(jù)點(diǎn)的分布特征,直觀地研究變量之間的統(tǒng)計(jì)關(guān)系以及強(qiáng)弱程度。2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述3.數(shù)據(jù)的圖形顯示例:使用散點(diǎn)圖表示物流收貨天數(shù)和客戶滿意度之間的關(guān)系物流收貨天數(shù)客戶滿意度64.51238365181.573.53482.511325122.5152表2-6物流收貨天數(shù)和客戶滿意度相關(guān)數(shù)據(jù)圖2-7物流收貨天數(shù)和客戶滿意度散點(diǎn)圖34

散點(diǎn)圖(ScatterDiagram)2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述3.數(shù)據(jù)的圖形顯示(a)

線性相關(guān)

(b)非線性相關(guān)

(c)不相關(guān)圖2-6散點(diǎn)圖中屬性之間的相關(guān)性35

散點(diǎn)圖(ScatterDiagram)2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述3.數(shù)據(jù)的圖形顯示(d)

正相關(guān)

(e)負(fù)相關(guān)圖2-6散點(diǎn)圖中屬性之間的相關(guān)性盒圖Boxplot描述五數(shù)概括餅圖PieGraph顯示一個(gè)數(shù)據(jù)系列中各項(xiàng)的大小與各項(xiàng)總和的比例關(guān)系直方圖Histogramx-axis表示數(shù)值大小,y-axis表示頻率36

散點(diǎn)圖Scatterplot每個(gè)值視作一個(gè)坐標(biāo)對(duì),作為一個(gè)點(diǎn)畫在平面上2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述基本統(tǒng)計(jì)圖Chapter2.3數(shù)據(jù)的相似性與相異性38

2.3數(shù)據(jù)的相似性與相異性相似性(Similarity)兩個(gè)對(duì)象相似程度的數(shù)量表示數(shù)值越高表明相似性越大通常取值范圍為[0,1]相異性(Dissimilarity)(例如距離)兩個(gè)對(duì)象不相似程度的數(shù)量表示數(shù)值越低表明相似性越大相異性的最小值通常為0相異性的最大值(上限)是不同的鄰近性(Proximity):相似性和相異性都稱為鄰近性39

2.3數(shù)據(jù)的相似性與相異性1.數(shù)據(jù)矩陣與相異矩陣數(shù)據(jù)矩陣:對(duì)象-屬性結(jié)構(gòu)行-對(duì)象:n個(gè)對(duì)象列-屬性:p個(gè)屬性二模矩陣(Twomodes)相異性矩陣:對(duì)象-對(duì)象結(jié)構(gòu)n個(gè)對(duì)象兩兩之間的鄰近度對(duì)稱矩陣單模(Singlemode)40

2.3數(shù)據(jù)的相似性與相異性2.標(biāo)稱屬性的鄰近性度量相異性p是對(duì)象的屬性總數(shù),m是匹配的屬性數(shù)目(即對(duì)象i和j狀態(tài)相同的屬性數(shù))相似性

41

2.3數(shù)據(jù)的相似性與相異性2.標(biāo)稱屬性的鄰近性度量例:計(jì)算

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論