版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第2章數(shù)據(jù)目錄
CONTENTS1.52
2.12.22.3數(shù)據(jù)的屬性數(shù)據(jù)的基本統(tǒng)計(jì)描述數(shù)據(jù)的相似性與相異性Chapter2.1數(shù)據(jù)的屬性4
數(shù)據(jù)集由數(shù)據(jù)對(duì)象組成。一個(gè)數(shù)據(jù)對(duì)象代表一個(gè)實(shí)體。例如:銷售數(shù)據(jù)庫(kù):顧客、
商品、銷售醫(yī)療數(shù)據(jù)庫(kù):患者、醫(yī)生、診斷治療選課數(shù)據(jù)庫(kù):學(xué)生、教師、課程數(shù)據(jù)對(duì)象又稱為樣本、實(shí)例、數(shù)據(jù)點(diǎn)、對(duì)象或元組。數(shù)據(jù)對(duì)象用屬性描述。數(shù)據(jù)表的行對(duì)應(yīng)數(shù)據(jù)對(duì)象;列對(duì)應(yīng)屬性。2.1數(shù)據(jù)的屬性1.數(shù)據(jù)對(duì)象5
屬性(特征,變量)是一個(gè)數(shù)據(jù)字段,表示數(shù)據(jù)對(duì)象的一個(gè)特征。例如:客戶編號(hào)、姓名、地址等商品編號(hào)、商品名、價(jià)格、種類等2.1數(shù)據(jù)的屬性2.屬性(Attributes)6
標(biāo)稱屬性(nominal)二元屬性(binary)序數(shù)屬性(ordinal)數(shù)值屬性(numeric)區(qū)間標(biāo)度屬性(interval-scaled)比率標(biāo)度屬性(ratio-scaled)2.1數(shù)據(jù)的屬性3.屬性類型7
標(biāo)稱屬性(nominalattribute):類別,狀態(tài)或事物的名字每個(gè)值代表某種類別、編碼或狀態(tài),這些值不必具有有意義的序,可以看做是枚舉的例如:頭發(fā)顏色={赤褐色,黑色,金色,棕色,褐色,灰色,白色,紅色}也可以用數(shù)值表示這些符號(hào)或名稱,但并不定量地使用這些數(shù)。例如:婚姻狀況,職業(yè),ID號(hào),郵政編碼,
可以用0表示未婚、1表示已婚2.1數(shù)據(jù)的屬性3.屬性類型8
二元屬性(binaryattribute):布爾屬性,是一種標(biāo)稱屬性,只有兩個(gè)狀態(tài):0或1。對(duì)稱的(symmetric):兩種狀態(tài)具有同等價(jià)值,且具有相同的權(quán)重。例如:性別非對(duì)稱的(asymmetric):其狀態(tài)的結(jié)果不是同樣重要。例如:體檢結(jié)果(陰性和陽(yáng)性),慣例:重要的結(jié)果用1編碼(如,HIV陽(yáng)性)。2.1數(shù)據(jù)的屬性3.屬性類型9
序數(shù)屬性(ordinalattribute),其可能的值之間具有有意義的序或者秩評(píng)定(ranking),但是相繼值之間的差是未知的。例如:尺寸={小,中,大},軍銜,職稱序數(shù)屬性可用于主觀質(zhì)量評(píng)估例如:顧客對(duì)客服的滿意度調(diào)查。0-很不滿意;1-不太滿意;2-基本滿意;3-滿意;4-非常滿意2.1數(shù)據(jù)的屬性3.屬性類型10
數(shù)值屬性(numericattribute):定量度量,用整數(shù)或?qū)崝?shù)值表示區(qū)間標(biāo)度(interval-scaled)屬性:使用相等的單位尺度度量。值有序,可以評(píng)估值之間的差,不能評(píng)估倍數(shù)。沒(méi)有絕對(duì)的零點(diǎn)。例如:日期,攝氏溫度,華氏溫度比率標(biāo)度(ratio-scaled)屬性:具有固定零點(diǎn)的數(shù)值屬性。值有序,可以評(píng)估值之間的差,也可以說(shuō)一個(gè)值是另一個(gè)的倍數(shù)。例如:開(kāi)式溫標(biāo)(K),重量,高度,速度2.1數(shù)據(jù)的屬性3.屬性類型11
離散屬性(discreteAttribute):具有有限或者無(wú)限可數(shù)個(gè)值。有時(shí),表示為整型量。例如:郵編、職業(yè)或文庫(kù)中的字集二進(jìn)制屬性是離散屬性的一個(gè)特例連續(xù)屬性(ContinuousAttribute):屬性值為實(shí)數(shù),一般用浮點(diǎn)變量表示。例如,溫度,高度或重量,實(shí)際上,真實(shí)值只能使用一個(gè)有限的數(shù)字來(lái)測(cè)量和表示。2.1數(shù)據(jù)的屬性離散屬性VS連續(xù)屬性Chapter2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述13
2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述目的數(shù)據(jù)的基本統(tǒng)計(jì)描述更好地識(shí)別數(shù)據(jù)的性質(zhì),把握數(shù)據(jù)全貌。中心趨勢(shì)度量、數(shù)據(jù)分散度量、數(shù)據(jù)的圖形表示中心趨勢(shì)度量均值、加權(quán)算數(shù)均值、中位數(shù)、眾數(shù)、中列數(shù)數(shù)據(jù)分散度量極差、分位數(shù)和四分位數(shù)、方差和標(biāo)準(zhǔn)差數(shù)據(jù)的圖形顯示箱圖、餅圖、頻率直方圖、散點(diǎn)圖均值(Mean)令x1,x2,…,xN為某數(shù)值屬性X的N個(gè)觀測(cè)值,該值集合的均值如式(2-1)所示。14
2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述1.中心趨勢(shì)度量例:有學(xué)生考試成績(jī)的值:60,45,33,77,80,100,100,90,70,65。
(2-1)截尾均值15
例:某同學(xué)的某一科的考試成績(jī):平時(shí)測(cè)驗(yàn)80,期中90,期末95??颇砍煽?jī)的計(jì)算方式是:平時(shí)測(cè)驗(yàn)占20%,期中成績(jī)占30%,期末成績(jī)占50%。這里,每個(gè)成績(jī)所占的比重為權(quán)重。那么,2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述1.中心趨勢(shì)度量加權(quán)算數(shù)平均數(shù)(WeightedMean)(2-2)對(duì)于i=1,…,N,每個(gè)值xi都有一個(gè)權(quán)重wi。
中位數(shù)(Median):正中間的值如果值有奇數(shù)個(gè),取中間值,否則取中間兩個(gè)數(shù)的平均值有序數(shù)據(jù)值的中間值如果觀察值有偶數(shù)個(gè),通常取最中間的兩個(gè)數(shù)值的平均數(shù)作為中位數(shù)。16
2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述1.中心趨勢(shì)度量例:數(shù)據(jù)按遞增排序?yàn)椋?3,45,60,65,70,77,80,90,100,100。有10個(gè)觀測(cè)值,因此中位數(shù)不唯一。中間兩個(gè)值為70和77,則中位數(shù)為17
分組數(shù)據(jù)中位數(shù)(GroupedMedian)2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述1.中心趨勢(shì)度量Me:中位數(shù),L:中位數(shù)所在組的下限,Sm-1:中位數(shù)所在組以下各組的累計(jì)頻數(shù),fm:中位數(shù)所在組的頻數(shù),d:中位數(shù)所在組的組距。根據(jù)N/2確定中位數(shù)所在的組
(2-3)18
分組數(shù)據(jù)中位數(shù)2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述1.中心趨勢(shì)度量例:表2-1為某公司員工薪酬的分組數(shù)據(jù),計(jì)算數(shù)據(jù)的近似分組數(shù)據(jù)中位數(shù)。SalaryFrequency15001699180170018994601900~19998502000~20992502100~21991302200~2299702300~2399202400~249910表2-1員工薪酬分組數(shù)據(jù)①判斷中位數(shù)區(qū)間:N=110+180+320+460+850+250+130+70+20+10=2400;N/2=1200;因?yàn)椋?10+180+320+460=1070<1200<1070+850=1920;所以:1900~1999為對(duì)應(yīng)區(qū)間。
19
2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述1.中心趨勢(shì)度量經(jīng)驗(yàn)公式:可能最高頻率對(duì)應(yīng)多個(gè)不同值,導(dǎo)致多個(gè)眾數(shù)例:數(shù)據(jù)按遞增序排序?yàn)椋?3,45,60,65,70,77,80,90,100,100。mode=100眾數(shù)(Mode):數(shù)據(jù)中出現(xiàn)最頻繁的值20
2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述1.中心趨勢(shì)度量例:數(shù)據(jù)按遞增序排序?yàn)椋?3,45,60,65,70,77,80,90,100,100。中列數(shù)(Midrange):數(shù)據(jù)集中最大值和最小值的算術(shù)平均值
最小值和最大值分別為33和100,則中列數(shù)為21
2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述2.數(shù)據(jù)分散度量例:數(shù)據(jù)按遞增序排序?yàn)椋?3,45,60,65,70,77,80,90,100,100。極差(又稱全距,Range):是集合中最大值與最小值之間的差距,即最大值減最小值后所得數(shù)據(jù)。100-33=6722
2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述2.數(shù)據(jù)分散度量分位數(shù)(Quantile):取自數(shù)據(jù)分布的每隔一定間隔上的點(diǎn),把數(shù)據(jù)劃分成基本上大小相等的連貫集合。給定數(shù)據(jù)分布的第k個(gè)q-分位數(shù)的值為x,使得小于x的數(shù)據(jù)值最多為k/q,而大于x的數(shù)據(jù)值最多為(q-k)/q,其中k是整數(shù),使得0<k<q。這里有q-1個(gè)q-分位數(shù)。圖2-1某變量X的數(shù)據(jù)統(tǒng)計(jì)描述顯示23
2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述2.數(shù)據(jù)分散度量四分位數(shù)(Quantile):把數(shù)據(jù)分布劃分成4個(gè)相等的部分,使得每部分表示數(shù)據(jù)分布的四分之一。這3個(gè)數(shù)據(jù)點(diǎn)稱為四分位數(shù)。圖2-1某變量X的數(shù)據(jù)統(tǒng)計(jì)描述顯示Q1:“下四分位數(shù)”;Q2:“中位數(shù)”;Q3:“上四分位數(shù)”。24
2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述2.數(shù)據(jù)分散度量四分位數(shù)極差(
InterQuartileRange,IQR):
Q1和Q3之間的距離。圖2-1某變量X的數(shù)據(jù)統(tǒng)計(jì)描述顯示
確定四分位數(shù)的位置:
Q1的位置=(n+1)/4=(n+1)×0.25
Q2的位置=2*(n+1)/4=(n+1)×0.5
Q3的位置=3*(n+1)/4=(n+1)×0.75
n表示項(xiàng)數(shù)25
2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述2.數(shù)據(jù)分散度量四分位數(shù)極差(
InterQuartileRange,IQR):
Q1和Q3之間的距離。
例:由8人組成的旅游小團(tuán)隊(duì)年齡分別為:17,19,22,24,25,28,34,37,求其年齡的四分位差。①計(jì)算Q1與Q3的位置:Q1的位置=(n+1)/4=(8+1)/4=2.25;Q3的位置=3*(n+1)/4=3*(8+1)/4=6.75②確定Q1與Q3的數(shù)值:Q1=19+(22-19)*0.25=19.75;Q3=28+(34-28)*0.75=32.5③計(jì)算四分位差:IQR=Q3-Q1=32.5-19.75=12.7526
2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述2.數(shù)據(jù)分散度量四分位數(shù)極差(
InterQuartileRange,IQR):
Q1和Q3之間的距離。圖2-1某變量X的數(shù)據(jù)統(tǒng)計(jì)描述顯示
另一種確定四分位數(shù)的位置:
Q1的位置=1+(n-1)×0.25
Q2的位置=1+(n-1)×0.5
Q3的位置=1+(n-1)×0.75
n表示項(xiàng)數(shù)方差(樣本方差):是每個(gè)數(shù)據(jù)分別與平均數(shù)之差的平方的平均數(shù)。總體方差:樣本方差:27
標(biāo)準(zhǔn)差:方差的平方根
2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述2.數(shù)據(jù)分散度量(2-5)28
例:有學(xué)生考試成績(jī)的值:60,45,33,77,80,100,100,90,70,65。標(biāo)準(zhǔn)差:2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述2.數(shù)據(jù)分散度量29
盒圖(又稱箱線圖,Box-plot),是一種用來(lái)描述數(shù)據(jù)分布的統(tǒng)計(jì)圖形,可以表現(xiàn)觀測(cè)數(shù)據(jù)的中位數(shù)、四分位數(shù)和極值等描述性統(tǒng)計(jì)量。2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述離群點(diǎn):繪制在離群閾值范圍外的點(diǎn)盒子外線延伸到最小和最大的觀測(cè)值中位數(shù)用盒內(nèi)線標(biāo)記盒子的端點(diǎn)在四分位數(shù)上,使得盒子長(zhǎng)度為四分位數(shù)極差I(lǐng)QR用盒子表示數(shù)據(jù)3.數(shù)據(jù)的圖形顯示30
盒圖(又稱箱線圖,Box-plot),是一種用來(lái)描述數(shù)據(jù)分布的統(tǒng)計(jì)圖形,可以表現(xiàn)觀測(cè)數(shù)據(jù)的中位數(shù)、四分位數(shù)和極值等描述性統(tǒng)計(jì)量。2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述3.數(shù)據(jù)的圖形顯示離群點(diǎn):第三個(gè)四分位數(shù)之上或者第一個(gè)四分位數(shù)之下至少1.5xIQR的值盒圖:分布直觀表示,體現(xiàn)五數(shù)概括五數(shù)概括:min,Q1,median,Q3,max31
餅圖(又稱圓形圖或餅形圖,PieGraph),通常用來(lái)表示整體的構(gòu)成部分及各部分之間的比例關(guān)系。餅圖顯示一個(gè)數(shù)據(jù)系列中各項(xiàng)的大小與各項(xiàng)總和的比例關(guān)系。2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述3.數(shù)據(jù)的圖形顯示例:使用餅圖表示不同年齡區(qū)間的人參與某活動(dòng)的情況表2-4某活動(dòng)覆蓋人群年齡區(qū)間參與人數(shù)19歲及以下27020-29歲124830-39歲108040-49歲28050歲及以上180圖2-4某活動(dòng)覆蓋人群餅圖32
頻率直方圖(又稱頻率分布直方圖,F(xiàn)requencyHistogram),是在統(tǒng)計(jì)學(xué)中表示頻率分布的圖形。2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述3.數(shù)據(jù)的圖形顯示例:使用直方圖表示學(xué)生數(shù)學(xué)成績(jī)的分布學(xué)號(hào)成績(jī)70160702717035670499705667069070710070866709777106071188712797138371455表2-5
學(xué)生數(shù)學(xué)成績(jī)圖2-5學(xué)生成績(jī)數(shù)據(jù)頻率直方圖33
散點(diǎn)圖(ScatterDiagram):將樣本數(shù)據(jù)點(diǎn)繪制在二維平面或三維空間上,根據(jù)數(shù)據(jù)點(diǎn)的分布特征,直觀地研究變量之間的統(tǒng)計(jì)關(guān)系以及強(qiáng)弱程度。2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述3.數(shù)據(jù)的圖形顯示例:使用散點(diǎn)圖表示物流收貨天數(shù)和客戶滿意度之間的關(guān)系物流收貨天數(shù)客戶滿意度64.51238365181.573.53482.511325122.5152表2-6物流收貨天數(shù)和客戶滿意度相關(guān)數(shù)據(jù)圖2-7物流收貨天數(shù)和客戶滿意度散點(diǎn)圖34
散點(diǎn)圖(ScatterDiagram)2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述3.數(shù)據(jù)的圖形顯示(a)
線性相關(guān)
(b)非線性相關(guān)
(c)不相關(guān)圖2-6散點(diǎn)圖中屬性之間的相關(guān)性35
散點(diǎn)圖(ScatterDiagram)2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述3.數(shù)據(jù)的圖形顯示(d)
正相關(guān)
(e)負(fù)相關(guān)圖2-6散點(diǎn)圖中屬性之間的相關(guān)性盒圖Boxplot描述五數(shù)概括餅圖PieGraph顯示一個(gè)數(shù)據(jù)系列中各項(xiàng)的大小與各項(xiàng)總和的比例關(guān)系直方圖Histogramx-axis表示數(shù)值大小,y-axis表示頻率36
散點(diǎn)圖Scatterplot每個(gè)值視作一個(gè)坐標(biāo)對(duì),作為一個(gè)點(diǎn)畫在平面上2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述基本統(tǒng)計(jì)圖Chapter2.3數(shù)據(jù)的相似性與相異性38
2.3數(shù)據(jù)的相似性與相異性相似性(Similarity)兩個(gè)對(duì)象相似程度的數(shù)量表示數(shù)值越高表明相似性越大通常取值范圍為[0,1]相異性(Dissimilarity)(例如距離)兩個(gè)對(duì)象不相似程度的數(shù)量表示數(shù)值越低表明相似性越大相異性的最小值通常為0相異性的最大值(上限)是不同的鄰近性(Proximity):相似性和相異性都稱為鄰近性39
2.3數(shù)據(jù)的相似性與相異性1.數(shù)據(jù)矩陣與相異矩陣數(shù)據(jù)矩陣:對(duì)象-屬性結(jié)構(gòu)行-對(duì)象:n個(gè)對(duì)象列-屬性:p個(gè)屬性二模矩陣(Twomodes)相異性矩陣:對(duì)象-對(duì)象結(jié)構(gòu)n個(gè)對(duì)象兩兩之間的鄰近度對(duì)稱矩陣單模(Singlemode)40
2.3數(shù)據(jù)的相似性與相異性2.標(biāo)稱屬性的鄰近性度量相異性p是對(duì)象的屬性總數(shù),m是匹配的屬性數(shù)目(即對(duì)象i和j狀態(tài)相同的屬性數(shù))相似性
41
2.3數(shù)據(jù)的相似性與相異性2.標(biāo)稱屬性的鄰近性度量例:計(jì)算
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年教師培訓(xùn)工作計(jì)劃(4篇)
- 2025六年級(jí)秋季真題答案
- 2025年公交招聘筆試題庫(kù)及答案
- 2025年WS-1紙張濕強(qiáng)劑項(xiàng)目建議書
- 腎虛人群的飲食養(yǎng)護(hù)
- 遼寧省2025秋九年級(jí)英語(yǔ)全冊(cè)Unit3Couldyoupleasetellmewheretherestroomsare寫作能力提升練課件新版人教新目標(biāo)版
- 遼寧省2025秋九年級(jí)英語(yǔ)全冊(cè)Unit8ItmustbelongtoCarla易錯(cuò)考點(diǎn)專練課件新版人教新目標(biāo)版
- 2025年玻璃儀器及實(shí)驗(yàn)、醫(yī)療用玻璃器皿項(xiàng)目合作計(jì)劃書
- 2025年潛水及水下救撈裝備項(xiàng)目合作計(jì)劃書
- 基礎(chǔ)護(hù)理質(zhì)量管理
- GB/Z 43482-2023液壓傳動(dòng)軟管和軟管總成收集流體樣本分析清潔度的方法
- 急性中毒的處理與搶救
- 淤泥消納施工方案
- 附表:醫(yī)療美容主診醫(yī)師申請(qǐng)表
- 跌落式熔斷器熔絲故障原因分析
- 2023年全市中職學(xué)校學(xué)生職業(yè)技能大賽
- 畢節(jié)市織金縣化起鎮(zhèn)污水處理工程環(huán)評(píng)報(bào)告
- 倉(cāng)庫(kù)安全管理檢查表
- 嶺南版美術(shù)科五年級(jí)上冊(cè)期末素質(zhì)檢測(cè)試題附答案
- 以執(zhí)業(yè)醫(yī)師考試為導(dǎo)向的兒科學(xué)臨床實(shí)習(xí)教學(xué)改革
- 一年級(jí)上冊(cè)美術(shù)測(cè)試題
評(píng)論
0/150
提交評(píng)論