版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
2010015223信管1001文東自行車市場前景預測分析報告問題分析影響自行車購買的因素有很多,如何根據(jù)銷售歷史數(shù)據(jù)找出目標客戶群,是生產(chǎn)和銷售部門收益、獲利,實現(xiàn)其價值的一大難題;怎樣通過對歷史銷售數(shù)據(jù)進行分析,提煉出有效信息來幫助鎖定目標客戶群已經(jīng)成為實現(xiàn)其利益最大化的一大法寶。研究目標通過對問題實質(zhì)性的分析和提煉,運用數(shù)據(jù)挖掘(DataMining)技術(shù)來實現(xiàn)對現(xiàn)有數(shù)據(jù)的分析,挖掘出有價值的信息,用來指導產(chǎn)品市場的投放和根據(jù)預測對未來的發(fā)展強勁做出展望,為決策提供支撐依據(jù)。數(shù)據(jù)分析評估1、Microsoft決策樹分析Microsoft決策樹算法是一種適合預測性建模的分類算法,該算法支持離散屬性和連續(xù)屬性的預測。對于離散屬性,該算法根據(jù)數(shù)據(jù)集中輸入列之間的關(guān)系進行預測。它使用這些列的值或狀態(tài)預測指定的可預測列的狀態(tài);具體地說,該算法標識與可預測列相關(guān)的輸入列。對于連續(xù)屬性,該算法使用線性回歸確定決策樹的拆分位置,如果有多個列設置為可預測列,或輸入數(shù)據(jù)包含設置為可預測的嵌套表,則該算法將為每個可預測列分別生成一個決策樹。Microsoft決策樹算法通過在樹中創(chuàng)建一系列拆分來生成數(shù)據(jù)挖掘模型。這些拆分以“節(jié)點”來表示。每當發(fā)現(xiàn)輸入列與可預測列密切相關(guān)時,該算法便會向該模型中添加一個節(jié)點。該算法確定拆分的方式不同,主要取決于它預測的是連續(xù)列還是離散列。Microsoft決策樹是在已知各種情況發(fā)生概率的基礎上,通過構(gòu)成決策樹來求取凈現(xiàn)值的期望值大于等于零的概率,評價項目風險,判斷其可行性的決策分析方法,是直觀運用概率分析的一種圖解法。由于這種決策分支畫成圖形很像一棵樹的枝干,故稱決策樹。在機器學習中,決策樹是一個預測模型,他代表的是對象屬性與對象值之間的一種映射關(guān)系。Microsoft決策樹算法通過獲取模型的近似后驗分布,將Bayesian方法應用于學習因果交互模型。決策樹算法使用不同的方法來計算最佳的樹。
所使用的方法具體取決于任務,任務可為線性回歸、分類或關(guān)聯(lián)分析。
一個模型可包含多個針對不同可預測屬性的樹。
而且每個樹可包含多個分支,具體取決于數(shù)據(jù)中包含的屬性和值的量。
特定模型中生成的樹的形狀和深度取決于所使用的計分方法以及其參數(shù)。
參數(shù)更改還會影響節(jié)點的拆分位置。決策樹算法高效快速且可伸縮,可輕松實現(xiàn)并行化,這意味著所有處理器均可協(xié)同工作,共同生成一個一致的模型。
這些特征使決策樹分類器成為了理想的數(shù)據(jù)挖掘工具。使用1000個調(diào)查數(shù)據(jù)建立數(shù)據(jù)模型后得到的決策樹分類如下:※圖中矩形表示一個拆分節(jié)點,矩形中文字是拆分條件?!匦晤伾顪\代表此節(jié)點包含事例的數(shù)量,顏色越深包含的事例越多,如全部節(jié)點包含所有的1000個樣本數(shù)據(jù),顏色最深?!?jié)點中的條包含三種顏色,藍色、紅色和綠色,分別表示此節(jié)點中的事例不購買和購買自行車以及缺省值的比例。通過對數(shù)據(jù)樣本運用決策樹分析后可得出在總數(shù)為1000的的樣本數(shù)據(jù)中,出去需要預測的300個數(shù)據(jù)外,購買自行車的比例為34.58%,不買自行車的比例為35.37%。所有樣本數(shù)據(jù)經(jīng)過第一次基于地區(qū)的拆分后,所在地區(qū)為NorthAmerica的實例總計508個,購買自行車的為85個,不購買自行車的為123個;所在地區(qū)不在NorthAmerica的實例總計492個,購買自行車的為261個,不購買自行車的為231個;同時此時的拆分節(jié)點顏色較深,表明影響是否購買自行車的主要影響因素是地域。樣本數(shù)據(jù)基于該拆分節(jié)點又進行第二次拆分,孩子(Children)不等于5的實例總計451,其中購買自行車的為255個,不購買的為196個;孩子(Children)等于5的實例總計41,其中購買自行車的為6個,不購買的為35個。接著可以通過依賴關(guān)系網(wǎng)絡來分析購買自行車與否的影響因素,依賴關(guān)系網(wǎng)絡如下圖:通過運用Microsoft決策樹算法進行建模分析可以得出一下兩條結(jié)論:(1)、所在地域(NorthAmerica)是人們購買自行車與否的關(guān)鍵影響因素;(2)、同一地域的人們購買自行車的能力還與家庭中孩子的個數(shù)(5個)有關(guān)。2、Microsoft聚類分析Microsoft聚類分析算法首先標識數(shù)據(jù)集中的關(guān)系并根據(jù)這些關(guān)系生成一系列分類。
散點圖是一種非常有用的方法,可以直觀地表示算法如何對數(shù)據(jù)進行分組,如下面的關(guān)系圖所示。
散點圖可以表示數(shù)據(jù)集中的所有事例,在該圖中每個事例就是一個點。分類對該圖中的點進行分組并闡釋該算法所標識的關(guān)系。Microsoft聚類分析算法提供兩種創(chuàng)建分類并為分類分配數(shù)據(jù)點的方法。第一種方法是
K-means
算法,這是一種較難的聚類分析方法。
這意味著一個數(shù)據(jù)點只能屬于一個分類,并會為該分類中的每個數(shù)據(jù)點的成員身份計算一個概率。第二種方法是“期望值最化”(EM)方法,這是“軟聚類分析”方法。
這意味著一個數(shù)據(jù)點總是屬于多個分類,并會為每個數(shù)據(jù)點和分類的組合計算一個概率。聚類分析模型標識數(shù)據(jù)集中可能無法通過隨意觀察在邏輯上得出的關(guān)系。
例如,在邏輯上可以得知,騎自行車上下班的人的居住地點通常離其工作地點不遠。
但該算法可以找出有關(guān)騎自行車上下班人員的其他并不明顯的特征。
在下面的關(guān)系圖中,分類A表示有關(guān)通常開車上班人員的數(shù)據(jù),而分類B表示通常騎自行車上班人員的數(shù)據(jù)。聚類分析算法不同于Microsoft決策樹算法等其他數(shù)據(jù)挖掘算法,區(qū)別在于無需指定可預測列便能生成聚類分析模型。
聚類分析算法嚴格地根據(jù)數(shù)據(jù)以及該算法所標識的分類中存在的關(guān)系定型。聚類分析算法使用迭代技術(shù)將數(shù)據(jù)集中的事例分組為包含類似特征的分類。
在瀏覽數(shù)據(jù)、標識數(shù)據(jù)中的異常及創(chuàng)建預測時,這些分組十分有用。通過聚類分析我們可以很方便地得出目標群體的潛在市場。將樣本數(shù)據(jù)運用聚類分析建立如下分類關(guān)系網(wǎng):通過分類關(guān)系網(wǎng)可以得出購買自行車最強的分類分別是分類10、分類2,次之為分類1、分類7。因此可以得出在未來上述分類中的人們是自行車銷售的目標客戶。在確定了未來自行車銷售的目標客戶后,我們還可以通過分類特征(以分類10為例)來分析目標客戶自身購買力的一些影響因素,如下圖所示:可以看出,在目標客戶群體分類10中,影響顧客購買力的因素有很多,其中關(guān)鍵影響因素有所在地區(qū)、婚姻狀況、收入、職業(yè)等,如在歐洲地區(qū)的單身男性,收入在10000~35175之間,購買自行車的比例概率很大;然而生活在歐洲地區(qū)的單身女性、活動范圍在0~1Miles,她們購買自行車的概率則低很多,大約在50%左右;對于有2個孩子的家庭,收入在35176~56140之間的持家者來說,購買自行車的概率大概在30%左右。與此同時還可以通過對比分析兩個較強分類的差異,從中挖掘出有力信息,分類對比如下(分類10&分類2):如收入在48887~170000之間的人群則傾向于分類10,因此對于他們應以分類10的分類特征來分析目標客戶自身購買力的一些影響因素;而收入在10000~48886之間的人群則傾向于分類2,因此對于他們應以分類2的分類特征來分析目標客戶自身購買力的一些影響因素。逐步縮小分類,鎖定目標客戶。在聚類分析中還可以通過分類剖面圖來進行更加詳細的分析,分類剖面圖如下:通過運用Microsoft聚類分析我們可以得出如下結(jié)論:(1)、通過分析我們可以得出最有可能購買自行車的目標群體的條件組合,利于決策者做出市場決策,鎖定客戶群體:歐洲地區(qū)的單身男性,收入在10000~35175之間;歐洲地區(qū)的單身女性、活動范圍在0~1Miles;(2)、通過分類關(guān)系網(wǎng)可以得出尚存在的潛在客戶(分類1和分類7),客戶群體在歐洲和大洋洲。3、Microsoft神經(jīng)網(wǎng)絡分析Microsoft神經(jīng)網(wǎng)絡算法組合輸入屬性的每個可能狀態(tài)和可預測屬性的每個可能狀態(tài),并使用定型數(shù)據(jù)計算概率。之后,可以根據(jù)輸入屬性,將這些概率用于分類或回歸,并預測被預測屬性的結(jié)果。使用Microsoft神經(jīng)元網(wǎng)絡算法構(gòu)造的挖掘模型可以包含多個網(wǎng)絡,這取決于用于輸入和預測的列的數(shù)量,或者取決于僅用于預測的列的數(shù)量。一個挖掘模型包含的網(wǎng)絡數(shù)取決于挖掘模型使用的輸入列和預測列包含的狀態(tài)數(shù)。 神經(jīng)網(wǎng)絡模型必須包含一個鍵列、一個或多個輸入列以及一個或多個可預測列。在多層感知器神經(jīng)網(wǎng)絡中,每個神經(jīng)元可接收一個或多個輸入,并產(chǎn)生一個或多個相同的輸出。
每個輸出都是對神經(jīng)元的輸入之和的簡單非線性函數(shù)。
輸入將從輸入層中的節(jié)點傳遞到隱藏層中的節(jié)點,然后再從隱藏層傳遞到輸出層;同一層中的神經(jīng)元之間沒有連接。
如果像邏輯回歸模型那樣沒有隱藏層,則輸入將會直接從輸入層中的節(jié)點傳遞到輸出層中的節(jié)點。使用Microsoft神經(jīng)網(wǎng)絡算法的數(shù)據(jù)挖掘模型與為該算法的可用參數(shù)指定的值緊密相關(guān)。這些參數(shù)定義如何對數(shù)據(jù)進行采樣、數(shù)據(jù)在每個列中的分布方式或預期分布方式以及何時調(diào)用功能選擇以限制在最終模型中使用的值。該算法將確定挖掘模型支持的網(wǎng)絡的數(shù)目以及復雜性。
如果挖掘模型包含一個或多個僅用于預測的屬性,算法將創(chuàng)建一個代表所有這些屬性的單一網(wǎng)絡。
如果挖掘模型包含一個或多個同時用于輸入和預測的屬性,則該算法提供程序?qū)槠渲械拿總€屬性構(gòu)建一個網(wǎng)絡。算法提供程序通過接受之前保留的定型數(shù)據(jù)集并將維持數(shù)據(jù)中的每個事例的實際已知值與網(wǎng)絡的預測進行比較,即通過一個稱為“批學習”的進程來同時迭代計算整個網(wǎng)絡的所有輸入的權(quán)重。
該算法處理了整個定型數(shù)據(jù)集后,將檢查每個神經(jīng)元的預測值和實際值。
該算法將計算錯誤程度(如果有錯誤),并調(diào)整與神經(jīng)元輸入關(guān)聯(lián)的權(quán)重,并通過一個稱為“回傳”的過程從輸出神經(jīng)元返回到輸入神經(jīng)元。
然后,該算法對整個定型數(shù)據(jù)集重復該過程。
該算法支持多個權(quán)重和輸出神經(jīng)元,因此這個共軛梯度算法用于引導定型過程來分配和計算輸入權(quán)重。
有關(guān)共軛梯度算法的探討不屬于本文檔的討論范圍。神經(jīng)網(wǎng)絡分析可以通過選定相關(guān)的影響因素及其取值,來分析其他影響因子的作用。如上圖所述,年齡在25~36歲之間,沒有孩子的北美家庭他們大多偏向于不購買自行車,只有收入在77093~35186之間,教授職位,活動范圍在2~5Miles的人們才購買自行車,這就分析到在北美這中潛在客戶的大前提下,存在一定特征的人們?nèi)稳徊毁徺I自行車,從而為決策者多提供了一份信息,避免盲目投產(chǎn)造成的經(jīng)濟損失。神經(jīng)網(wǎng)絡分析結(jié)果表明,通過確定相關(guān)屬性的值,該分析模型能夠定性計算出其他可預測的狀態(tài)值,可用于市場假設分析。4、MicrosoftNaiveBayes分析MicrosoftNaiveBayes算法是一種可以快速生成并且適合預測性建模的分類算法。該算法僅支持離散屬性或離散化屬性。而且在給定可預測屬性的情況下,它將所有輸入屬性都當做獨立屬性。與其他Microsoft算法相比,該算法所需的運算量小,因而能夠快速生成挖掘模型,以發(fā)現(xiàn)輸入列和可預測列之間的關(guān)系??梢允褂迷撍惴ㄟM行初始數(shù)據(jù)探測,然后根據(jù)該算法的結(jié)果使用其他運算量較大、更加精確的算法創(chuàng)建其他挖掘模型。在給定可預測列的各種可能狀態(tài)的情況下,MicrosoftNaiveBayes算法將計算每個輸入列的每種狀態(tài)的概率。使用MicrosoftNaiveBayes查看器可以直觀地觀察算法分布狀態(tài)的方式。MicrosoftNaiveBayes查看器可列出數(shù)據(jù)集中的每個輸入列。如果提供了可預測列的每種狀態(tài),它還會顯示每一列中狀態(tài)的分布情況??梢岳迷撘晥D確定對區(qū)分可預測列狀態(tài)具有重要作用的輸入列。例如,在此圖中,如果某一客戶的通勤距離為一至二英里,則該客戶購買自行車的概率是0.387,不購買自行車的概率是0.287。在本示例中,該算法使用從諸如上下班路程之類的客戶特征得出的數(shù)字信息來預測客戶是否會購買自行車。通過MicrosoftNaiveBayes依賴關(guān)系網(wǎng)絡圖分析課得出,影響購買自行車的關(guān)鍵因素有三個,分別是:收入、地區(qū)和職業(yè)。顯然,MicrosoftNaiveBayes模型分析比Microsoft決策樹更準確,提供的信息更全面,更具有價值。我們還可以通過MicrosoftNaiveBayes的屬性特征,來進一步有針對性、有目的地對所研究的的是否購買自行車進行相關(guān)屬性分析。如我們選擇購買自行車,由此可觀察到具備什么樣特征屬性的人群具有購買自行車的能力,結(jié)果顯示:Incomes:39050~71062Region:Europe這類人他們購買自行車的概率為45%左右。而Incomes<39050Region:Pacific、NorthAmerica Occupation:Professional、Clerical、SkilledManual、Management這類人他們購買自行車的概率大概為23%左右。通過屬性對比可以觀察到購買自行車與不購買自行車的群體之間你的差異,如上圖結(jié)果顯示:Incomes:39050~71062Region:Pacific偏向于購買自行車,而Region:NorthAmericaIncomes<39050這類群體則不偏重于構(gòu)面自行車。以屬性配置文件可以得出個影響因素在具體的影響因子中所占的比重,如下圖所示:下面是對收入(Income)的數(shù)字展現(xiàn)形式:?Д????(?)NoYes?????/TD>10003543463000Income39050-710624820.3310.4540.6930.000Income<390502850.4120.3120.1030.000Income71062-971111290.1470.1160.1230.000Income97111-127371620.0680.0660.0500.000Income>=127371420.0420.0520.0300.000Income??00.0000.0000.0000.000OccupationProfessional2760.2200.2830.3330.000OccupationSkilledManual2550.2180.1850.3800.000OccupationClerical1770.2120.2340.0700.000Occup
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 落實酒類商品進貨查驗和索證索票制度
- 2026年昆明市尋甸縣公安局招聘警務輔助人員(37人)參考考試題庫附答案解析
- 零售戶經(jīng)營安全培訓課件
- 2026貴州貴陽市某事業(yè)單位勞務派遣工作人員招聘備考考試試題附答案解析
- 2026年上半年云南省發(fā)展和改革委員會所屬事業(yè)單位招聘人員(4人)參考考試試題附答案解析
- 2026廣西柳州事業(yè)單位招聘1111人參考考試試題附答案解析
- 2026年上半年黑龍江事業(yè)單位聯(lián)考省教育廳招聘1人備考考試試題附答案解析
- 2026年沂南縣部分事業(yè)單位公開招聘綜合類崗位工作人員28人參考考試試題附答案解析
- 2026遼寧省文物考古研究院招聘3人參考考試題庫附答案解析
- 安全生產(chǎn)保障金制度
- 小學六年級上冊數(shù)學期末測試卷及參考答案(輕巧奪冠)
- DZ∕T 0130-2006 地質(zhì)礦產(chǎn)實驗室測試質(zhì)量管理規(guī)范(正式版)
- (高清版)JGJT 178-2009 補償收縮混凝土應用技術(shù)規(guī)程
- 電梯日管控、周排查、月調(diào)度內(nèi)容表格
- 黑龍江省中藥飲片炮制規(guī)范及標準
- QC-提高衛(wèi)生間防水一次驗收合格率
- 江蘇省徐州市2022-2023學年高一上學期期末抽測政治試題(原卷版)
- 地基處理施工中的安全風險與防范
- 食材配送服務方投標方案(技術(shù)標)
- 人教版六年級科學上期末測試題(2份)有答案
- 食品安全全球標準BRCGS第9版內(nèi)部審核全套記錄
評論
0/150
提交評論