版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、群團(tuán)通大數(shù)據(jù)分析系統(tǒng)1、 概述1.1目標(biāo)與價值群團(tuán)通大數(shù)據(jù)分析系統(tǒng)建設(shè)項目(下文簡稱項目) 的目標(biāo)之一,是利用大數(shù)據(jù)分析技術(shù),充分挖掘工會組織和職工會 員的活動數(shù)據(jù)和關(guān)聯(lián)信息,對職工參與工會組織和工會服務(wù)狀況進(jìn)行跟蹤分析、全景洞察,摸清職工動態(tài)、找準(zhǔn)職工需求,努力為廣 大職工實施精準(zhǔn)服務(wù),增強(qiáng)工會組織吸引力凝聚力。通過各種大數(shù)據(jù)算法,實現(xiàn)從工會會員、工會組織管理和普惠 制服務(wù)的各種大數(shù)據(jù)智能系統(tǒng)。可自動進(jìn)行信息的處理,自動分析大量數(shù)據(jù)背后隱藏的各種規(guī)律,找到最能滿足廣東省總工會所需要 的大數(shù)據(jù)服務(wù)內(nèi)容。1.2規(guī)劃前提 1.2.1數(shù)據(jù)基礎(chǔ)數(shù)據(jù)內(nèi)容按照業(yè)務(wù)需求,主要可以分為幾大類:(1)會員實名制
2、度信息依據(jù)關(guān)于規(guī)范全市基層工會和會員基本信息采集指標(biāo)的通知中對會員基本信息采集條目的規(guī)范,會員實名制信息主要包含:會員實名制信息內(nèi)容會員基本信息采集條目備注姓名在公安戶籍管理部門登記注冊、人事檔案中記載的、正在使用的本人姓名全稱。性別出生日期本人在公安戶籍管理部門登記在人事檔案中記載并經(jīng)組織、干部、人事部門確認(rèn)的出生年月日。民族本人歸屬的、國家認(rèn)可的、在公安戶籍 管理部門登記注冊的民族。就業(yè)狀況本人當(dāng)前工作的就業(yè)的狀況。移動電話本人使用的移動電話號碼。戶籍類型本人戶籍類型。有效證件類別本人持有的有效證件的類別。證件號碼本人持有的有效證件號碼。學(xué)歷由國家認(rèn)可的本人在國內(nèi)、外各類教育 機(jī)構(gòu)接受正式
3、教育并取得學(xué)歷證書的學(xué)習(xí)經(jīng)歷名稱。技術(shù)等級國家職業(yè)資格證書所載明的等級。職業(yè)類別在業(yè)人口本人所從事工作的種類。戶籍所在地本人戶籍所在地的當(dāng)前國家政區(qū)名稱,采集到地市級。專業(yè)技術(shù)任職資格本人由專業(yè)技術(shù)職務(wù)任職資格評審委員會評審并正式批準(zhǔn)或參加國家統(tǒng)一專業(yè)技術(shù)職務(wù)資格考試合格而取得的專業(yè)技術(shù)職務(wù)資格名稱。(2)工會組織信息依據(jù)關(guān)于規(guī)范全市基層工會員基本信息采集指標(biāo)的通知中對會員整本信息采集條目的規(guī)范,工會組織信息主要包含:基層工會基本信息數(shù)據(jù)內(nèi)容基層工會基本信息采集條目備注單位名稱單位的全稱。法人和其他組織統(tǒng)一社會信用代碼用代碼單位地址本單位的詳細(xì)通信地址。單位所在政區(qū)本單位所在的單位性質(zhì)類別本單
4、位性質(zhì)類別的劃分。經(jīng)濟(jì)類型按單位所有制性質(zhì)和經(jīng)營方式單位所屬行業(yè)本單位所屬的國民經(jīng)濟(jì)行業(yè)類工會名稱本單位所屬的基層工會全稱。上級工會名稱本單位所屬的基層工會的直接上級工會全稱。建會日期本單位所屬的基層工會的建立日期,以上級工會的批復(fù)日期為準(zhǔn)?;鶎庸愋捅締挝凰鶎俚幕鶎庸念愋?。工會負(fù)責(zé)人單位工會負(fù)責(zé)人的姓名。聯(lián)系電話單位工會負(fù)責(zé)人的移動電話號碼。單位郵政編碼本單位或單位所在地的郵政編碼。企業(yè)規(guī)模本單位的規(guī)模,僅限單位性質(zhì)類別為企業(yè)的 單位填寫。工會法人統(tǒng)一社會信用代碼期末職工人數(shù)報告期末最后一天的實有人數(shù)。正式職工人數(shù)指在機(jī)關(guān)、事業(yè)單位中,經(jīng)國家有關(guān)部門分 配、安排或批準(zhǔn)招收錄用的職工,包
5、括原固 定職工和使用期限在一年以上的合同制職 工。單位女職工數(shù)本單位女職工人數(shù)。涵蓋法人單位數(shù)工聯(lián)會填寫。工會辦公電話單位工會辦公室電話號碼。(3) 普惠項目服務(wù)項目信息普惠項目服務(wù)項目數(shù)據(jù)內(nèi)容普惠項目服務(wù)項目信息采集條目備注普惠制服務(wù)活動基礎(chǔ)數(shù)據(jù)活動內(nèi)容、活動場所、支付方式、活動評價、活動時間、支付方式、工會組織、活動惠及會員范圍、參加活動的條件、申請時間活動描述、活動上線期限、合作商家、活動負(fù)責(zé) 人、資金、服務(wù)惠及會員范圍(是否對其他市、 省會員開放)、上級工會工會普惠服務(wù)基礎(chǔ)數(shù)據(jù)工會組織、服務(wù)部門、服務(wù)內(nèi)容、服務(wù)申請條件、服務(wù)流程會員基本信息會員當(dāng)前位置、會員所屬工會組織、會員姓名、 手
6、機(jī)號碼會員服務(wù)數(shù)據(jù)會員目前參加的普惠制服務(wù)活動及其進(jìn)展、會員申請的工會普惠服務(wù)及其進(jìn)展會員行為數(shù)據(jù)項目瀏覽時長、各種服務(wù)點擊次數(shù)、會員基本信息、參加活動記錄、申請服務(wù)記錄工會業(yè)務(wù)服務(wù)基礎(chǔ)信息業(yè)務(wù)服務(wù)內(nèi)容、服務(wù)申請條件、工會組織、工會部門、業(yè)務(wù)服務(wù)流程業(yè)務(wù)服務(wù)上線情況數(shù)據(jù)服務(wù)申請人數(shù)、服務(wù)評價數(shù)據(jù)、服務(wù)基礎(chǔ)信息(4) 會員卡金融服務(wù)數(shù)據(jù)會員卡金融服務(wù)數(shù)據(jù)普惠項目服務(wù)項目信息采集條目備注交易數(shù)據(jù)會員卡卡號,銀行卡號,會員ID,商品名稱、 交易時間、交易地點、積分、交易類型、交易金額、服務(wù)提供商名稱消費追蹤記錄用戶渠道數(shù)據(jù),用戶在平臺的行為數(shù)椐福利發(fā)放人員名單(姓名、發(fā)放類型、銀行卡卡號、所屬地區(qū)、
7、人員標(biāo)簽、身份證號碼、發(fā)放時間、相關(guān)負(fù)責(zé)人信息、所在工會ID) 1.2.2系統(tǒng)框架算法體系是大數(shù)據(jù)分析子系統(tǒng)的重要姐成部分。大數(shù)據(jù)分析模塊為工會大數(shù)據(jù)服務(wù)各類應(yīng)用場景提供大數(shù)據(jù)分析挖掘相關(guān)的業(yè)務(wù)邏輯實現(xiàn),主要大數(shù)據(jù)技術(shù)包括分類、聚類、推薦,以及傳統(tǒng)的統(tǒng)計分析方法等。主要的應(yīng)用場景包括:活動推薦、主題分析、智能檢索、模型分析、用戶畫像、決策支持、圖表呈現(xiàn)、職工幸福指數(shù)預(yù)測以及領(lǐng)導(dǎo)駕駛艙等。大數(shù)據(jù)分析子系統(tǒng)隸屬于大數(shù)據(jù)平臺處理系統(tǒng)。大數(shù)據(jù)處理子系統(tǒng)共有四個模塊,分別為:數(shù)據(jù)源、大數(shù)據(jù)存儲計算、大數(shù)據(jù)分析、大數(shù)據(jù)應(yīng)用等。 具體如下圖:圖1-1 大數(shù)據(jù)平臺系統(tǒng)結(jié)構(gòu)2算法規(guī)劃2.1算法體系介紹根據(jù)不同的
8、分析場景,算法體系包含的算法類型如圖所示。圖2-12.1.1統(tǒng)計分析統(tǒng)計分析是指運(yùn)用統(tǒng)計方法及與分析對象有關(guān)的知識,從定量與定性的結(jié)合上進(jìn)行的研究活動。它是繼統(tǒng)計設(shè)計、統(tǒng)計調(diào)查、統(tǒng)計整理之后的一項十分重要的工作,是在前幾個階段工作的基礎(chǔ)上 通過分析從而迗到對研究對象更為深刻的認(rèn)識。它又是在一定的選題下,集分析方案的設(shè)計、資料的搜集和整理而展開的研究活動。 系統(tǒng)、完善的資料是統(tǒng)計分析的必要條件。2.1.2分類算法分類(Classification)就是把一個數(shù)據(jù)集分成若干個族,各簇之間是如何分開的由判別函數(shù)或者模型來分割區(qū)分。分類挖掘可以采用多種表示方法來描述分類模型,主要包括:分類規(guī)則(IF-
9、 THEN)、決策樹(Decision Tree)、數(shù)學(xué)公式(Mathematical formula)。分類還通常用于預(yù)測未知數(shù)據(jù)所屬類別,比如銀行客戶的信用級別,但這些屬性值是離散的,往往分類還要預(yù)測某些屬性的連續(xù)值,這樣的分類就稱之為預(yù)測。貝葉斯分類包括樸素貝葉斯和貝葉斯信念網(wǎng)絡(luò)兩種。貝葉斯方法是一種研究不確定性的推理方法,這種不確定性常用貝葉斯概率來表示,貝葉斯概率是一種主觀的概率,它隨著個人的主觀意識變化而變化。決策樹算法是數(shù)據(jù)挖掘中最基本也最常用的算法之一,它類似于一個流程圖的樹形結(jié)構(gòu),樹中的每一個內(nèi)部節(jié)點都代表對一個屬性的測試,每一個分支代表一個測試結(jié)果,每個葉子節(jié)點就代表一個分
10、類。決策樹歸納的基本算法是貪心算法,它以自頂向下遞歸的各個擊破方式構(gòu)造決策樹,決策樹算法的構(gòu)造通常經(jīng)歷兩個階段: 樹的構(gòu)建階段和樹的剪枝階段。2.1.3聚類算法聚類方法作為一類非常重要的數(shù)據(jù)挖掘技術(shù),其主要是依據(jù)樣本 間相似性的度量標(biāo)準(zhǔn)將數(shù)據(jù)集自動分成幾個群組,且使同一個群組 內(nèi)的樣本之間相似度盡量高,而屬于不同群組的樣本之間相似度盡 量低的一種方法。聚類中的組不是預(yù)先定義的,而是根據(jù)實際數(shù)據(jù) 的特征按照數(shù)據(jù)之間的相似性來定義的,聚類中的組也稱為簇。一 個聚類分析系統(tǒng)的輸入是一組樣本和一個度量樣本間相似度或距離 的標(biāo)準(zhǔn),而輸出則是簇集,印數(shù)據(jù)集的幾個類,這些類構(gòu)成一個分區(qū) 或者分區(qū)結(jié)構(gòu)。聚類分
11、析的一個附加的結(jié)果是對每個類的綜合描 述,這種結(jié)果對于更進(jìn)一步深入分析數(shù)據(jù)集的特性是尤其重要的。 聚類方法尤其適合用來討論樣本間的相互關(guān)聯(lián)從而對一個樣本結(jié)構(gòu) 做一個初步的評價。不同類型的聚類算法可以分成不同的類別。聚類算法可分為層 次方法與劃分方法兩大類。所謂層次聚類是指產(chǎn)生一個嵌套的簇 集,在層次聚類中,不必輸入簇的數(shù)目。而劃分聚類是指利用算法構(gòu) 造一個簇集,其中簇的數(shù)目由用戶指定或系統(tǒng)指定。2.1.4神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)(Neural Network, NN)起源于生理學(xué)和神經(jīng)生物學(xué)中關(guān)于神經(jīng)細(xì)胞的研究工作。神經(jīng)網(wǎng)絡(luò)主要應(yīng)用在金融價格預(yù)測、圖像處理、模式識別、預(yù)測、語言處理等領(lǐng)域,并且都取得了
12、不凡的成果。神經(jīng)網(wǎng)絡(luò)可以分為反饋網(wǎng)絡(luò)、自組織特征網(wǎng)絡(luò)、多層神經(jīng)網(wǎng)絡(luò)、隨機(jī)算法網(wǎng)絡(luò)和Boltzmann網(wǎng)絡(luò)等。多層前饋神經(jīng)網(wǎng)絡(luò)通常由輸入層,多個隱含層和輸出層構(gòu)成,其中毎一人連接都與權(quán)重相關(guān)。輸入層的輸入對應(yīng)的是訓(xùn)練樣本的毎個屬性值,這些屬性值的對應(yīng)輸出結(jié)合了相應(yīng)的權(quán)重,同時反饋給第二層(即隱含層);隱含層的帶權(quán)輸出又作為下一個隱含層的輸入反饋,最后一層的隱含層節(jié)點帶權(quán)輸出到輸出層,最終給出樣本的對應(yīng)預(yù)測輸出。自組織特往圖網(wǎng)絡(luò)(Self-organizing Feature Map Network, S0MN)是一種無監(jiān)督學(xué)習(xí),該算法的目標(biāo)是用低緯目標(biāo)空間的點來表示高維原始空間的點,使得這種標(biāo)識
13、能夠較為合理的保留原來的相似性。SOMN通常是沒有隱含層的前饋神經(jīng)網(wǎng)絡(luò),一般情況下它只包含一個輸入層和一個輸出層。反饋網(wǎng)絡(luò)與前饋網(wǎng)絡(luò)具有相類似的神經(jīng)元。反饋網(wǎng)絡(luò)是單層的結(jié)構(gòu)使得各個神經(jīng)元的 地位都走平等的,網(wǎng)絡(luò)中的任何一個神經(jīng)元都可以與其他的神經(jīng)元連接。反饋網(wǎng)絡(luò)中一種典型和特殊的網(wǎng)絡(luò)稱之為Hopfield 網(wǎng)絡(luò),除了具有反饋網(wǎng)絡(luò)基本的結(jié)構(gòu)和特征以外,它還滿足權(quán)值對稱和無自反饋兩個條件。波爾茲曼機(jī)(Boltzmann machine)是一種多層網(wǎng)絡(luò),與前饋網(wǎng)絡(luò)一樣它也是由輸入層、隱含層和輸出層構(gòu)成,隱神經(jīng)元之間相互連接,網(wǎng)絡(luò)中的神經(jīng)元狀態(tài)用0或1來取代。2.1.5主題模型主題模型是一種統(tǒng)計機(jī)器學(xué)
14、習(xí)模型,提供了一種對大規(guī)模語料進(jìn)行降維的方法。題模型通過對目標(biāo)文本集進(jìn)行建模分析,主題模型可以發(fā)現(xiàn)文檔中潛在的主題,并通過這些主題來對文檔進(jìn)行標(biāo)注,而這些潛在題的標(biāo)注也被用來對目標(biāo)文本進(jìn)行組織、總結(jié)和檢索。主題模型作為一種混合概率模型,利用例語的共現(xiàn),通過最大化的概率,來發(fā)現(xiàn)文把中的聚類簇。2. 1. 6關(guān)聯(lián)規(guī)則挖掘算法關(guān)聯(lián)規(guī)則是X-Y模式,以購買商品為例,購買X商品的用戶也會同時購買Y商品,以這種規(guī)則為基礎(chǔ),超市可以為了方便消費者或提高銷量把具有這種關(guān)聯(lián)的商品擺放在一起。某超市把啤酒和尿布擺放在一起,看似兩個完全不相關(guān)的商品,其實在相關(guān)統(tǒng)計中這種擺放同時提高了啤酒和尿布的銷量,這種想象說明它
15、們存在 某種內(nèi)在的規(guī)則,我們可以稱之為關(guān)聯(lián)規(guī)則。我們也可以根據(jù)這種規(guī)則給予用戶推薦,關(guān)聯(lián)規(guī)則的目的就是在數(shù)據(jù)庫中自動的提取出有趣的規(guī)則或者在大量的項目或?qū)傩灾薪y(tǒng)計信息來描述一組對象。在數(shù)據(jù)庫中,項目集可以表示它所支持的特性,這些特性可以是對象共享屬性的部分。關(guān)聯(lián)規(guī)則挖掘的整個過程主要分兩步來完成:第一步是找出數(shù)據(jù)庫中所有滿足最小支持度閾值的頻繁項集;第二步是由頻繁項集產(chǎn)生所有滿足最小置信度閾值的關(guān)聯(lián)規(guī)則。由于關(guān)聯(lián)規(guī)則挖掘的整體性能主要是由第一步的性能所決定,因此,關(guān)聯(lián)規(guī)則挖掘的關(guān)鍵和難點都集中在了頻繁項集的挖掘上。隨著關(guān)聯(lián)分析技術(shù)的不斷發(fā)展,眾多的研究學(xué)者提出了許多優(yōu)秀的頻繁項集挖掘算法,包括
16、單機(jī)(single-machine)挖掘算法、基于MPI (Message Passing Interface)的挖掘算法、基于 Map Reduce的挖掘算法和基于Spark的挖掘算法。單機(jī)(single-machine)挖掘算法指的是運(yùn)行在一臺機(jī)器上的頻繁項集挖掘算法,它們的特點是數(shù)據(jù)量小,對機(jī)器的內(nèi)存大小和計算性能要求不高,在一臺機(jī)器上即可完成挖掘任務(wù)。一些經(jīng)典的算法,如Apriori和FP-growth等經(jīng)典的頻繁項集挖掘算法,都是單機(jī)頻繁項集挖掘算法。MP工的全稱是Message Passing Interface,它是一種消息傳遞標(biāo)準(zhǔn),同時也是一項被廣泛采用的并行編程技術(shù)?;贛P
17、I的頻繁項集挖掘算法都是一些并行算法,它們的特點是各個計算節(jié)點并行地挖掘頻繁項集,因此算法的效率很高。Map Reduce是 Hadoop下的一種編程模型,用于海量數(shù)據(jù)的分布式批處理。基于Map Reduce的頻繁項集挖掘算法效率很高,但是磁盤I/O開銷大,且節(jié)點之間的通信負(fù)載高,集群的負(fù)載均衡較難把握。Spark是一個基于內(nèi)存計算的通用大數(shù)據(jù)處理引擎,用于海量數(shù)據(jù)的迭代計算。所以,需要進(jìn)行迭代計算的頻繁項集挖掘算法,如Apriori算法,非常適合基于Spark來設(shè)計和實現(xiàn)。因此,目前基于Spark的頻繁項集挖掘算法,都是Apriori算法的改進(jìn)算法。它們的優(yōu)點是挖掘效率很高,并且容錯能力強(qiáng)。
18、但是,它們需要產(chǎn)生大量的候選項集,且各節(jié)點之間需要進(jìn)行大量的通信。2.1.7推薦算法基于內(nèi)容的個性化推薦基于內(nèi)容的推薦主要以用戶以前喜歡的項目為依據(jù),而不依靠其他用戶對項目評價,是基于項目的內(nèi)容進(jìn)行分析。首先是要對每個項目進(jìn)行分析,提取出描述項目特征的相關(guān)屬性,然后要分析用戶以前喜歡的或者不喜歡的項目,同樣提取出相關(guān)屬性,最后根據(jù)用戶喜歡與不喜歡的項目的相關(guān)屬性與其他待推薦的項目的屬性行判斷,選出用戶可能感興趣的項目推薦給用戶?;陉P(guān)聯(lián)規(guī)則的推薦基于關(guān)聯(lián)規(guī)則的推薦是依據(jù)關(guān)聯(lián)規(guī)則進(jìn)行推薦的推薦算法。協(xié)同過濾協(xié)同過濾推薦(Collaborative Filtering Recommendation
19、)算法在推薦系統(tǒng)中是最基本的推薦算法,它是現(xiàn)在推薦系統(tǒng)中最成熟,也是應(yīng)用最廣泛的推薦算法。該算法不但在學(xué)術(shù)界被許多專家深入研究,同時在工業(yè)界也得到普遍應(yīng)用。它主要是根據(jù)具有共同經(jīng)驗和相同興趣的用戶群的偏好來推薦用戶可能偏愛的項目,每個用戶可以通過某種方式(比如評分)對項目進(jìn)行評定來表達(dá)自己對項 目的好感,可以通過記錄用戶對項目的評定來過濾項目,從而來幫 助其他用戶更好的篩選項目。協(xié)同過濾推薦算法一般分為兩種,分別是以項目為主的基于項目的協(xié)同過濾,以及以用戶為主的基于用戶的協(xié)同過濾?;谟脩簦║ser-Based)的協(xié)同過濾推薦算法的思想:根據(jù)目標(biāo)用戶的最近鄰居的喜好為目標(biāo)用戶推薦其尚未接觸過的
20、項目。用戶-項目評分矩陣直接反映了用戶對項目的喜愛程度,簡單、易理解且在評分?jǐn)?shù)據(jù)較多的情況下,可以準(zhǔn)確的發(fā)現(xiàn)目標(biāo)用戶未接觸的可能喜歡的項目?;陧椖浚↖tem-Based)的協(xié)同過濾推薦算法的依據(jù)是項目之間的相似性,根據(jù)用戶對目標(biāo)項目的鄰居的評分?jǐn)?shù)據(jù)預(yù)測用戶可能對目標(biāo)項目的評分。項目之間的相似性是基于項目的協(xié)同過濾算法的關(guān)鍵因素。它具有明顯的優(yōu)勢,例如,其不需要考慮用戶之間的差別和用戶的歷史數(shù)據(jù),并且項目之間的相似性較為穩(wěn)定,所以可以用離線的方式完成較大的相似性的統(tǒng)計,這樣可以降氐在線的工作量提高效率。2.1.8可視化展示大數(shù)掘可視化主要是用可視分析的方法來探索大數(shù)據(jù)中隱藏的有價能的信息。可視
21、分析概念提出時擬定的目標(biāo)之一即是面向大規(guī)模、動態(tài)、模糊或者常常一致。大數(shù)據(jù)可視化在利用大數(shù)據(jù)自動分析挖掘方法的同時,利用支持信息可視化的用戶界面以及支持分析過程的人機(jī)交互方式與技術(shù),有效融合計算機(jī)的計算能力和人的認(rèn)知能力,獲得對于大規(guī)模復(fù)雜數(shù)據(jù)集的洞察力大數(shù)據(jù)可視化有效結(jié)合了計算機(jī)的計算能力和人的認(rèn)知能力,從而可以有效地得到觀察大數(shù)據(jù)的能力。2.2算法框架算法框架中,第一步需要對分析業(yè)務(wù)的問題進(jìn)行明確定義,如屬于分類或者回歸或是其他問題;第二步需要分離數(shù)據(jù),通過交叉驗證的方法提高模型的魯棒性了;第三步是形成會員、工會組織、普惠制活動特征棧,將數(shù)據(jù)轉(zhuǎn)化為模型所需要的形式;第四部是組合各特征棧形成
22、總特征棧;第五步是分解,目的是為了進(jìn)一步優(yōu)化模型心流程如下;第六步是特征選擇,通過剔除冗余特征數(shù)據(jù),避免“維度災(zāi)難”;第七步是選擇算法訓(xùn)練,需要對參數(shù)進(jìn)行最優(yōu)化,對模型進(jìn)行評估,從而得到最優(yōu)的模型;第八步是根據(jù)最優(yōu)的模型,對待分析數(shù)據(jù)進(jìn)行分析挖掘,生成分祈結(jié)果報告。圖2-2 大數(shù)據(jù)分析核心流程3、業(yè)務(wù)場景3.1會員數(shù)據(jù)分析(1)會員特征分析會員基礎(chǔ)數(shù)據(jù)中,主要包含人口學(xué)統(tǒng)計學(xué)變量,包括年齡、性別、婚姻、教育程度、職業(yè)、地理信息等。通過選擇統(tǒng)計指標(biāo)項,用戶可從時間維度、空間維度、行業(yè)維度、數(shù)據(jù)指標(biāo)維度等實現(xiàn)對會員數(shù)據(jù)的統(tǒng)計分類管理。比如,對公有制企業(yè)與非公企業(yè)的會員數(shù)量進(jìn)行逐年統(tǒng)計,可以得出不同
23、類型工會組織下會員的增長速度對比;對會員在地理、教育程度等維度進(jìn)行統(tǒng)計,可以得出不同區(qū)域會員的文化水平,對教育培訓(xùn)的整體規(guī)劃起到參考。(2)“會員幸福度”分析“會員幸福度”分析,是對會員參與的活動信息(活動類型、活動時間、活動評價、消費記錄等)進(jìn)行挖掘,通過設(shè)計“會員幸福度”等特征,對會員的生活幸福感進(jìn)行量化分析,建立預(yù)測模型進(jìn)行預(yù)測。(3)會員信用分析會員信用管理,主要是針對會員的信用進(jìn)行管理,主要包括會員信用管理,信用黑名單等功能。通過對會員申請服務(wù)項目、參加服務(wù)項目的歷史信息,如職工大講堂參與檔案、活動場所租借、文化體育活動組織、困難幫扶檔案等信息,建立會員的信用檔案。(4)會員卡數(shù)據(jù)分
24、析會員卡數(shù)據(jù)分析,是通過對會員的會員卡消費記錄、使用日志數(shù)據(jù)進(jìn)行挖掘分析,發(fā)掘會員對會員卡的使用模式。通過對會員卡數(shù)據(jù)分析,可以建立數(shù)學(xué)模型,對已退休或已長時間不在_省范圍內(nèi)工作的會員卡進(jìn)行識別,方便歸檔管理。對于會員卡的使用頻率不同的用戶群,可以挖掘其內(nèi)在的使用模式差異性,從而通過推薦其感興趣的服務(wù)活動,提高會員的體驗,提高其使用會員卡活躍度。(5)會員聚類會員聚類,是對在人口統(tǒng)計學(xué)特征、參加服務(wù)活動的情況(感 興趣的服務(wù)活動類型,參加服務(wù)活動頻次,對服務(wù)活動的服務(wù)評價等)、維權(quán)需求等維度,進(jìn)行會員間的相似性計算,形成具有內(nèi)在相似性、同質(zhì)性的會員畫像簇。在形成會員畫像簇的基礎(chǔ)上,發(fā)現(xiàn)其有意義
25、的模式。如對某類型服務(wù)活動感興趣的會員,在教育背景、職業(yè)等方面的同質(zhì)性;對某類型維權(quán)信息感興趣的會員,在工 會組織類型等方面的同質(zhì)性等。通過會員畫像簇的分析,得到_省工會會員的在不同維度上的特征分布情況。會員簇特征分析是會員管理、服務(wù)管理中的一個重要的組成部分。通過會員群體特怔分析,工會可以更好地理解會員需求,發(fā)現(xiàn)會員群體的行為規(guī)律。基于這些理解和規(guī)律,總工會可以制定相應(yīng)的眼務(wù)、培訓(xùn)活動規(guī)劃策略。同時還可以針對不同會員簇進(jìn)行交叉分析,發(fā)現(xiàn)會員簇間的變化規(guī)律。(6)會員時空軌跡分析會員的所屬工會,入會退會時間,消費追蹤記錄中中會員的消費時間地點等信息,參加服務(wù)活動的地點時間等信息,這些數(shù)據(jù)都是具
26、有時空屬性的特征。會員時空軌跡分析方法主要用于處理移動用戶的時空軌跡數(shù)據(jù),通過聚類、關(guān)聯(lián)規(guī)則等方法,從時空軌跡數(shù)據(jù)中提取相似性與異常特征,發(fā)現(xiàn)其中有意義的模式,目的是將具有相似行為的時空對象劃分到一起,而將具有相異行為的時空對象劃分開來。a.時空軌跡可視化將會員在真實世界的訪問位置數(shù)據(jù)從時空等角度進(jìn)行可視化,可以直觀地觀察用戶的活動范圍,觀察會員在一段時間內(nèi)到某消費場所頻率,并比較各個城市間用戶活動時間的差異以及會員主要訪問的地理位置類型。b.提供基于位置的服務(wù)基于位置的服務(wù)(LBS)是一種信息服務(wù),它基于移動設(shè)備的位置信息并通過移動網(wǎng)絡(luò)為該設(shè)備提供的一種信息服務(wù)。其區(qū)別于其他傳統(tǒng)網(wǎng)絡(luò)服務(wù)的特
27、點在于上下文感知性以及應(yīng)對上下文變化的適應(yīng)性。上下文是指描述某個實體狀態(tài)的任何信息。上下文信息一般包括:移動地圖、用戶位置、時間、導(dǎo)航歷史、使用目的、運(yùn)動方向、物理環(huán)境和系統(tǒng)屬性以及社會和文化狀況在服務(wù)中,由于上下文信息的變化,平臺需要在信息級、技術(shù)級、用戶界面級和顯示級做出相應(yīng)的變化。通過對會員時空軌跡進(jìn)行分析,對會員的狀態(tài)進(jìn)行感知,獲取其在位置移動、時間、移動方向等上下文信息的變化,為其推送周邊其感性趣的服務(wù)或活動。3.2工會組織數(shù)據(jù)分析(1)組織基礎(chǔ)數(shù)據(jù)統(tǒng)計分析組織基礎(chǔ)數(shù)據(jù)通過選擇統(tǒng)計指標(biāo)項,總工會可從時間維度、空間維度、行業(yè)維度、數(shù)據(jù)指標(biāo)維度等實現(xiàn)對工會組織的統(tǒng)計分類管理。對企業(yè)數(shù)量的
28、統(tǒng)計工作,分地市分區(qū)進(jìn)行統(tǒng)計,可以準(zhǔn)確精準(zhǔn)定位基層工會的分布情況,使各級管理部門了解全省基層工會實際情況。同時,統(tǒng)計的數(shù)據(jù)呈現(xiàn)方式用戶可以根據(jù)自身需求,選擇自由切換,如:表格、柱狀圖、折線圖、餅圖等。(2)工會組織聚類分析工會組織聚類,是對在組織基礎(chǔ)信息、提供活動的情況(提供的活動類型,提供服務(wù)活動頻次等)等,進(jìn)行工會組織間的相似性計算,形成具有內(nèi)在相似性、同質(zhì)性的工會組織簇。在形成工會組織簇的基礎(chǔ)上,發(fā)現(xiàn)其有意義的模式。如對提供活動類型具有相似分布的工會組織,在工會經(jīng)費、組織地域信息、等方面的同質(zhì)性。通過工會組織簇的分析,得到廣東省工會組織的在不同維度上的特征分布情況。工會組織聚類分析是會員
29、管理、服務(wù)管理中的一個重要的組成部分。工會可以更好地理解工會組織與活動的內(nèi)在聯(lián)系?;谶@些理解和規(guī)律,總工會可以制定相應(yīng)的服務(wù)、培訓(xùn)活動規(guī)劃策略,同時還可以針對不同工會組織進(jìn)行交叉分析,發(fā)現(xiàn)工會組織簇間的變化規(guī)律。(3)工會組織履職分析工會會員、工會實名制信息可以通過大數(shù)據(jù)平臺進(jìn)行數(shù)據(jù)比對、數(shù)據(jù)校驗,形成數(shù)據(jù)質(zhì)量分析,從此可對工會組織在實名制信息采集的成果上形成分析評估。同時,結(jié)合工會組織的活動類型、活動經(jīng)費、活動評價反饋等信息,統(tǒng)計服務(wù)參與度、會員滿意度功能,對工會在服務(wù)活動方面的成果形成量化分析,進(jìn)而可以對工會組織的履職情況進(jìn)行大數(shù)據(jù)分析。(4)企業(yè)風(fēng)險分析通過對接外部數(shù)據(jù)源中的企業(yè)信息,
30、結(jié)合該企業(yè)下的工會組織的會員異動情況等數(shù)據(jù),進(jìn)行建模分析,可以得到對企業(yè)風(fēng)險的預(yù)估分析,有助于進(jìn)行提前治理,提前疏導(dǎo)工情。3.3普惠制服務(wù)大數(shù)據(jù)分析挖掘(1)服務(wù)基礎(chǔ)數(shù)據(jù)統(tǒng)計分析根據(jù)普惠制服務(wù)實施情況,統(tǒng)計會員參與情況、工會組織參與情況、普惠制服務(wù)受歡迎程度情況(Top10)等。對于單個服務(wù)活動或同種類型的服務(wù)活動,可以進(jìn)行時間縱向分析,幫助于服務(wù)提供方進(jìn)行調(diào)整。對普惠制服務(wù)活動在時間空間分布上進(jìn)行統(tǒng)計分析,發(fā)掘其在時空分布上的內(nèi)在規(guī)律。(2)普惠制服務(wù)活動關(guān)聯(lián)分析對大量普惠制服務(wù)活動進(jìn)行分析,提取潛藏在普惠制服務(wù)活動里的實體和實體間的關(guān)系,從而發(fā)現(xiàn)普惠制服務(wù)之間共同提及的活動場所、人物、工會組織和地點等關(guān)鍵信息,并根據(jù)不同的關(guān)系進(jìn)行對應(yīng)的關(guān)聯(lián)和分析操作。普惠制服務(wù)活動關(guān)聯(lián)分析可用于在工會普惠制服務(wù)活動審核中,進(jìn)行活動的可行性分析;可用于普惠制服務(wù)活動推薦等場景。(3)普惠制服務(wù)活動推薦服務(wù)活動推薦,是根據(jù)工會會員的基礎(chǔ)信息,與服務(wù)活動的交互歷史、新上線的服務(wù)基礎(chǔ)信息等信息,向工會會員推薦其可能感興趣的服務(wù)活動。推薦模型可以分為,基于協(xié)同過濾的推薦。以及基于預(yù)測模型的推薦?;趨f(xié)同過濾的推薦,是指首先形成會員畫
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年高三數(shù)學(xué)期末升華全真卷
- 2025年大學(xué)建筑風(fēng)能設(shè)計期末試卷
- 七年級英語初中英語閱讀理解閱讀的教案含答案(2025-2026學(xué)年)
- 2026年廈門市濱北小學(xué)補(bǔ)充非在編頂崗人員招聘備考題庫及答案詳解一套
- 2025-2030悉尼汽車零部件制造業(yè)技術(shù)發(fā)展規(guī)模市場需求競爭投資評估
- 2025-2030微生物肥料行業(yè)市場現(xiàn)狀供需分析投資評估規(guī)劃研究報告
- 2025-2030建筑設(shè)計行業(yè)市場現(xiàn)狀分析及品牌戰(zhàn)略投資規(guī)劃咨詢報告
- 2025-2030建筑裝飾行業(yè)綠色建材推廣與市場競爭策略分析
- 2025-2030建筑裝飾行業(yè)分析供應(yīng)鏈管理與現(xiàn)代設(shè)計報告
- 2025-2030建筑裝修行業(yè)市場發(fā)展分析與發(fā)展趨勢及投資前景預(yù)測報告
- DB46-T 481-2019 海南省公共機(jī)構(gòu)能耗定額標(biāo)準(zhǔn)
- 勞動合同【2026版-新規(guī)】
- 電子元器件入廠質(zhì)量檢驗規(guī)范標(biāo)準(zhǔn)
- 中藥炮制的目的及對藥物的影響
- 688高考高頻詞拓展+默寫檢測- 高三英語
- 學(xué)生公寓物業(yè)管理服務(wù)服務(wù)方案投標(biāo)文件(技術(shù)方案)
- 食品檢驗檢測技術(shù)專業(yè)介紹
- 2025年事業(yè)單位筆試-貴州-貴州財務(wù)(醫(yī)療招聘)歷年參考題庫含答案解析(5卷套題【單項選擇100題】)
- 二年級數(shù)學(xué)上冊100道口算題大全(每日一練共12份)
- 空壓機(jī)精益設(shè)備管理制度
- 國家開放大學(xué)《公共政策概論》形考任務(wù)1-4答案
評論
0/150
提交評論