大數(shù)據(jù)數(shù)據(jù)分析項目實踐_第1頁
大數(shù)據(jù)數(shù)據(jù)分析項目實踐_第2頁
大數(shù)據(jù)數(shù)據(jù)分析項目實踐_第3頁
大數(shù)據(jù)數(shù)據(jù)分析項目實踐_第4頁
大數(shù)據(jù)數(shù)據(jù)分析項目實踐_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

大數(shù)據(jù)數(shù)據(jù)分析項目實踐

一、實踐目的

伴隨著互聯(lián)網(wǎng)的高速發(fā)展,數(shù)據(jù)的大量出現(xiàn),我們正在逐步邁入“大數(shù)據(jù)”

時代,最早提出“大數(shù)據(jù)”時代到來的是全球知名咨詢公司麥肯錫,麥肯錫稱:

“數(shù)據(jù),已經(jīng)滲透到當今每一個行業(yè)和業(yè)務職能領域,成為重要的生產(chǎn)因素。人

們對于海量數(shù)據(jù)的挖掘和運用,預示著新一波生產(chǎn)率增長和消費者盈余浪潮的到

來J其實,“大數(shù)據(jù)”一直存在在我們生活中,只是因為以前受限于科學技術

的發(fā)展,大家都沒有發(fā)覺到它,或者說是注意到它,隨著現(xiàn)代社會科學的進步,

客觀處在的“大數(shù)據(jù)”才被人們注意到,就像磁場、電波等等這些客觀存在,但

是受限于科學技術水平,到近百年才被人類發(fā)現(xiàn)?!按髷?shù)據(jù)”亦是如此。從硝煙

彌漫的戰(zhàn)場,到包羅萬象的網(wǎng)絡世界,從日新月異的經(jīng)濟世界,再到普普通通的

百姓生活?!按髷?shù)據(jù)”無處不在,只是在這幾年才引起人們的注意。社會和科學

技術的飛速發(fā)展造就了“大數(shù)據(jù)”,從某種意義上來說,“大數(shù)據(jù)”是這個社會和

科學技術高速發(fā)展下的一個產(chǎn)物。

作為新時代的大學生,作為一名統(tǒng)計學專業(yè)的學生,就要走與時俱進的思維,

要緊跟時代的步伐,掌握新興的知識,學習和大數(shù)據(jù)想關的技能,是我們的責任

和義務,在學習到一門知識的同時,掌握一門可以在這個競爭壓力巨大的社會中

立足的技能,感謝我的母校,給了我一個如此之好的機會,通過本次的暑期實訓,

讓我們學習和掌握對于報表的的要求和制作,Python的安裝及使用以及MySQL

的數(shù)據(jù)爬取。同時,也希望同學們通過此次暑期實訓,能夠認識和了解自己的不

足之處,并且在剩下的大學時光里讓自己變得更加優(yōu)秀,查漏補缺。讓自己在畢

業(yè)之際,能夠有能力選擇自己所喜好的工作,完成一個還算華麗的大學謝幕。

二、實踐內(nèi)容

1

報表的制作(帆軟的學習與運用)

數(shù)據(jù)的爬?。≒ylhon的學習與運用)

數(shù)據(jù)庫的構(gòu)建(MySQL的學習與運用)

實踐成果(運用帆軟進行報表的制作,數(shù)據(jù)自行采集)

三、實踐過程

1.報表的認識和制作

暑期實踐學習的第一個部分,即為報表的制作。所用到的軟件是帆軟帆軟是

達孜帆軟軟件有限公司旗下商業(yè)智能和數(shù)據(jù)分析品牌。帆軟是達孜帆軟軟件有限

公司旗下商業(yè)智能和數(shù)據(jù)分析品牌。帆軟報表又名FineReporl,web報表工具,

用戶可以借助具輕松的構(gòu)建出靈活的數(shù)據(jù)分析和報表系統(tǒng),大大縮短項目周期,

減少實施成本,最終解決企業(yè)信息孤島的問題,使數(shù)據(jù)真正產(chǎn)生其應用價值。首

先學習帆軟從認識帆軟的工具欄開始,認識帆軟的工具欄,了解其各種不同的作

用。然后開始學習帆軟報表制作的第一步。

帆軟項目連接Oracle數(shù)據(jù)庫。操作如下:

(1)打開模板設計器,單擊[服務器],選擇[定義數(shù)據(jù)連接]

(2)單擊[+],選擇[JDBC]

(3)數(shù)據(jù)庫選擇[Oracle],驅(qū)動器選[oracle,jdbc.driver.OracleDriver]0

(4)輸入URL,例如:jdbc:oracle:thin:@x:y:z,其中,x為IP地址,y為端

口號,z為實例名。

(5)輸入用戶名、密碼。點擊測試連接按鈕,測試0K,確定。

連接數(shù)據(jù)庫成功后,開始構(gòu)建模板數(shù)據(jù)集,編輯查詢語句,制作報表。操作

如下:

(1)創(chuàng)建模板數(shù)據(jù)集:單擊[+],選擇[數(shù)據(jù)庫查詢]。

(2)編輯查詢語句,可單擊預覽查詢結(jié)果。單擊保存后,左下方模板數(shù)據(jù)集中

出現(xiàn)dsl的數(shù)據(jù)庫查詢實例。

2

(3)單擊文件,新建普通報表。拖動查詢字段到報表中,選擇從左往右,完成

字段的自動添加功能。

(4)在瀏覽器中預覽。點擊左上角預覽鍵。

帆軟圖表的繪制

(1)創(chuàng)建模板數(shù)據(jù)集:單擊[+],選擇[數(shù)據(jù)庫查詢]。

(2)編輯查詢語句,可單擊預覽查詢結(jié)果。單擊保存后,左下方模板數(shù)據(jù)集中

出現(xiàn)dsl的數(shù)據(jù)庫查詢實例。

(3)單擊文件,新建決策報表。

(4)在圖表一欄選擇自己所需要的圖表,并且將其拖拽到新建的決策報表中。

(5)在右側(cè)的控件設置中,在數(shù)據(jù)一欄對所選擇圖表的數(shù)據(jù)來源、數(shù)據(jù)集、系

列名、值、匯總等項進行綁定和設置。在類型一欄,對自己選用圖表類型進行設

置。

(6)同樣在右側(cè)的控件設置中,對自己所需要的樣式,和特效進行設置。

(7)在瀏覽器中預覽。點擊左上角預覽鍵。

通過對此次帆軟報表的學習,對數(shù)據(jù)的處理,有了全新的認識。也然我對于

我自己的專業(yè)一一統(tǒng)計學,有了全新的認識。原來處理數(shù)據(jù)不光是我們所學習用

到的sas軟件,r語言。還有其他很多優(yōu)秀的軟件但從制作報表來看,sas和r

確實不如帆軟來的那么簡單粗暴。原來統(tǒng)計的運用還是挺廣泛的。

2.數(shù)據(jù)的爬取

數(shù)據(jù)的爬取是對python的學習以及運用,Python是一種跨平臺的計算機程

序設計語言。是一種面向?qū)ο蟮膭討B(tài)類型語言,最初被設計用于編寫自動化腳本

(shell),隨著版本的不斷更新和語言新功能的添加,越來越多被用于獨立的、

大型項目的開發(fā)。Python的學習從最基礎的語法開始,與之對應的是學習起來

也相對更簡單一些。同時Python的動態(tài)語言特性也是區(qū)別于Java的靜態(tài)語言的,

這一點我現(xiàn)在還沒有什么感受,畢竟才剛學半個月,而但是Java給我的感覺就

3

是很嚴謹,甚至有些刻板。以下是python學完后的收獲:

(1)python中雙引號和單引號作用一樣,print'helloWorld'和print"hello

World”是一樣的(print語句中連接字符串用,)。

(2)python,使用變量,不需要定義類型,只要賦初值就行,和javascript中定

義變量有點類似,只是更簡單了,連var都不需要。

(3)基本語法:

importsys〃導入模塊

sys.getsizeof(a)〃占用空間

type(a)〃a的類型

2的3次方寫法:2**3

a.len()或len(a)//數(shù)組的長度

a[2]//數(shù)組的讀取

a[-l]〃讀取倒數(shù)第一個數(shù)據(jù)

a.pop()〃彈出

a/3〃不支持除法

a.(0,,x')〃在第0位之前插入x

a.append(1)〃增加‘1’

a.count('x')〃計算a中有兒個元素'x'

a.removed.5)〃移除1.5

a.clear()//清除'

(4)python語法相對比較簡單,對比類似于R語言。只需要保證正常的程序編

寫規(guī)范,該對齊的對其,該縮進的縮進。

(5)python中的控制語句,if,while,for。條件都沒有括號,條件都后必須

加:,while也可以有else語句。

(6)python,模塊的概念,即把一個程序提出來公用,也是一個普通的python文

件,在其它要調(diào)用的程序中import模塊名就0K了,然后使用模塊名,方法就可

以用其方法,也可from模塊名import方法名,然后直接調(diào)用方法即可。

(7)python中的元組、列表、字典的表示。起始值為0;其定義如下:

mylist=['apple'banana'orange']歹(I表

4

zoo=('aaa','bbb','ccc')元組

die=tzhang:san,11:si,wang:wuJ

在學習Python的過程中我了解到了Python的數(shù)據(jù)處理能力和爬蟲,數(shù)據(jù)處

理不僅僅需要Python語言的支持,更多的是分析數(shù)據(jù)的能力,爬蟲呢相對來說

就比較簡單了,因為之前也接觸過一點Web的知識,參加過一個月的甲骨文培訓I,

所以對于爬蟲的理解也不是太過難。老師的講解也十分清楚,收獲頗多。

3.數(shù)據(jù)庫的構(gòu)建(MySQL的學習與運用)

數(shù)據(jù)庫的構(gòu)建是kMySQL的學習,以下是有關學習內(nèi)容:

三大范式:

(1)數(shù)據(jù)庫字段單元保證最小,不能再分,例如地區(qū):能夠準確到上海即上海,

而不用中國C

(2)字段要與主鍵有相關性。

(3)字段與主鍵的相關性要是直接相關(非間接相關)

事務四大準則:

(1)原子性:即整個事務是不可切分的;不能只執(zhí)行其中某一部分。

(2)-一致性:事務發(fā)生前后,數(shù)據(jù)庫狀態(tài)變化應該是一致的。

(3)隔離性:事務之間是孤立的,不會相互影響。

(3)持久性:事務一旦執(zhí)行完畢,數(shù)據(jù)庫的變化是持久的。

createdatabase數(shù)據(jù)庫名創(chuàng)建數(shù)據(jù)庫

dropdatabaseifexists數(shù)據(jù)庫名如果數(shù)據(jù)庫已經(jīng)存在刪除數(shù)據(jù)庫

use數(shù)據(jù)庫名選擇數(shù)據(jù)庫

createtableuserinfo(

idmcdiuiiiiiil(8)nutnulluuloiiiuruiiicul,

tokenvarchar(60)notnull,

wecha_idvarchar(60)notnull,

truenamevarchar(60)notnull,

sextinyint(1)notnul1,

regtimeint(11)notnull,

5

primarykey(id)

)創(chuàng)建表

describe查詢表結(jié)構(gòu)

showcreatetableuscrinfo查看表類型

createtablecopyonelikeuserinfo;復制表結(jié)構(gòu)

createtablecopytwoselect*fromuserinfo;復制表結(jié)構(gòu)及內(nèi)容

droptablecopyone;刪除表

altertablecopytworenameuserinfotwo;修改表名

altertableuserinfotwoaddageint(3;;增加字段

altertableuscrinfochangesexuser_sexchar(2)notnull:

修改表字段和類型

altertableusorinfomodifyuser■'nt(1)not.null:只修改

表類型,不改名

altertableuserinfodropuser_sex;刪除表中的字段

deletefromuserinfotwo;刪除表中所有記錄

truncatefromuserinfotwo;刪除表記錄

truncate命令不管表中有多少條記錄,它都是刪除表,然后重建該表,而delete

命令是將表中所有記錄一個一個刪除。相比之下,truncate命令要比delete命

令快得多,特別是記錄非常多時尤為明顯。

createindexuindexonuserinfo(name);向已存在的表添加索引

本次實踐所學習的三部分內(nèi)容即為最為基本的數(shù)據(jù)分析所需要的途徑:數(shù)據(jù)

的采集,數(shù)據(jù)的儲存,數(shù)據(jù)的處理。這次實踐讓我收獲頗豐。

4.實踐成果(項目實訓)一一2018年西安財經(jīng)大學各省份錄取情況

對西安財經(jīng)大學2018年各省份的錄取情況進行調(diào)查,收集數(shù)據(jù),整理表格。

數(shù)據(jù)來源網(wǎng)站:西安財經(jīng)大學本科招生信息網(wǎng)

數(shù)據(jù)來源網(wǎng)址:http:〃zhaosheng.xaufe.edu.cn

6

整理得到以下表格(部分表格截取不全)

ABCD

1專業(yè)錄取人數(shù)

2統(tǒng)計學61

3財政學59

4會計字145

5金融學135

6經(jīng)濟學60

7信息管理與信息系統(tǒng)36

8電子商務84

9法學153

I0旅游管理44

11漢語言文學45

I2物流管理127

I3工程管理98

I4

I5

I6

17

口1乙▼J*I

A

BCDEF

M業(yè)錄取人數(shù)

統(tǒng)

161

2一59

3一

金145

4一

經(jīng)

濟135

息60

Dt

561p-

t36

7一

8一

9一

101

11J

121

131

14J

151

16J

7

ABCDEFG

1專業(yè)錄取人數(shù)最高分最低分平均分

2人力斐源管理73528511516.3

3城市管理73527511514.9

4會計學69567525531.5

5行政管理69522511514.5

6市場營消67525512519.2

7公共事業(yè)管理66518512515.4

8物流管理64523511515.3

9金融學63562521526.1

10財務管理57534517522.7

11漢語言文學'45538515518.6

12

13

14

15

16

17

18

4A

4I

ABCDEFGH

1類別錄取人數(shù)最低分最高分平均分地區(qū)錄取地點

2文史22543579570.4云南省陜西省

3理工25516547525云南省陜西省

4文史16540553545.4內(nèi)蒙古自治區(qū)陜西省

5理工20510561537.5內(nèi)蒙古自治區(qū)陜西省

6文史2546549547.5北京市陜西省

7理工3496500498北京市陜西省

8文史10515537528.7吉林省陜西省

9理工20472527508.4吉林省陜西省

10文史30556563559.5四川省陜西省

11理工41548563552.4四川省陜西省

12文史10519544526.2天津市陜西省

13理工30494537506.5天津市陜西省

14文史12532543536.3寧夏回族自治區(qū)陜西省

15理工23462517475.6寧夏回族自治區(qū)陜西省

16文史20563571565.9安徽省陜西省

17理工33502534515.7安徽省陜西省

18文2山東省陜西省

19理工33538567544.9山東省陜西省

20文史21544554546.4山西省陜西省

21理工29514530517.3山西省陜西省

22文史9536540538廣東省陜西省

23理工11481514497.5廣東省陜西省

24文史11335337336江蘇省陜西省

25理工12333338334.6江蘇省陜西省

26文史16571576572.9江西省陜西省

27理工29523538525.8江西省陜西省

28文史19568596582河北省陜西省

29理工33524546'533.1河北省陜西省

M?>N丁識別結(jié)果

8

A10▼大數(shù)據(jù)技術

ABC~0~EFG

1專業(yè)錄取人數(shù)最高分最低分平均分

2工程管理98’489'473’476.2

3軟件工程94'481’473'475.2

4電子商務84'515'473'476.4

5經(jīng)濟統(tǒng)計學’79'486'473'476.2

6會計學’76534492'501.2

7金融學’72'526'477'4845

8物流管理63'486'473'475.6

9統(tǒng)計學61'506'474'479

10大數(shù)據(jù)技汴60'518'475479.1

11網(wǎng)絡工程’50'485'473’474.6

12

13

14

15

16

17

18

19

20

21

帆軟項目連接Oracle數(shù)據(jù)庫。開始構(gòu)建模板數(shù)據(jù)集,編輯查詢語句,新建

決策報表,拖拽所需的統(tǒng)計圖表,綁定數(shù)據(jù),設置用關圖表的類型,樣式和特效。

女伴fllW事為32X動社@日志|,青11:51:20ATTTv?a2u?uDDJKB(ata4axJ)invalidckaxtDinIyT?JS0國*

!C團現(xiàn)??,目■、-X,。x>按廂

8?值實利大展(|fr?“■X

?觸ioa80日:

,E

■Jttia<5ta“de>t

-Z0BR

驗各地叵呆即偈況

?各地區(qū)乘用情況《,淞

-

,,,財邑專立

破?射一凝看立錄?

?:?文史奇11乘用情&

9

預覽報表效果

以小組合作的方式,完成了最后的實踐成果,實踐項目一一2018年西安財

經(jīng)大學各省份錄取情況。大概實踐的最后一課就是團隊協(xié)作吧!最后這個實戲項

目的完成,也讓我明白了團隊的重要性。感謝我的團隊,如果不是他們,實訓項

目就不會完成的這么輕松,這么高效。

三、實踐體會

我們現(xiàn)在很多人都缺少動手能力,社會是我們練習的場所,是我們超車的好

時段,成長是需要付出的,鮮花也需要經(jīng)歷風雨。我們更需要去社會中闖蕩,去

社會中發(fā)展。通過這次暑期實踐,學習到了許多之前沒有接觸過的知識,很開心,

特別是Python的學習,通過講解與小項目的培訓|,使我加深了對python的認識。

因為之前有學R語言的基礎,所以這次實訓入門時也相對容易許多。這是我第一

次接觸到Python語言,但不是我學習的第一種語言。它的邏輯規(guī)則和和語法與

R語言和sas相比存在很大的相似之處,在對數(shù)據(jù)進行處理時有種似曾相識之感。

實習安排是逐漸加深的,所以跟隨課程學習相對容易。老師的講解也很清晰透徹。

也然我明白了學校是保護我們的地方,也是我們學習的場所,在學校我們可

以盡情的學習,不用擔心外面的紛擾,但是我們已經(jīng)長大,已經(jīng)不是小孩子,我

10

們已經(jīng)是大學生,我們也即將邁出校園,走進社會了,如果一直都不去了解外面

的世界,一心只讀圣賢書,這樣的我們?nèi)鄙倭嗽撚械挠柧殻撚械哪サZ,一匹千

里馬如果不能夠馳騁

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論