【畢業(yè)學(xué)位論文】(Word原稿)Web日志分析的設(shè)計(jì)與實(shí)現(xiàn)-軟件工程_第1頁
【畢業(yè)學(xué)位論文】(Word原稿)Web日志分析的設(shè)計(jì)與實(shí)現(xiàn)-軟件工程_第2頁
【畢業(yè)學(xué)位論文】(Word原稿)Web日志分析的設(shè)計(jì)與實(shí)現(xiàn)-軟件工程_第3頁
【畢業(yè)學(xué)位論文】(Word原稿)Web日志分析的設(shè)計(jì)與實(shí)現(xiàn)-軟件工程_第4頁
【畢業(yè)學(xué)位論文】(Word原稿)Web日志分析的設(shè)計(jì)與實(shí)現(xiàn)-軟件工程_第5頁
已閱讀5頁,還剩25頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大 連 民 族 學(xué) 院 本 科 畢 業(yè) 設(shè) 計(jì)(論 文) 志分析 的設(shè)計(jì) 與實(shí)現(xiàn) 學(xué) 院(系): 計(jì)算機(jī)科學(xué)與工程學(xué)院 專 業(yè): 軟件工程 學(xué) 生 姓 名: 池涌泉 學(xué) 號(hào): 04083205 指 導(dǎo) 教 師: 段曉東 評(píng) 閱 教 師: 完 成 日 期: 大連 民族學(xué)院 志分析的設(shè)計(jì)與實(shí)現(xiàn) - I - 摘要 隨著 務(wù)的發(fā)展 ,幾乎各個(gè)政府部門,公司,大專院校,科研院所等都在構(gòu)建或正在建設(shè)自己的網(wǎng)站。而與此同時(shí),在構(gòu)建網(wǎng)站建設(shè)中各個(gè)單位都會(huì)遇到各種各樣的問題,那么對(duì) 務(wù)器的運(yùn)行和訪問情況進(jìn)行詳細(xì)和周全的分析對(duì)于了解網(wǎng)站運(yùn)行情況,發(fā)現(xiàn)網(wǎng)站存在的不足,促進(jìn)網(wǎng)站的更好發(fā)展重要性是不言而喻的。 在這次的設(shè)計(jì)中,完成的是一個(gè) 志分析程序, 就是來實(shí)現(xiàn)對(duì)網(wǎng)站的運(yùn)行和訪問情況分析,這次設(shè)計(jì)的主要思路是設(shè)計(jì)一個(gè)過濾器來將所關(guān)心的 信息進(jìn)行過濾并存儲(chǔ)到數(shù) 據(jù)庫中, 如訪問者的 問者的路徑等, 然后 通過 篩選 數(shù)據(jù)庫 中的數(shù)據(jù) 對(duì) 需完成 的功能模塊有 用戶的來源分析,流量分析, 訪問路徑分析 ,網(wǎng)頁的相關(guān)性分析。 要完成本次設(shè)計(jì)要對(duì)以下幾個(gè)知識(shí)點(diǎn)要有一定的了解,首先是對(duì) 務(wù)器的發(fā)送,接受請(qǐng)求要明確的認(rèn)識(shí),對(duì)過濾器的功能有一定的了解,對(duì)關(guān)聯(lián)規(guī)則 有所掌握,對(duì)圖存儲(chǔ)結(jié)構(gòu)中的鄰接矩陣 有一定的認(rèn)識(shí)并能夠完成該算法在程序中的應(yīng)用。 關(guān)鍵詞: 志分析, 過濾器,關(guān)聯(lián)規(guī)則, 鄰接矩陣 志分析的設(shè)計(jì)與實(shí)現(xiàn) - of on eb so on in or At in in of of eb in of to he of is In of a is to of of is to a to be of to of n as s s in on eb of to is of of To on to a of of on eb to to a of of a to On in a be to in 志分析的設(shè)計(jì)與實(shí)現(xiàn) - 目 錄 摘 要 . I . 引言 . 1 計(jì)基本前提和條件 . 1 內(nèi)外研究現(xiàn)狀 . 1 驗(yàn)方案的擬定 . 2 發(fā)環(huán)境及開發(fā)環(huán)境,語言 . 2 2 關(guān)鍵技術(shù)介紹 . 3 據(jù)挖掘 . 3 掘 . 3 濾器 . 3 聯(lián)規(guī)則 . 4 . 4 3 系統(tǒng)設(shè)計(jì) . 5 要設(shè)計(jì) . 5 體設(shè)計(jì) . 5 能模塊說明 . 6 統(tǒng)用例圖,流程圖 . 6 細(xì)設(shè)計(jì) . 8 濾器設(shè)計(jì) . 8 戶 路徑顯示 . 10 戶 源查詢 . 11 量分析 . 12 頁相關(guān)性分析 . 13 據(jù)庫設(shè)計(jì) . 14 據(jù)庫設(shè)計(jì)設(shè)計(jì)原則 . 14 據(jù)表設(shè)計(jì) . 14 4 系統(tǒng)實(shí)現(xiàn) . 17 統(tǒng)安裝 . 17 統(tǒng)配置 . 錯(cuò)誤 !未定義書簽。 用說明 . 17 志分析的設(shè)計(jì)與實(shí)現(xiàn) - 5 系統(tǒng)測(cè)試 . 19 6 運(yùn)行結(jié)果 . 22 7 測(cè)試結(jié)果 . 錯(cuò)誤 !未定義書簽。 結(jié) 論 . 23 參 考 文 獻(xiàn) . 24 附錄 A 附錄內(nèi)容名稱(調(diào)研報(bào)告) . 錯(cuò)誤 !未定義書簽。 致 謝 . 25 志分析的設(shè)計(jì)與實(shí)現(xiàn) 1 1 引言 1969年 12月在加州大學(xué)洛杉磯分校的一次計(jì)算機(jī)通信試驗(yàn)開始計(jì)算,互聯(lián)網(wǎng)已經(jīng)發(fā)展了 37 年。 37 年來,互聯(lián)網(wǎng)一直被認(rèn)為是信息傳播最快捷,最廉價(jià)的方式。目前在互聯(lián)網(wǎng)的各項(xiàng)應(yīng)用中, 務(wù)充分利用了互聯(lián)網(wǎng)的快捷,開放等特性而普及。 面對(duì)巨大而復(fù)雜的網(wǎng)絡(luò)系統(tǒng)以及浩如煙海的信息資源,研究人員將傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)和 行 掘,從半結(jié)構(gòu)或無結(jié)構(gòu)的 面中,以及使用者的活動(dòng)中,抽取感興趣的、潛在的模式,分析、研究,并加以利用。 幾乎各個(gè)政府部門、企業(yè) /商業(yè)機(jī)構(gòu)、大專院校、科研院所,及成千上萬的個(gè)人都在互聯(lián)網(wǎng)上提供 務(wù)。在大多數(shù)情況下,我們都希望能夠了解公眾對(duì)所發(fā)布的信息的反饋,對(duì) 務(wù)器的運(yùn)行和訪問情況進(jìn)行詳細(xì)和周全地分析,可以及時(shí)了解網(wǎng)站運(yùn)行情況,發(fā)現(xiàn)網(wǎng)站存在的不足,促進(jìn)網(wǎng)站更好地發(fā)展,它的重要性是不言而喻的。管理 站不只是監(jiān)視 速度和 內(nèi)容傳送。它不僅要關(guān)注服務(wù)器每天的吞吐量,還要了解這些 站的外來訪問,了解網(wǎng)站各頁面的訪問情況。根據(jù)各頁面的點(diǎn)擊頻率來改善網(wǎng)頁的內(nèi)容和質(zhì)量,提高內(nèi)容的可讀性,以及跟蹤包含有商業(yè)交易的步驟及管理 站 “ 幕后 ” 的數(shù)據(jù)等。為了更好地提供 務(wù),監(jiān)控 務(wù)器的運(yùn)行情況、了解網(wǎng)站內(nèi)容的詳細(xì)訪問狀況等等就顯得越來越重要和迫切 了。而這些問題都可以通過 據(jù)挖掘而得到解決。 計(jì) 基本前提和條件 本次設(shè)計(jì)是對(duì) 站的進(jìn)行一些相關(guān)的分析,因此需要對(duì)網(wǎng)絡(luò)的相關(guān)知識(shí)有一定的認(rèn)識(shí),還有就是對(duì)數(shù)據(jù)挖掘的知識(shí)有一定的了解因?yàn)檫@次設(shè)計(jì)中的網(wǎng)頁相關(guān)性研究中采用的就是 掘的技術(shù) 實(shí)現(xiàn)手段是數(shù)據(jù)結(jié)構(gòu)中的圖算法 。 問日志記錄了服務(wù)器接收請(qǐng)求以及運(yùn)行狀態(tài)的各種原始信息。通過對(duì)這些信息的統(tǒng)計(jì)、分析和綜合,就可以識(shí)別用戶,了解訪問分布,掌握服務(wù)器的運(yùn)行狀況等,從而改進(jìn)站點(diǎn)的性能和組織結(jié)構(gòu),提高圖書館信息服務(wù)的質(zhì)量和效率。 務(wù)模式 非常簡(jiǎn)單,它主要有以下步驟。服務(wù)請(qǐng)求:客戶端通過瀏覽器向 務(wù)器發(fā)出服務(wù)請(qǐng)求一系列信息。服務(wù)響應(yīng):務(wù)器收到請(qǐng)求后,根據(jù)請(qǐng)求將客戶端要求的信息內(nèi)容返回到客戶端。 內(nèi)外研究現(xiàn)狀 萬維網(wǎng)是到目前為止世界上最豐富和最密集的信息來源。如何開發(fā)和利用這些豐富的資源就成了人們普遍關(guān)注的問題。于是 ,數(shù)據(jù)挖掘技術(shù)和網(wǎng)絡(luò)應(yīng)用研究的結(jié)合 成了當(dāng)今比較活躍的一個(gè)研究領(lǐng)域。 志 分析 是 志分析的設(shè)計(jì)與實(shí)現(xiàn) 2 使用挖掘的一個(gè)分支 ,它作為 析 的一個(gè)重要組成部分,具有獨(dú)特的理論和實(shí) 踐意義。 志 分析 中模式分析與模式表達(dá)通過發(fā)現(xiàn)的模式研究用戶 覽行為 ,理解訪問者的瀏覽興趣 ,這些都是提高 量和改善站點(diǎn)結(jié)構(gòu)設(shè)計(jì)的重要環(huán)節(jié)。網(wǎng)絡(luò)管理人員可以根據(jù) 志的分析結(jié)果改進(jìn)網(wǎng)站的設(shè)計(jì) ,實(shí)現(xiàn)網(wǎng)站的有效管理。 驗(yàn)方案的擬定 首先是對(duì)功能模塊的分析,在這里我選擇了一下的幾個(gè)功能模塊,用戶開源分析,訪問路徑分析,流量分析,網(wǎng)頁相關(guān)性分析。這些功能是 志分析中較為重要的幾個(gè)模塊。 要想對(duì) 行分析,首先是要理解 務(wù)器的請(qǐng)求發(fā)送過程,創(chuàng)建一個(gè)過濾器,這個(gè)過濾器是主要 對(duì)訪問該網(wǎng)站的 行過濾也就是說可以截獲所需要的信息。然后把這些截獲的信息存儲(chǔ)到數(shù)據(jù)庫中,這些數(shù)據(jù)在對(duì)以后的分析有著很重要的意義,當(dāng)然在設(shè)計(jì)過濾器時(shí)還要考慮的一個(gè)問題就是當(dāng)訪問網(wǎng)站的時(shí)候就要開始對(duì)其進(jìn)行過濾,每當(dāng)要換一個(gè)網(wǎng)頁時(shí)就要對(duì)其在進(jìn)行一次過濾,為了使得到最及時(shí)的信息,直到推出該網(wǎng)站的時(shí)候這個(gè)過濾器就結(jié)束對(duì)其的過濾。 這次的設(shè)計(jì)中進(jìn)行網(wǎng)頁相關(guān)新分析所采用的是在 析中比較多為采用的關(guān)聯(lián)規(guī)則, 實(shí)現(xiàn)的方式為數(shù)據(jù)結(jié)構(gòu)中的圖算法 。 發(fā)環(huán)境 及開發(fā)環(huán)境,語言 互聯(lián)網(wǎng)服務(wù)采用的是瀏覽器 /服務(wù)器 (B/S)模型 ,由于要完成的是 志分析的程序因此需要在服務(wù)器端進(jìn)行進(jìn)一步的改進(jìn)。 在本系統(tǒng)中采用 為開發(fā)工具。如今, 經(jīng)成為開發(fā) 態(tài)網(wǎng)站的重要而快速、有效的工具,它是全新的網(wǎng)絡(luò)服務(wù)器端編程環(huán)境。 分利用了 強(qiáng)大功能,是一種優(yōu)秀的服務(wù)器端技術(shù)。由于 于強(qiáng)大的 言,具有極強(qiáng)的擴(kuò)展能力,良好的收縮性,以及與平臺(tái)無關(guān)的開發(fā)特性,在根據(jù) 臺(tái)構(gòu)建動(dòng)態(tài)商務(wù)網(wǎng)站成為主流的今天, 著其它技術(shù)所不具備的優(yōu)勢(shì),能設(shè)計(jì)出優(yōu)質(zhì)的網(wǎng)頁。 志分析的設(shè)計(jì)與實(shí)現(xiàn) 3 2 關(guān)鍵技術(shù)介紹 據(jù)挖掘 數(shù)據(jù)挖掘 (是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。數(shù)據(jù)挖掘其實(shí)是一類深層次的數(shù)據(jù)分析方法。數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析 (如查詢、報(bào)表、聯(lián)機(jī)應(yīng)用分析 )的本質(zhì)區(qū)別是數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識(shí)。數(shù)據(jù)挖掘所得到的信息應(yīng)具有先未知,有效和可實(shí)用三個(gè)特征。 掘 掘 (基于 掘 , 據(jù)挖掘是針對(duì)各種 檔和訪問數(shù)據(jù),應(yīng)用數(shù)據(jù)挖掘的方法,提取抽象的、潛在的有用的知識(shí)。根據(jù) 掘中數(shù)據(jù)對(duì)象的不同,分為 容挖掘 (、 和 用記錄的挖掘 (種方式。其中內(nèi)容挖掘是從文件內(nèi)容及其描述中獲取有用的信息的過程;而結(jié)構(gòu)挖掘則是從人為的鏈接結(jié)構(gòu)中獲取有用的知識(shí)的過程;使用記錄挖掘是從 存取模式中獲取有價(jià)值的信息的過程。在 掘過程中,有時(shí)將這三類數(shù)據(jù)融合在一起,以提高挖掘結(jié)果的質(zhì)量 。 濾器 過濾器是一個(gè)對(duì)象,可以傳輸請(qǐng)求或修改響應(yīng)。它可以在請(qǐng)求到達(dá) 前對(duì)其進(jìn)行預(yù)處理,而且能夠在響應(yīng)離開 后對(duì)其進(jìn)行后處理。所以如果你有幾個(gè) 要執(zhí)行同樣的數(shù)據(jù)轉(zhuǎn)換或頁面處理的話,就可以寫一個(gè)過濾器類,然后在部署描述文件 (把該過濾器與對(duì)應(yīng)的 系起來。你可以一個(gè)過濾器以作用于一個(gè)或一組 個(gè)或多個(gè)過濾器能過濾一個(gè)或多個(gè) 個(gè)過濾器實(shí)現(xiàn) 口并定義它的三個(gè)方法: 過濾器執(zhí)行 被調(diào)用,以設(shè)置過濾器的配置對(duì)象。 ;在過濾器執(zhí)行 被調(diào)用。 志分析的設(shè)計(jì)與實(shí)現(xiàn) 4 聯(lián)規(guī)則 關(guān)聯(lián)規(guī)則是如下形式的邏輯蘊(yùn)涵: 設(shè) ,21 , A 是一個(gè)項(xiàng)集,關(guān)聯(lián)規(guī)則是形如 的形式,其中 , 。關(guān)聯(lián)規(guī)則具有如下兩個(gè)重要的屬性: 支持度 : B)P ( AB)s u p p o r t ( A ,即 A 和 B 這兩個(gè)項(xiàng)集在事務(wù)集 D 中同時(shí)出現(xiàn)的概率。 置信度 : )|()( on f i de nc e ,即在出現(xiàn)項(xiàng)集 A 的事務(wù)集 D 中,項(xiàng)集 B 也同時(shí)出現(xiàn)的概率。 同時(shí)滿足最小支持度閾值和最小置信度閾值的規(guī) 則稱為強(qiáng)規(guī)則。給定一個(gè)事務(wù)集D,挖掘關(guān)聯(lián)規(guī)則問題就是產(chǎn)生支持度和可信度分別大于用戶給定的最小支持度和最小可信度的關(guān)聯(lián)規(guī)則,也就是產(chǎn)生強(qiáng)規(guī)則的問題。 的存儲(chǔ)結(jié)構(gòu) 圖是 一種 一種數(shù)據(jù)元素間為多對(duì)多關(guān)系的數(shù)據(jù)結(jié)構(gòu),加上一組基本操作構(gòu)成的抽象數(shù)據(jù)類型。 圖的存儲(chǔ)結(jié)構(gòu)有很多,本次設(shè)計(jì)中所采用的是相鄰矩陣表示法,相鄰矩陣表示法有以下幾個(gè)特點(diǎn) 用鄰接矩陣表示頂點(diǎn)間的相鄰關(guān)系 ,用一個(gè)順序表來存儲(chǔ)頂點(diǎn)的信息 ,具體的介紹將在詳細(xì)設(shè)計(jì)中進(jìn)一步的說明 志分析的設(shè)計(jì)與實(shí)現(xiàn) 5 第 3 章 系統(tǒng)設(shè)計(jì) 要設(shè)計(jì) 體 設(shè)計(jì) 志分析的目標(biāo)是對(duì) 通過由 業(yè)可以分析自身所有的網(wǎng)站活動(dòng) ,也就是從流量分析統(tǒng)計(jì)、網(wǎng)站訪客行為分析、商業(yè)活動(dòng)效果直至商業(yè)分析的點(diǎn)擊行為分析。 通過 志分析的設(shè)計(jì)與實(shí)現(xiàn) 分析軟件的用戶界面、概要和模板確保了企業(yè)用戶快速訪問和了解他們所需要的信息。 因此一個(gè) 志分析的設(shè)計(jì)與實(shí)現(xiàn) 日志分析軟件需要以下的幾個(gè)功能。用戶來源分析,訪問路徑分析,流量分析, 網(wǎng)頁相關(guān)新分析。 功能模塊如圖 W e b 日 志 分 析流 量 分 析網(wǎng) 頁 相 關(guān) 性 分 析相 關(guān) 信 息 顯 示 用 戶 來 源 分 析 訪 問 路 徑 分 析圖 志分析的設(shè)計(jì)與實(shí)現(xiàn) 6 能模塊說明 (1)用戶來源分析 該功能模塊的主要功能是 對(duì)截獲的 進(jìn)行源地址的確認(rèn) 。這個(gè)被截獲的 通過數(shù)據(jù)庫查詢語句與 中進(jìn)行查詢。 (2)訪問路徑分析 該功能模塊的主要功能是對(duì)某一個(gè) 行 ,這個(gè)功能模塊主要是為了網(wǎng)頁的相關(guān)性分析中做一個(gè)基礎(chǔ),在前面說過當(dāng) 問的時(shí)候會(huì)被過濾器 截取一部分的信息。 (3)流量分析 在特定的時(shí)間內(nèi)對(duì)網(wǎng)站的訪問量進(jìn)行顯示, 這樣可以了解到該網(wǎng)站的 在哪個(gè)時(shí)間段內(nèi)的訪問量最大 。 (4)網(wǎng)頁相關(guān)性分析 做為本次設(shè)計(jì)的重點(diǎn)以及難點(diǎn),首先要對(duì)網(wǎng)頁的相關(guān)性進(jìn)行一個(gè)介紹,當(dāng) 頻繁的出現(xiàn) 一條路徑 , 我們可以 稱為主路徑或是主干道,例如一個(gè)網(wǎng)站的主路徑為 ,當(dāng)我們得到這個(gè)結(jié)論后我們就可以判斷很多的可能, 網(wǎng)站的開發(fā)人員可以在以這條路徑為主干線,進(jìn)行更多的網(wǎng)站的擴(kuò)展,還可以 把 一些相關(guān)的內(nèi)容都鏈接到這條主路徑上有著很打的商業(yè)價(jià)值 同時(shí)還 考慮 到了 用戶的訪問的習(xí)慣性和方便性。 還有也可以知道哪條路徑是網(wǎng)站的比較怪異的路徑,這個(gè)也有著很大的價(jià)值,你可以知道一少部分人 的訪問習(xí)慣,還有就是 可以防范一些不安全的因素。 本次的設(shè)計(jì)所完成的功能 為 以上的幾個(gè)功能 ,這些功能是 志分析中的幾個(gè)較為重要的功能,只有在完成這幾個(gè)功能的前提下,才能繼續(xù)對(duì)其進(jìn)行展開。 統(tǒng)用例圖,流程圖 系統(tǒng)用例圖如圖 示: 志分析的設(shè)計(jì)與實(shí)現(xiàn) 7 管 理 者流 量 分 析用 戶 來 源 分 析網(wǎng) 頁 相 關(guān) 性 分 析訪 問 路 徑 分 析圖 系統(tǒng)流程圖如圖 志分析的設(shè)計(jì)與實(shí)現(xiàn) 8 主 頁 面功 能 選 擇用 戶 來 源 分 析流 量 分 析 網(wǎng) 頁 相 關(guān) 性 分 析訪 問 路 徑 分 析圖 細(xì)設(shè)計(jì) 濾器設(shè)計(jì) (1)什么是過濾器 過濾器是一個(gè)程序,它先于與之相關(guān)的 面運(yùn)行在服務(wù)器上。過濾器可附加到一個(gè)或多個(gè) 面上,并且可以檢查進(jìn)入這些資源的請(qǐng)求信息。在這之后,過濾器可以作如下的選擇: 以常規(guī)的方式調(diào)用資源(即,調(diào)用 面)。 利用修改過的請(qǐng)求信息調(diào)用資源。 志分析的設(shè)計(jì)與實(shí)現(xiàn) 9 調(diào)用資源,但在發(fā)送響應(yīng)到客戶機(jī)前對(duì)其進(jìn)行修改。 阻止該資源調(diào)用,代之以轉(zhuǎn)到其他的資源,返回一個(gè)特 定的狀態(tài)代碼或生成替換輸出。 (2)濾器的基本原理 在 為過濾器使用時(shí),它可以對(duì)客戶的請(qǐng)求進(jìn)行處理。處理完成后,它會(huì)交給下一個(gè)過濾器處理,這樣,客戶的請(qǐng)求在過濾鏈里逐個(gè)處理,直到請(qǐng)求發(fā)送到目標(biāo)為止。例如,某網(wǎng)站里有提交“修改的注冊(cè)信息”的網(wǎng)頁,當(dāng)用戶填寫完修改信息并提交后,服務(wù)器在進(jìn)行處理時(shí)需要做兩項(xiàng)工作:判斷客戶端的會(huì)話是否有效;對(duì)提交的數(shù)據(jù)進(jìn)行統(tǒng)一編碼。這兩項(xiàng)工作可以在由兩個(gè)過濾器組成的過濾鏈里進(jìn)行處理。當(dāng)過濾器處理成功后,把提交的數(shù)據(jù)發(fā)送到最終目標(biāo);如果過濾器處理不成功, 將把視圖派發(fā)到指定的錯(cuò)誤頁面。 (3)外界 與服務(wù)器請(qǐng)求回應(yīng) 的過程 如圖 圖 看圖便可知,外界與服務(wù)器之間都是 由外界給服務(wù)器個(gè) 求, 到服務(wù)器后就會(huì)變?yōu)?求, 當(dāng)服務(wù)器 接收到該請(qǐng)求后就會(huì)給 外界一個(gè) 為對(duì)請(qǐng)求的回應(yīng) ,到外界后再變?yōu)?(4)過濾器如圖 志分析的設(shè)計(jì)與實(shí)現(xiàn) 10 圖 要想完成 志分析軟件就需要對(duì)過濾 器有一定的 認(rèn)識(shí),在上圖中不難看出 過濾器 可以 完成該功能, 在服務(wù)器前加入一個(gè)過濾器所有外界與服務(wù)器之間的請(qǐng)求都需要先經(jīng)過過濾器,這樣過濾器就可以截獲一些我們所需要的信息,將其放入數(shù)據(jù)庫中,過濾器的既可以在服務(wù)器接收請(qǐng)求前截獲信息,也可在服務(wù)器響應(yīng)后進(jìn)行截獲信息。 戶 示 及 路徑顯示 訪問 路徑 的 顯示看起來并不復(fù)雜, 但 要注意 與數(shù)據(jù)庫連接 查詢 , 數(shù)據(jù)庫中有著很多的數(shù)據(jù) ,因此 要考慮的是分頁問題, 過濾器在過濾數(shù)據(jù)的時(shí)候會(huì)把一些我們不需要的信息也放入到數(shù)據(jù)庫中 ,因此對(duì)數(shù)據(jù)的篩選也很重要,哪些數(shù)據(jù)有著參考價(jià)值,哪些數(shù)據(jù)沒有參考價(jià)值是很重要 需要解決的一個(gè)問題。 對(duì) 于每一個(gè) 需要 查詢 該 來源。 這樣網(wǎng)站的管理人員就可以知道訪問者 實(shí)際地址,這樣 就知道了網(wǎng)站在哪些區(qū)域是受到的關(guān)注度較高,這樣 可以對(duì)市場(chǎng)進(jìn)行更進(jìn)一步的調(diào)研 ,還有就是 這種對(duì) 址的查詢也有助于 維護(hù)網(wǎng)站的安全性。 路徑分析 也是對(duì)于數(shù)據(jù)庫的操作,數(shù)據(jù)庫中有一個(gè) D 的數(shù)據(jù) 元素 ,這個(gè)指當(dāng)一個(gè) 其網(wǎng)站進(jìn)行訪問的時(shí)候系統(tǒng)給出的一個(gè)由系統(tǒng)自動(dòng)產(chǎn)生的字段, 通過這個(gè)字段就可以得到 其訪問的相關(guān)的路徑。 志分析的設(shè)計(jì)與實(shí)現(xiàn) 11 戶 源查詢 (1)思是 “ 網(wǎng)絡(luò)之間互連的協(xié)議 ” ,也就是為計(jì)算機(jī)網(wǎng)絡(luò)相互連接進(jìn)行通信而設(shè)計(jì)的協(xié)議。在因特網(wǎng)中,它是能使連接到網(wǎng)上的所有計(jì)算機(jī)網(wǎng)絡(luò)實(shí)現(xiàn)相互通信的一套規(guī)則,規(guī)定了計(jì)算機(jī)在因特網(wǎng)上進(jìn)行通信時(shí)應(yīng)當(dāng)遵守的規(guī)則。 (2)所謂 2 按照 P(輸控制協(xié)議 /協(xié)議規(guī)定, 個(gè) 2特?fù)Q算成字節(jié),就是 4個(gè)字節(jié)。一個(gè)采用二進(jìn)制形式的 00001010000000000000000000000001” ,這么長(zhǎng)的地址,人們處理起來也太費(fèi)勁了。為了方便人們的使用, 間使用符號(hào) “.” 分開不同的字節(jié)。于是,上面的 。 點(diǎn)分十進(jìn)制表示法 ” ,這顯然比 1和 0容易記憶得多。 (3)顧名 思義就是裝有 一個(gè)較為完善的數(shù)據(jù)庫非常龐大并且是收取費(fèi)用的,因此本次設(shè)計(jì)中采用的是較為小的一個(gè) 個(gè) 下圖所示: 圖 其中 字段 0進(jìn)制后的起始和末尾的地址 ,在這個(gè)地址中會(huì)每個(gè)地區(qū)所分配的 樣方便與查找。 字段 (4)那怎樣才能才能使這些 為在上面已經(jīng)介紹了此需要在 他們之前把 進(jìn)行轉(zhuǎn)換,如下就是該公式的介紹 . 假設(shè)一個(gè) 算方法為 256256256256256256256 D*C*B*A* 即志分析的設(shè)計(jì)與實(shí)現(xiàn) 12 可。這樣既可以得出與 (5)法 上面說到了 但 .” 字符串 ,所以在進(jìn)行計(jì)算之前要先對(duì) 在這里我所選擇的方法是 的方法,這個(gè)方法的意思是指 從 到 “.” 后就對(duì)其進(jìn)行分割,把分割出來的那個(gè)部分放入到一個(gè)數(shù)組當(dāng)中, 就是這樣進(jìn)行循環(huán),知道把 量分析 (1)流量分析介紹 通常說的網(wǎng)站流量 (指網(wǎng)站的訪問量,是用來描述訪問一個(gè)網(wǎng)站的用戶數(shù)量以及用戶所瀏覽的網(wǎng)頁數(shù)量等指標(biāo),常用的統(tǒng)計(jì)指標(biāo)包括網(wǎng)站的獨(dú)立用戶數(shù)量、總用戶數(shù)量 (含重復(fù)訪問者 )、網(wǎng)頁瀏覽數(shù)量、每個(gè)用戶的頁面瀏覽數(shù)量、用戶在網(wǎng)站的平均停留時(shí)間等。此外 ,網(wǎng)站流量還有一層意思,就是一個(gè)網(wǎng)站服務(wù)器所傳送的數(shù)據(jù)量的大小 (數(shù)據(jù)流量常用字節(jié)數(shù) /千字節(jié)數(shù)等指標(biāo)來描述 ),在網(wǎng)絡(luò)營(yíng)銷中所說的網(wǎng)站流量一般與網(wǎng)站的實(shí)際數(shù)據(jù)流量沒有一一對(duì)應(yīng)關(guān)系。 (2) 流量分析實(shí)現(xiàn)方式 獲取網(wǎng)站訪問統(tǒng)計(jì)資料通常有兩種方法:一種是通過在自己的網(wǎng)站服務(wù)器端安裝統(tǒng)計(jì)分析軟件來進(jìn)行網(wǎng)站流量監(jiān)測(cè);另一種是采用第三方提供的網(wǎng)站流量分析服務(wù)。兩種方法各有利弊,采用第一種方法可以方便地獲得詳細(xì)的網(wǎng)站統(tǒng)計(jì)信息,并且除了訪問統(tǒng)計(jì)軟件的費(fèi)用之外無需其他直接的費(fèi)用,但由于這些資料在自己的服務(wù)器上,因此在向第三方提供有關(guān)數(shù)據(jù)時(shí)缺乏說服力;第二種方法則正好具有這種優(yōu)勢(shì),但通常 要為這種服務(wù)付費(fèi),雖然也有一些免費(fèi)網(wǎng)站流量統(tǒng)計(jì)服務(wù),但由于在功能方面會(huì)有一定的限制,或者通常需要在網(wǎng)站上出現(xiàn)服務(wù)商的標(biāo)識(shí)甚至廣告,對(duì)于商業(yè)網(wǎng)站來說使用免費(fèi)服務(wù)肯那個(gè)不太合適。此外,如果必要,也可以根據(jù)需要自行開發(fā)網(wǎng)站流量統(tǒng)計(jì)系統(tǒng)。 (3)完成功能 本次的 設(shè)計(jì) 中我所完成的是網(wǎng)站頁面流量的分析和獨(dú)立 量的分析。 下面就來介紹兩種不同的流量分析 。 獨(dú)立 量:不同的 址瀏覽的數(shù)量。 要完成 獨(dú)立 量 分析 首先需要對(duì) 所有的 行 區(qū)分即使是同一 要在不同的時(shí)間內(nèi)訪問就要計(jì)數(shù)一次,所以我在數(shù)據(jù)庫中設(shè)立了 一個(gè)字段 個(gè)是由 服務(wù)器生成的字段,每當(dāng)一個(gè) 行訪問的時(shí)候服務(wù)器就會(huì)給一個(gè) 段 直到該 束了與服務(wù)器之間的通訊后這個(gè) 段將自動(dòng)的消失 。 因此在進(jìn)行數(shù)據(jù)庫查詢的時(shí)候只要對(duì) 段進(jìn)行查詢就可知道 獨(dú)立 訪問 流量 情況, 需志分析的設(shè)計(jì)與實(shí)現(xiàn) 13 要注意的是一個(gè) 段只對(duì)應(yīng)了一個(gè) 此在數(shù)據(jù)庫查詢語句中需要指定了其唯一性, 還有就是要根據(jù)時(shí)間來 進(jìn)行 獨(dú)立 量 的分析 。 頁相關(guān)性分析 (1)相鄰矩陣 介紹 本次的設(shè)計(jì)中對(duì)于網(wǎng)頁 相關(guān)性的實(shí)現(xiàn) 所采用的是圖的存儲(chǔ)結(jié)構(gòu)中的 相鄰矩陣表示法 ,相鄰矩陣是表示頂點(diǎn)間相鄰關(guān)系的矩陣若 式 ;0, 的權(quán)值為 15, 的權(quán)值為 20, 的權(quán)值為 15, 說明了數(shù)據(jù)庫中 揭示 了這樣 的一種信息,大部分的人 會(huì)這樣的瀏覽該網(wǎng)站, 從 在到 , 通過 這樣的 權(quán)值我們可以判斷出 這樣一個(gè)結(jié)論 : -當(dāng)然這是一種最理想的情況 。 還有就是也會(huì)出現(xiàn)這樣的一種狀況 的權(quán)值為 10, 的權(quán)值為 15, 的權(quán)值為 20, 的權(quán)值為 15,但是其中還存在著這樣的一種路徑從 的也頻繁的出現(xiàn) 而且與 的訪問次數(shù)出現(xiàn)了相同的 情況 ,即 的權(quán)值也為 15,要是根據(jù) 前面所闡述的那樣就會(huì)出現(xiàn)這樣 , 的一種循環(huán)情況 這樣 在算法的執(zhí)行中就會(huì)進(jìn)入一個(gè)死循環(huán)的狀態(tài), 這就需要 一個(gè)更好 解決 方案 ,可以這樣,從 到 C,按權(quán)值走的話應(yīng)該是 ,此時(shí)我們可以做個(gè)判斷,就是假設(shè)這個(gè)頁面已經(jīng)出現(xiàn)過一次的情況下, 就不再對(duì)其進(jìn)行 考慮,也就是說不再對(duì) 環(huán) 搜索,從 志分析的設(shè)計(jì)與實(shí)現(xiàn) 14 到 A,如 的權(quán)值盡比 的要小,這樣 就可以記錄 ,然后就在進(jìn)一步的進(jìn)行分析 。當(dāng)?shù)玫竭@么一條主要路徑后網(wǎng)站的開發(fā)人員很方便的可以對(duì)其 網(wǎng)站 進(jìn)行 維護(hù),也可以在這條路徑加大網(wǎng)站的宣傳力度或是增加廣告效應(yīng)等。 (4) 最不頻繁路徑 算法的實(shí)現(xiàn) 每個(gè)人都有著自己上網(wǎng)瀏覽的習(xí)慣,舉例來說,很多人在訪問新浪的時(shí)候都可能會(huì)先從新浪的首頁開始瀏覽訪問,但是會(huì)有一少部分的人會(huì)是先從 新浪體育開始瀏覽訪問 ,這是對(duì)于一些大型的門戶網(wǎng)站而言的, 最不頻繁路徑的概念不是指沒人走的路徑而是最怪異的路徑 ,少部分的人所瀏覽的路徑 , 先選擇矩陣中所有的 在這些項(xiàng)中查找權(quán)值最大的 項(xiàng) 作為訪問路徑的頭路徑, 然后 對(duì)這些路徑通過循環(huán)的方式一一比較 , 的權(quán)值為 3, 的權(quán)值為 3, 的權(quán)值為 2, 的權(quán)值為5, , 的權(quán)值為 2, 這些都是最小的一項(xiàng) ,在這些數(shù)據(jù)中查找一個(gè) 最小項(xiàng)值最大的那個(gè)座位訪問的開始,以此類推,因此可以得出個(gè)結(jié)論為在這種條件下最不頻繁路徑為-C。 當(dāng)然也會(huì)可能出現(xiàn)回路的情況 , 這 里的 解決方案與頻繁路徑中的 解決方案相一致 。 據(jù)庫設(shè)計(jì) 據(jù)庫設(shè)計(jì) 設(shè)計(jì)原則 要想設(shè)計(jì)一個(gè)高質(zhì)量的數(shù)據(jù)庫管理軟件,首先則要解決建立良好的數(shù)據(jù)庫結(jié)構(gòu)這一問題。關(guān)系數(shù)據(jù)庫設(shè)計(jì)理論主要包括三方面內(nèi)容,數(shù)據(jù)依賴、范式和模式設(shè)計(jì)方法。其中數(shù)據(jù)依賴起著核心的作用。為了便于程序設(shè)計(jì),提高軟件的可靠性和運(yùn)行效率,我們必 須在信息分析的基礎(chǔ)上合理的建立數(shù)據(jù)庫。 據(jù)表設(shè)計(jì) 數(shù)據(jù)表明: 據(jù)庫 下圖所示: 志分析的設(shè)計(jì)與實(shí)現(xiàn) 15 過 濾 器 數(shù) 據(jù) 庫編 號(hào)當(dāng) 前 訪 問 的 前一 路 徑當(dāng) 前 訪 問 路 徑I P 地 址系 統(tǒng) 分 配 編 號(hào)系 統(tǒng) 時(shí) 間圖 數(shù)據(jù)庫字段如圖 示 。 圖 字段 這個(gè)數(shù)據(jù)表中有 5 項(xiàng)數(shù)據(jù),具體的功能在下面來介紹 . 志分析的設(shè)計(jì)與實(shí)現(xiàn) 16 鍵,用來給每次訪問記錄一個(gè)編號(hào)。 來記錄每次訪問的訪問者的 次訪問所訪問 的路徑,在這里訪問路徑是由一跳一跳記錄,因?yàn)樵L問中你無法得知訪問者到底要訪問多少的訪問路徑 ,因此無法給出一個(gè)具體的長(zhǎng)度。 來記錄訪問者的時(shí)間,這個(gè)時(shí)間是系統(tǒng)的時(shí)間。這個(gè)數(shù)據(jù)在后來的數(shù)據(jù)庫操作中有著很大作用。 來給每次所訪問的訪問者一個(gè)編號(hào),這個(gè)與主鍵不同,主鍵會(huì)隨變化而增加,而這個(gè)是系統(tǒng)給訪問者的一個(gè) 有在訪問者結(jié)束網(wǎng)站的訪問后這個(gè) 錄當(dāng)前訪問路徑的前一個(gè)路徑,這個(gè)字段意義在于你可以判斷頁面之間是有關(guān)聯(lián)的。這個(gè)在網(wǎng)頁相關(guān)性的分析中有著很 重要的作用。 據(jù) 存儲(chǔ)相關(guān)信息 圖 數(shù)據(jù)庫中所存儲(chǔ)的信息的 一個(gè)實(shí)例。 圖 以上記錄的是兩次訪問, 個(gè)由于是服務(wù)器在訪問因此 為 錄的 一條一條的記錄 。 在兩次的訪問中系統(tǒng)自動(dòng)的給分配了兩個(gè) 為保證區(qū)別兩次訪問,否則就無法進(jìn)行 對(duì)數(shù)據(jù)進(jìn)行分析 。 志分析的設(shè)計(jì)與實(shí)現(xiàn) 17 第 4 章 系統(tǒng) 實(shí)現(xiàn) 統(tǒng)安裝 (1)安裝 這里設(shè)默認(rèn)安裝目錄為 d:裝完畢后重新啟動(dòng) 計(jì)算機(jī)。 (2)安裝 務(wù)器,在這里我們?cè)O(shè)默認(rèn)安裝目錄為 D: (3)安裝 X、 (4)安裝 (5)安裝 。 用說明 將文件夾放置到 d: .0下。并把包含 件的包放置在 d: .0。啟動(dòng) 務(wù)器,打

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論