【畢業(yè)學(xué)位論文】(Word原稿)基于文獻(xiàn)聚類的數(shù)據(jù)挖掘模型設(shè)計(jì)與實(shí)現(xiàn)-統(tǒng)計(jì)教育學(xué)_第1頁(yè)
【畢業(yè)學(xué)位論文】(Word原稿)基于文獻(xiàn)聚類的數(shù)據(jù)挖掘模型設(shè)計(jì)與實(shí)現(xiàn)-統(tǒng)計(jì)教育學(xué)_第2頁(yè)
【畢業(yè)學(xué)位論文】(Word原稿)基于文獻(xiàn)聚類的數(shù)據(jù)挖掘模型設(shè)計(jì)與實(shí)現(xiàn)-統(tǒng)計(jì)教育學(xué)_第3頁(yè)
【畢業(yè)學(xué)位論文】(Word原稿)基于文獻(xiàn)聚類的數(shù)據(jù)挖掘模型設(shè)計(jì)與實(shí)現(xiàn)-統(tǒng)計(jì)教育學(xué)_第4頁(yè)
【畢業(yè)學(xué)位論文】(Word原稿)基于文獻(xiàn)聚類的數(shù)據(jù)挖掘模型設(shè)計(jì)與實(shí)現(xiàn)-統(tǒng)計(jì)教育學(xué)_第5頁(yè)
已閱讀5頁(yè),還剩15頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1 基于文獻(xiàn)聚類的數(shù)據(jù)挖掘模型設(shè)計(jì)與實(shí)現(xiàn) (南京人口管理干部學(xué)院 江蘇 南京 210042) 摘要 :聚類分析是統(tǒng)計(jì)學(xué)中的一項(xiàng)重要技術(shù)。通過(guò)聚類可以發(fā)現(xiàn)隱藏在海量數(shù)據(jù)背后知識(shí)。本文首先建立空間向量模型,改進(jìn)了傳統(tǒng)相似度的計(jì)算模型,提出了一種基于摘要詞對(duì)關(guān)鍵詞加權(quán)貢獻(xiàn)的相似度模型,使得文獻(xiàn)的空間向量更加精確。數(shù)據(jù)來(lái)源于 05 年 獻(xiàn)數(shù)據(jù)庫(kù)圖書(shū)情報(bào)學(xué)的 3千多條文獻(xiàn)數(shù)據(jù),并通過(guò)中知網(wǎng)查詢相關(guān)文獻(xiàn)的摘要。通過(guò)數(shù)據(jù)清洗、去噪聲、降維、規(guī)格化處理、樣本抽樣等一系列步驟,得到最終用于聚類的 681篇文獻(xiàn)和 108個(gè)學(xué)科特征原子詞。利用 件編程實(shí)現(xiàn)了 法的文獻(xiàn)聚類。將聚類的結(jié)果通過(guò)基于學(xué)科原子特征詞的學(xué)科交叉表來(lái)表示,統(tǒng)計(jì)出圖書(shū)館學(xué)、情報(bào)學(xué)和文獻(xiàn)學(xué)三個(gè)學(xué)科的研究熱點(diǎn)及交叉點(diǎn),以及圖書(shū)情報(bào)學(xué)新的學(xué)科增長(zhǎng)點(diǎn),并對(duì)結(jié)果進(jìn)行了檢驗(yàn),檢驗(yàn)結(jié)果表明該統(tǒng)計(jì)模型是科學(xué)的、有意義的。 關(guān)鍵詞 :聚類 ; 交叉學(xué)科 ; 關(guān)鍵詞 ; 摘要 ; 相似度 ; 一、引言 聚類分析( 統(tǒng)計(jì)、模式識(shí)別和數(shù)據(jù)挖掘等領(lǐng)域中一個(gè)非常重要的技術(shù),文獻(xiàn)聚類就是依據(jù)文獻(xiàn)之間 的相似度按照一定的算法準(zhǔn)則,挖掘隱藏在海量文獻(xiàn)數(shù)據(jù)背后的有用知識(shí):如學(xué)科交叉、研究熱點(diǎn)和新的研究方向??茖W(xué)研究需要?jiǎng)?chuàng)新??茖W(xué)技術(shù)的發(fā)展為每個(gè)學(xué)科的發(fā)展帶來(lái)新的機(jī)遇的同時(shí),也帶來(lái)更為嚴(yán)峻的挑戰(zhàn)。目前,文、理、工、管等學(xué)科之間相互滲透、交叉、融合已經(jīng)成為一種潮流和趨勢(shì),其深度和廣度正在進(jìn)一步深化。眾所周知,近代科學(xué)發(fā)展特別是科學(xué)上的重大發(fā)現(xiàn)和國(guó)計(jì)民生中的重大社會(huì)問(wèn)題的解決,常常涉及不同學(xué)科的相互交充滿和相互滲透。學(xué)科交叉逐漸形成一批交叉學(xué)科,如化學(xué)與物理學(xué)的交叉形成了物理化學(xué)和化學(xué)物理學(xué),化學(xué)與生物學(xué)的交叉形成 了生物化學(xué)和化學(xué)生物學(xué),物理學(xué)與生物學(xué)交叉形成了生物物理學(xué)等。這些交叉學(xué)科的不斷發(fā)展大大地推動(dòng)了科學(xué)進(jìn)步,因此學(xué)科交叉研究( 現(xiàn)了科學(xué)向綜合性發(fā)展的趨勢(shì)??茖W(xué)上的新理論、新發(fā)明的產(chǎn)生,新的工程技術(shù)的出現(xiàn),經(jīng)常是在學(xué)科的邊緣或交叉點(diǎn)上,重視交叉學(xué)科將使科學(xué)本身向著更深層次和更高水平發(fā)展,這是符合自然界存在的客觀規(guī)律的。由于現(xiàn)有的學(xué)科是人為劃分的,而科學(xué)問(wèn)題是客觀存在的,根據(jù)人們的認(rèn)識(shí)水平,過(guò)去只有天文學(xué)、地理(地質(zhì))、生物、數(shù)學(xué)、物理、化學(xué)六個(gè)一級(jí)學(xué)科;而 經(jīng)過(guò) 20 世紀(jì)科學(xué)的發(fā)展和交叉研究,又逐漸形成了新的交叉學(xué)科,如生命科學(xué)、材料科學(xué)、環(huán)境科學(xué)等。因此研究學(xué)科交叉可以反映學(xué)科的研究的熱點(diǎn)和發(fā)展趨勢(shì)。本次統(tǒng)計(jì)建模正是基于以上的研究背景,通過(guò)文獻(xiàn)聚類來(lái)研究學(xué)科交叉,其意義在于:( 1)通過(guò)對(duì)文獻(xiàn)數(shù)據(jù)的聚類分析,挖掘?qū)W科交叉點(diǎn),使研究者了解本學(xué)科目前的研究現(xiàn)狀,如學(xué)科發(fā)展前沿與熱點(diǎn)問(wèn)題等,以提高研究者的創(chuàng)新意識(shí)和創(chuàng)新動(dòng)力,為 2 科學(xué)研究提供決策支持;( 2)為管理者和研究機(jī)構(gòu)提供決策支持,如交叉學(xué)科的政策支持、研究經(jīng)費(fèi)投入、人才培養(yǎng)方向等;( 3)通過(guò)學(xué)科交叉的比較,使學(xué)科 本身獲得動(dòng)力,提升學(xué)科競(jìng)爭(zhēng)力,使學(xué)科能更好地適應(yīng)社會(huì)和經(jīng)濟(jì)的發(fā)展,更好地服務(wù)社會(huì)。 不同的數(shù)據(jù)庫(kù) ,對(duì)其文獻(xiàn)進(jìn)行分類有不同的方法 ,沒(méi)有一種方法能對(duì)所有數(shù)據(jù)庫(kù)的文獻(xiàn)分類都具有高效率、高精確率。對(duì)于科學(xué)文獻(xiàn)的分類 ,目前主要采用的方法有 1: (1)引文分析法 :引文分析是指通過(guò)對(duì)文獻(xiàn)中所附的參考引文進(jìn)行計(jì)量統(tǒng)計(jì)分析 ,從而揭示科學(xué)技術(shù)發(fā)展的歷史及現(xiàn)狀。其目的是尋找文獻(xiàn)之間的聯(lián)系來(lái)研究文獻(xiàn)內(nèi)在聯(lián)系和科學(xué)結(jié)構(gòu)的一種方法。 (2)關(guān)鍵詞分析法 :關(guān)鍵詞分析就是通過(guò)對(duì)反映文獻(xiàn)主題內(nèi) 容的詞進(jìn)行關(guān)聯(lián)性或相異性定量分析 ,研究文獻(xiàn)內(nèi)在聯(lián)系和科學(xué)結(jié)構(gòu)的一種方法。 (3)聚類分析法 :聚類分析是指根據(jù)分析對(duì)象彼此之間的相關(guān)程度把文獻(xiàn)分成類群 ,使群內(nèi)盡量相似 ,群間盡量相異 ,然后進(jìn)行分析研究的過(guò)程。 (4)因素分析法 :因素分析的概念是英美心理統(tǒng)計(jì)學(xué)者們最早提出的 ,因素分析法是從試驗(yàn)所得的 m n 個(gè)數(shù)據(jù)文獻(xiàn)中概括和提取出較少量的關(guān)鍵因素 ,它們能反映和解釋所得的大量觀測(cè)事實(shí) ,從而建立起最簡(jiǎn)潔、最基本的概念系統(tǒng) ,揭示出事物間最本質(zhì)的聯(lián)系。 (5)關(guān)鍵詞分析與共引聚類分析相結(jié)合研究法。目前國(guó)內(nèi)研 究的主要熱點(diǎn)集中在第一方面 ,而國(guó)外在該領(lǐng)域的最新研究是通過(guò)關(guān)鍵詞分析和共引聚類分析相結(jié)合 ,以揭示文獻(xiàn)的主題結(jié)構(gòu)。 中文文本挖掘技術(shù)成敗的關(guān)鍵在于文本中詞匯切分的成功與否。由于漢語(yǔ)語(yǔ)言的特殊性和復(fù)雜性 ,使中文詞匯的切分成為一個(gè)很傷腦筋的問(wèn)題。而如果不進(jìn)行分詞 ,中文信息處理的其它很多研究就無(wú)法進(jìn)行。 分詞技術(shù)中基于詞庫(kù)的算法目前使用較廣 ,也較為成熟 ,如正向、逆向最大匹配法、逐詞遍歷法。這類算法分詞的正確性很大程度上取決于所建的詞庫(kù)。一個(gè)詞庫(kù)應(yīng)具有完備性和完全性兩個(gè)方面 ,建立一個(gè)同時(shí)滿足 這兩個(gè)要求的詞庫(kù)具有很大的難度 2。所以 ,對(duì)于中文文本挖掘來(lái)說(shuō) ,基于詞庫(kù)的分詞技術(shù)可能會(huì)使某些具有重要意義的詞匯被疏漏 ,從而導(dǎo)致挖掘的內(nèi)容不是十分準(zhǔn)確。 基于無(wú)詞典的分詞技術(shù)正處于研究發(fā)展階段 ,其基本思想是 :基于頻度的統(tǒng)計(jì) ,不依靠于詞典 ,將文本中任意幾個(gè)字同時(shí)出現(xiàn)的頻率進(jìn)行統(tǒng)計(jì) ,次數(shù)越高的越可能是一個(gè)詞 3。文中設(shè)計(jì)了一個(gè)基于無(wú)詞典分詞的算法 4,能比較準(zhǔn)確地切分出文本中的新詞。 特征提取主要是識(shí)別文本中代表其特征的詞項(xiàng)。提取過(guò)程是自動(dòng)的 ,提取的特征大部分是文本集中表示的概念。文本 特征分為一般特征和數(shù)字特征 ,其中一般特征主要包括動(dòng)詞和名詞短語(yǔ) ,如人名、組織名等 ;數(shù)字特征主要包括日期、時(shí)間、貨幣以及單純數(shù)字信息。這些特征包含重要的信息 ,因此特征提取是一種強(qiáng)有力的文本挖掘技術(shù)。通過(guò)文本特征抽取 ,記錄文本的特征 ,可以更好地組織文本 ,如文本的存儲(chǔ)、檢索、過(guò)濾、分類和摘要等。 中文姓名識(shí)別屬于中文信息處理中未登錄詞處理的范疇 ,中文姓名在文章中 3 的出現(xiàn)頻率雖然不高 ,但絕非可以忽略 ,因?yàn)橹形男彰旧戆匾男畔?,它可能是整個(gè)句子甚至整個(gè)段落的語(yǔ)義中心 ,如果不予處理 ,將影響文本挖掘的性能 5。數(shù) 字特征反映一定的信息 ,但不能表達(dá)文本的中心思想 ,通常只作文本挖掘中的參考信息。 聚類分析主要包括統(tǒng)計(jì)學(xué)習(xí)和機(jī)器學(xué)習(xí)兩種方法。在基于統(tǒng)計(jì)學(xué)習(xí)的聚類分析中,主要研究基于幾何距離的聚類,這也是本次建模采用的方法。其主要步驟包括:( 1)定義多維空間;( 2)計(jì)算多維空間中樣本點(diǎn)之間的距離,作為樣本點(diǎn)之間的相似度;( 3)采用某種算法(如 次法等)按照相似度大小將相似度高的樣本聚為一類。 在文獻(xiàn)聚類問(wèn)題中,一般都是根據(jù)向量空間模型( 想,將文獻(xiàn)聚類的樣本空間表示成 X= , 其中樣本 , 在要找到這樣一個(gè)劃分 C= , 使得: ,.,2,1,1 i 且 且,.,2,1,,并且滿足類內(nèi)之和 kj cx 值最小, 示類 本次建模研究目標(biāo)是在海量數(shù)據(jù)的基礎(chǔ)上,采用聚類分析的理論和方法,挖掘隱藏在數(shù)據(jù)背后的學(xué)科交叉知識(shí), 研究的整體框架如下: 圖 1 文獻(xiàn)聚類研究框架 主要的研究思路為: ( 1)數(shù)據(jù)采集:采集三個(gè)學(xué)科(圖書(shū)、情報(bào)、文獻(xiàn))一年的文獻(xiàn)數(shù)據(jù); ( 2)數(shù)據(jù)預(yù)處理: 降維:經(jīng)過(guò)抽取和提煉,建立學(xué)科特征詞庫(kù),構(gòu)建聚類空間; 文獻(xiàn)摘要分詞:將摘要利用分詞技術(shù)進(jìn)行分詞,去掉虛泛詞; 關(guān)鍵詞與摘要詞加權(quán):利用關(guān)鍵詞在摘要中出現(xiàn)的頻次,計(jì)算出摘要詞對(duì)關(guān)鍵詞的貢獻(xiàn)度; 去噪聲:對(duì)數(shù)據(jù)庫(kù)中文獻(xiàn)學(xué)科類別特點(diǎn)不明顯的文獻(xiàn)刪除。 ( 3)利用 型,建立文獻(xiàn)空間向量; ( 4)利用 件中的 法,將文獻(xiàn)進(jìn) 行多次聚類; 文獻(xiàn)樣本 數(shù)據(jù)庫(kù) 學(xué)科特征詞庫(kù) 數(shù)據(jù)抽取和提煉 結(jié)果 分析 聚類分析 文獻(xiàn) 數(shù)據(jù)庫(kù) 數(shù)據(jù)采集 加工 4 ( 5)對(duì)聚類的結(jié)果進(jìn)行統(tǒng)計(jì)分析。 二、模型設(shè)計(jì) 向量空間模型( 文獻(xiàn)分類所使用的特征較為普遍采用的方法之一。在這種模型中,文獻(xiàn)空間被看作是由一組正交詞條向量組成的向量空間,每個(gè)文獻(xiàn)表示為其中的一個(gè)范化特征向量: V(d)=(t1,w1(d), ,ti,wi(d), ,tn,wn(d),其中 可以要求 提高文獻(xiàn)內(nèi)容的準(zhǔn)確性。 Wi(d)常被定義為 d 出現(xiàn)頻率 d)的函數(shù),如 wi(d)=(d),常用的 函數(shù)有布 爾函數(shù): 1 ( ) 10 , ( ) 0d , ;平方根函數(shù): ()d ;對(duì)數(shù)函數(shù) : lo g ( ( ) 1 )d ; 數(shù): ( ) l o g ( )d n 等。本次建模中采用了一種新的 wi(d)的計(jì)算模型,具體步驟如下: (1)構(gòu)建特征向量空間 文獻(xiàn)聚類是在一個(gè)非常高的維度中進(jìn)行的,而聚類算法的復(fù)雜度與數(shù)據(jù)維度是非線性關(guān)系。理論證明,隨著維度的增加,計(jì)算的復(fù)雜度將呈現(xiàn)指數(shù)級(jí)的增長(zhǎng)。我們通過(guò) 對(duì) 05 年 獻(xiàn)數(shù)據(jù)庫(kù)中三大學(xué)科文獻(xiàn)的統(tǒng)計(jì)發(fā)現(xiàn),在 3932 篇文獻(xiàn)中關(guān)鍵字的個(gè)數(shù)為 14202,平均每篇文獻(xiàn)的關(guān)鍵詞個(gè)數(shù)為 ,互異的關(guān)鍵詞達(dá)到 6708 個(gè),利用普遍認(rèn)可的 計(jì)算文獻(xiàn)相似度矩陣時(shí),特征空間的維度很大,增加了計(jì)算的復(fù)雜性。因此,文獻(xiàn)聚類的首要問(wèn)題是要將數(shù)據(jù)進(jìn)行降維。原子特征詞是指從所有文獻(xiàn)關(guān)鍵詞中找出能夠反映出學(xué)科特點(diǎn)的關(guān)鍵詞中的原子部分。這樣做可以將數(shù)組維度從一個(gè)非常高的維度降低到一個(gè)維度相對(duì)較低的空間。 原子特征詞詞典的確立是基于關(guān)鍵詞的文本分類的非常關(guān)鍵的基礎(chǔ)問(wèn)題,詞典中原子 特征詞的選取既要考慮這些詞在文本集合中出現(xiàn)的統(tǒng)計(jì)特征,選取那些反映文本內(nèi)容的原子特征詞;又要做停用詞表,去掉那些在特定語(yǔ)言中出現(xiàn)頻率較高但含義虛泛的詞,以降低特征空間的維數(shù);同時(shí)還要考慮關(guān)鍵詞的頻幅限制,以防止因少數(shù)關(guān)鍵詞在少數(shù)文本中頻幅過(guò)高而造成的聚類中心的偏移影響。 (2)關(guān)鍵詞相似度計(jì)算模型 由于我們對(duì)關(guān)鍵進(jìn)行了抽取和加工,因此大部分的文獻(xiàn)關(guān)鍵詞與原子特征詞并不完全相同,由于在傳統(tǒng)的相似度計(jì)算模型中兩者的相似度將是 0,這會(huì)使得構(gòu)建的文獻(xiàn)空間向量矩陣絕大部分元素出現(xiàn) 0。因此,必須考慮兩種關(guān)鍵詞之間的部分 相似性。 6 假設(shè)兩個(gè)關(guān)鍵字 符長(zhǎng)度分別為 續(xù)相同字符串長(zhǎng)度為 l,則該兩個(gè)關(guān)鍵字相似度定義為 T(ki, 404),( ( 1) 顯然有 T(ki, 0, 1。這個(gè)公式考慮了關(guān)鍵字之間的部分相似性,提高了相似度計(jì)算的精度。例如:兩個(gè)關(guān)鍵字“公共圖書(shū)館”和“數(shù)字圖書(shū)館”,在許多的文獻(xiàn)聚類方法中將這兩個(gè)關(guān)鍵字的相似度定義為 0(即兩者完全不同), 5 這在某種程度上影響了文獻(xiàn)相似度的精確度。利用我們給出的公式( 1)計(jì)算結(jié)果為 更加準(zhǔn)確地表示兩者的相似度。 (3)相似度加權(quán)計(jì)算模型 每一篇文獻(xiàn)一般有若干個(gè)關(guān)鍵詞,通過(guò)關(guān)鍵詞相似度計(jì)算模型中公式( 1)計(jì)算所得的值也相應(yīng)地有若干個(gè)。為了進(jìn)一步提高文獻(xiàn)相似度的精確度,我們結(jié)合關(guān)鍵詞相似度計(jì)算模型和關(guān)鍵詞的頻次提出一種新的計(jì)算文獻(xiàn)相似度的相似度加權(quán)計(jì)算模型: 假設(shè)文獻(xiàn)的關(guān)鍵詞為文獻(xiàn)的關(guān)鍵詞集合定義為 () 12( ) ( , , , , , )i i nD k k k k k( 1) 定義文獻(xiàn)的關(guān)鍵詞的頻次為 () ( ( ) , ( ) , , ( ) , , ( ) )i i nF k F k F k F k F k( 2) 通過(guò)關(guān)鍵詞相似度計(jì)算模型計(jì)算 12( ) ( ( ) , ( ) , , ( ) , , ( ) )i i nT k T k T k T k T k( 3) 取公式( 3)中的最大值,定義為 ()k( ) ( ( ) )a x k T k(4) 定義相似度加權(quán)計(jì)算的值為 () ( ) ( ( ) 1 )i i iP k M a x k F k (5) (4)文獻(xiàn)空間向量的構(gòu)建 目標(biāo)是將文獻(xiàn)數(shù)據(jù)表示為特征空間中的一個(gè)向量。該矩陣以文獻(xiàn)作為行,以原子特征詞作為文獻(xiàn)的特征詞,即作為列。每一篇文獻(xiàn)的每一個(gè)關(guān)鍵詞分別和每一個(gè)原子特征詞進(jìn)行相似度計(jì)算,乘以該關(guān)鍵詞在摘要中出現(xiàn)的頻次加1后的最大值作為最終結(jié)果,因?yàn)樵撛~在文獻(xiàn)關(guān)鍵詞中也出現(xiàn) 1次。假設(shè) 文獻(xiàn)的空間向量矩陣表示為: .獻(xiàn)在 m 維空間的特征分量 i=1,2,n;j=1,2,m)計(jì)算是通過(guò)每篇文獻(xiàn)的關(guān)鍵詞與原子特征詞之間的相似度乘以該關(guān)鍵詞在摘要中出現(xiàn)的頻次加 1,并取最大值得到。例如:一篇文獻(xiàn)中的 3 個(gè)關(guān)鍵詞及在摘要中出現(xiàn)的頻次分別為:數(shù)字型圖書(shū)館( 3) ; 隱性知識(shí)( 4) ; 圖書(shū)館工作( 2),第 i 維的原子特征詞為“圖書(shū)館”。則這篇文獻(xiàn)的 wi(d)的計(jì)算方式為:首先利用相似度計(jì)算模型中公 式( 5)計(jì)算 3 個(gè)關(guān)鍵詞與原子特征詞“圖書(shū)館”的相似度值分別為 0、 后計(jì)算加權(quán)后的值分別為 3+1) =0( 4+1)=0、 2+1) =最大值 為 wi(d)的值。 6 類算法模型及步驟 ( 1) 類算法模型 的思想就是使得被劃分到同一 類的對(duì)象之間相似度最大,而不同 類 之間的相似度最小。模糊 均值算法的改進(jìn),普通 7。 代尋優(yōu)過(guò)程中 , 不斷更新各類的中心及隸屬度矩陣各元素的值 , 直到逼近下列準(zhǔn)則函數(shù)最小值 211(,) Nc mm ij V u d , (2) 式 (1)中 V= , 重 (1, )m,2 ( ) ( )j i j x v A x v , 時(shí), 歐式距離 。式 (2)的約束條件為11c , j ,運(yùn)用拉格朗日乘數(shù)法,可得無(wú)約束的準(zhǔn)則函數(shù) 2 1 1( 1 )N c N j i j i jj i j iF u d u , (3) 式( 3)取極小值的必要條件是 12 0,ij jF m u (4) 1( 1 ) 0 .c u (5) 由式 (3)可得 12 1( ) ,j m d (6) 將式 (6)代入式 (5)可得 11 112111( ) ( ) 1cc mj , (7) 從而有 1 11121( ) ,1()j (8) 將式 (8)代入式 (6)得 2111 .()ij mk (9) 考慮到,對(duì)j,定義集合 7 0,j i d 2 , , 3如果 ,則 2111 .()ij mk (10) 如果 則,令 0,類似地,可得聚類中心更新算式,令 ( , ) 0 , V 可得 11 ( ) ( ) 2 ( ) 0 ,j j i j i i j j x v A x v u A x 由此可得 ij j u x u (11) ( 2) 類算法步驟 ( 1)確定類數(shù) (2 )c c N 、參數(shù) m、矩陣 ; ( 2)置定初始模糊分類矩陣 (0), 中元素,令 s=0; ( 3)計(jì)算 ()的 ()11, 1 , 2 , , m mi i j j i u x u i c ( 4)按下面的方法更新 () ( 1 ) ( 1 ) j N 計(jì)算 0,j i d 2 , ,c I 計(jì)算 如果 ,那么2111 ,()ij mk 否則,0,ij i ( 5)以一個(gè)適當(dāng)?shù)木仃嚪稊?shù)比較 () ( 1),如果 ( ) ( 1 ) ,停止;否則, s=s+1,返回( 3) 8. 8 三、文獻(xiàn)聚類的實(shí)現(xiàn) 文獻(xiàn)聚類實(shí)現(xiàn)的步驟如下: ( 1)數(shù)據(jù)抽樣:從 05年 據(jù)庫(kù)中情報(bào)學(xué)、文獻(xiàn)學(xué)、圖書(shū)館學(xué)三種學(xué)科文獻(xiàn)共 3932 篇文獻(xiàn)中,通過(guò)系統(tǒng)抽樣法,從中選取了 800 篇文獻(xiàn),其中情報(bào)學(xué) 257篇,文獻(xiàn)學(xué) 120篇,圖書(shū)館學(xué) 423篇。 ( 2)數(shù)據(jù)清洗:通過(guò)中知網(wǎng)( 索,取出每一篇文獻(xiàn)的摘要部分,并統(tǒng)計(jì)每一篇文獻(xiàn)中關(guān)鍵詞在摘要中出現(xiàn)的頻次。去掉其中表達(dá)不規(guī)范的摘要,最終選取情報(bào)學(xué)、文獻(xiàn)學(xué)、圖書(shū)館學(xué)三個(gè)學(xué)科文獻(xiàn)共 681篇,其中情報(bào)學(xué)207篇,文獻(xiàn)學(xué) 98 篇,圖書(shū)館學(xué) 376篇,處理后的數(shù)據(jù)如圖 2所示。 圖 2 待聚類的文獻(xiàn)數(shù)據(jù) ( 3)抽取原子特征詞:取出 681篇文獻(xiàn)中所有的關(guān)鍵詞,從中人工選取 108個(gè)原子特征詞,如表 1。通過(guò)編寫(xiě)程序,求出每一篇文獻(xiàn)中的每一個(gè)關(guān)鍵詞相對(duì)于 108 個(gè)原子特征詞的相 似度值,然后乘以該關(guān)鍵詞在摘要中出現(xiàn)的頻次加 1之后最大相似度值,即為相似度加權(quán)值。 表 1 原子特征詞表 1 安全 19 傳播 37 館員 55 排架 73 數(shù)字 91 影響因子 2 版本 20 導(dǎo)航 38 集成 56 評(píng)估 74 搜索引擎 92 用戶 3 版權(quán) 21 電子 39 計(jì)算機(jī) 57 評(píng)價(jià) 75 索引 93 語(yǔ)義 4 保存 22 調(diào)查 40 家譜 58 期刊 76 圖書(shū) 94 元數(shù)據(jù) 5 被引 23 讀者 41 價(jià)值 59 企業(yè) 77 圖書(shū)館 95 閱讀 6 本體 24 敦煌 42 檢 索 60 情報(bào) 78 圖像 96 整理 7 編目 25 分布式 43 建筑 61 全文數(shù)據(jù)庫(kù) 79 推送 97 政府 8 標(biāo)引 26 分詞 44 借閱 62 人文 80 網(wǎng)絡(luò)計(jì)量 98 知識(shí) 9 博客 27 分類 45 競(jìng)爭(zhēng) 63 人性化 81 網(wǎng)頁(yè) 99 智能 10 采訪 28 佛經(jīng) 46 口述 64 儒家 82 網(wǎng)站 100 中圖法 9 11 采購(gòu) 29 個(gè)人 47 類目 65 商務(wù) 83 文獻(xiàn) 101 主題 12 參考 30 個(gè)性化 48 聯(lián)合 66 社會(huì) 84 信息 102 著錄 13 藏 書(shū) 31 公共 49 聯(lián)機(jī) 67 社區(qū) 85 虛擬 103 著作 14 查全 32 共享 50 聯(lián)盟 68 史料 86 敘詞表 104 專利 15 查新 33 古籍 51 鏈接 69 視頻 87 學(xué)科 105 咨詢 16 查詢 34 關(guān)鍵詞 52 論文 70 收錄 88 學(xué)術(shù) 106 資料 17 成本 35 館藏 53 目錄 71 書(shū)目 89 引文 107 資源 18 出版 36 館際 54 內(nèi)容分析 72 數(shù)據(jù) 90 隱性知識(shí) 108 自動(dòng)化 ( 4)構(gòu)建文獻(xiàn)空間向量矩陣:以 681篇文獻(xiàn)作為行, 108個(gè)原子特征詞作為列,以步驟( 3)中求出的相似度加權(quán)值作為矩陣元素來(lái)構(gòu)建文獻(xiàn)空間向量矩陣R,圖 3 為 R 的部分元素。該矩陣每一行即為一篇文獻(xiàn)的一個(gè)空間向量,每一列(每一維)即為一個(gè)文獻(xiàn)特征。通過(guò)相似度加權(quán)計(jì)算的方法所取得的值與現(xiàn)有的方法相比較更加準(zhǔn)確地反映出某個(gè)關(guān)鍵詞在文獻(xiàn)中的權(quán)重,而且所得的文獻(xiàn)空間向量矩陣 樣通過(guò) 定。 圖 3 文獻(xiàn)空間向量矩陣 ( 5)聚類實(shí)現(xiàn):將文獻(xiàn)空間向量矩陣 R 中的數(shù)據(jù)存入文本文檔,作為 法的數(shù)據(jù) 源。運(yùn)行 法 100 以上,取出其中聚類目標(biāo)函數(shù)值最小時(shí)的聚類結(jié)果作為最終結(jié)果輸出,程序界面如圖 4。通過(guò)多次運(yùn)行并對(duì)結(jié)果進(jìn)行比較發(fā)現(xiàn),聚類的結(jié)果比較穩(wěn)定,如表 2。 10 圖 4 序界面 表 2 前 200 項(xiàng)數(shù)據(jù)的聚類結(jié)果 1 3 21 3 41 2 61 1 81 1 101 1 121 1 141 1 161 2 181 3 2 2 22 2 42 1 62 1 82 1 102 2 122 1 142 2 162 3 182 1 3 2 23 1 43 1 63 1 83 1 103 1 123 1 143 1 163 2 183 3 4 3 24 1 44 1 64 1 84 1 104 1 124 1 144 1 164 2 184 3 5 1 25 3 45 1 65 2 85 1 105 1 125 1 145 1 165 2 185 2 6 3 26 3 46 3 66 1 86 1 106 1 126 1 146 2 166 2 186 1 7 1 27 2 47 1 67 3 87 1 107 3 127 1 147 3 167 3 187 3 8 1 28 1 48 1 68 3 88 1 108 2 128 1 148 3 168 3 188 2 9 3 29 2 49 1 69 1 89 1 109 1 129 1 149 3 169 3 189 3 10 2 30 1 50 1 70 1 90 1 110 1 130 1 150 3 170 1 190 1 11 3 31 2 51 1 71 1 91 2 111 1 131 1 151 3 171 2 191 3 12 3 32 2 52 1 72 1 92 1 112 1 132 1 152 1 172 1 192 1 13 3 33 1 53 2 73 1 93 1 113 1 133 2 153 2 173 1 193 3 14 1 34 1 54 1 74 3 94 1 114 1 134 3 154 1 174 2 194 3 15 3 35 1 55 1 75 2 95 3 115 1 135 1 155 1 175 3 195 1 16 1 36 1 56 1 76 1 96 2 116 1 136 3 156 1 176 3 196 1 17 1 37 3 57 1 77 1 97 1 117 1 137 1 157 3 177 1 197 2 18 2 38 3 58 1 78 1 98 2 118 1 138 1 158 2 178 3 198 1 19 2 39 3 59 3 79 1 99 1 119 1 139 1 159 1 179 3 199 2 20 1 40 1 60 2 80 1 100 2 120 1 140 3 160 1 180 1 200 1 ( 6)學(xué)科交叉研究方法:通過(guò) 2)中已知的學(xué)科分類數(shù)據(jù)相比較,得到一張 學(xué)科交叉表。該表以原子特征詞作為行,以兩兩學(xué)科相互之間是否交叉作為列,統(tǒng)計(jì)原子特征詞是否在某兩門(mén)學(xué)科之間出 11 現(xiàn)以及如果出現(xiàn),那么出現(xiàn)的頻次為多大。這樣就可以清晰地知道:哪些文獻(xiàn)屬于交叉學(xué)科,學(xué)科之間正在共同探討哪些方面以及該方面的關(guān)注度如何。 四、聚類結(jié)果統(tǒng)計(jì)分析 建立一張二維表,通過(guò) 類所得的文獻(xiàn)分類結(jié)果與文獻(xiàn)在現(xiàn)實(shí)中的學(xué)科分類相比,就可以很清楚地看到該文獻(xiàn)是否為交叉學(xué)科,同時(shí)很清楚地看到該文獻(xiàn)屬于哪幾門(mén)學(xué)科交叉及各學(xué)科之間的交叉點(diǎn)(關(guān)注點(diǎn))。 表 3 部分學(xué)科交叉表(完整學(xué)科交叉表見(jiàn)附錄 原子特征詞 全 0 3 0 0 2 0 5 0 0 版本 0 0 3 0 0 0 0 0 0 版權(quán) 0 0 0 0 2 0 4 0 0 保存 0 5 0 0 0 0 0 0 0 被引 0 2 4 0 0 0 0 0 0 本體 0 8 0 0 0 0 0 6 0 表 1(見(jiàn)附錄 每個(gè)字段中前 一個(gè)數(shù)字表示文獻(xiàn)通過(guò) 類方法聚成的結(jié)果,共分為 3 類,分別用 I、 示;后一個(gè)數(shù)據(jù)表示文獻(xiàn)的實(shí)際分類,其中“ 1”代表“圖書(shū)館學(xué)”;“ 2”代表“情報(bào)學(xué)”;“ 3”代表“文獻(xiàn)學(xué)”。例如:“ 一個(gè)“ I”代表文獻(xiàn)通過(guò) 后一個(gè)“ 1”表示文獻(xiàn)現(xiàn)實(shí)中被歸為圖書(shū)館學(xué)。 從表 1(見(jiàn)附錄 我們可以看出: ( 1)文獻(xiàn)中哪些屬于交叉學(xué)科范疇。當(dāng)一部分文獻(xiàn)通過(guò)原子特征詞被聚為同一類時(shí),說(shuō)明這些文獻(xiàn)研究或探討的內(nèi)容有相同或相似的方面,在這一類中的文獻(xiàn)如果現(xiàn)實(shí)中屬于不同學(xué)科時(shí),那么說(shuō)明 學(xué)科之間有交叉的部分,其中一些文獻(xiàn)屬于交叉學(xué)科。從原子特征詞中,我們可以進(jìn)一步看出學(xué)科之間共同關(guān)注的課題。 ( 2)如果某個(gè)原子特征詞分別在不同學(xué)科中出現(xiàn),那么從中我們可以很明顯地看出該原子特征詞被哪些學(xué)科同時(shí)關(guān)注。例如第八行的原子特征詞“編目”通過(guò) 在現(xiàn)實(shí)中同時(shí)出現(xiàn)于“圖書(shū)館學(xué)”、“情報(bào)學(xué)”、“文獻(xiàn)學(xué)”三門(mén)學(xué)科。從中我們可以看出,這三門(mén)學(xué)科正在同時(shí)研究“編目”這個(gè)方面。 ( 3)通過(guò)原子特征詞的統(tǒng)計(jì)頻次,我們可以進(jìn)一步看出某個(gè)原子特征詞的關(guān)注度。如果某個(gè)原子特征詞在某些學(xué)科中同時(shí)多次出 現(xiàn),那么可以肯定地是這個(gè)原子特征詞是不同學(xué)科研究的熱點(diǎn)問(wèn)題。例如:“檢索”在圖書(shū)館學(xué)中出現(xiàn)地頻次為 7,在情報(bào)學(xué)中出現(xiàn)地頻次為 98,在文獻(xiàn)學(xué)中出現(xiàn)地頻次為 11,而且是被聚為同一類中。從中可以看出,三門(mén)學(xué)科在“檢索”方面屬于交叉學(xué)科范疇,而且它在三門(mén)學(xué)科中的關(guān)注度很高。 2. 統(tǒng)計(jì)分析 ( 1)聚類結(jié)果的學(xué)科類別統(tǒng)計(jì)分析 表 4 聚類結(jié)果的學(xué)科類別統(tǒng)計(jì)表 文獻(xiàn)數(shù) 圖書(shū)館學(xué) 情報(bào)學(xué) 文獻(xiàn)學(xué) 合計(jì) 12 類別 I 63 154 93 30% 310 06 32 3 141 07 90% 21 2 230 合計(jì) 376 207 98 681 從表 4中統(tǒng)計(jì)的結(jié)果可以看出,聚類結(jié)果的第 和文獻(xiàn)學(xué)( 30%)組成,圖書(shū)館學(xué)占 因此第 I 類中可以分析出情報(bào)學(xué)與文獻(xiàn)學(xué)、情報(bào)學(xué)與圖書(shū)館學(xué)之間的交叉關(guān)系;第 2 類中主要是由圖書(shū)館學(xué)(和情報(bào)學(xué)(占 組成,因此第 主要由圖書(shū)館學(xué)(占 90%)組成,包 含 情報(bào)學(xué)有可能成為研究的新的增長(zhǎng)點(diǎn)。圖 5是三個(gè)類別中學(xué)科分布情況。以上是對(duì)三個(gè)學(xué)科類別總體情況的分析,下面將作更為詳細(xì)的分析。 第 I 類別 學(xué)科分布狀況情報(bào)學(xué) : 49 . 7 %圖書(shū)館學(xué) : 20 . 3 %文獻(xiàn)學(xué) : 30 %123第 別 學(xué)科分布狀況圖書(shū)館學(xué) :報(bào)學(xué) : 22 . 7 %文獻(xiàn)學(xué) : 2 . 1 %123 13 第 別 學(xué)科分布狀況圖書(shū)館學(xué) : 90 %情報(bào)學(xué) : 9 . 1 %文獻(xiàn)學(xué) : 0 . 9 %123圖 5 三個(gè)類別學(xué)科分布狀況 ( 2)學(xué)科研究熱點(diǎn)分析 綜合上述的統(tǒng)計(jì)情況,類別 別 要是圖書(shū)館學(xué)為主,因此,按以下思路分別對(duì)三個(gè)類別進(jìn)行統(tǒng)計(jì)分析來(lái)研究各個(gè)學(xué)科的研究熱點(diǎn): ( 1)從第 情報(bào)學(xué)中原子特征詞頻次降序排列后,排在前 10位的數(shù)據(jù)如下: 原子特征詞 圖書(shū)館 情報(bào)學(xué) 文獻(xiàn)學(xué) 總計(jì) 情報(bào) 0 115 0 115 檢索 7 98 11 116 競(jìng)爭(zhēng) 0 71 0 71 信息 19 65 0 84 數(shù)據(jù) 8 63 9 80 資源 27 52 20 99 數(shù)字 12 43 11 66 知識(shí) 14 43 0 57 參考 7 32 5 44 期刊 13 30 6 49 ( 2)從第 文獻(xiàn)學(xué)中原子特征詞頻次降序排列后,排在前 10位的數(shù)據(jù)如下: 原子特征詞 圖書(shū)館 情報(bào)學(xué) 文獻(xiàn)學(xué) 總計(jì) 文獻(xiàn) 4 8 42 54 資源 27 52 20 99 編目 7 2 19 28 查新 0 7 15 22 分詞 0 0 15 15 標(biāo)引 0 3 13 16 著錄 4 0 13 17 藏書(shū) 2 0 12 14 檢索 7 98 11 116 數(shù)字 12 43 11 66 ( 3)從第 中,按圖書(shū)館學(xué)中原子特征詞頻次降序排列后,排在前 10 14 位的數(shù)據(jù)如下: 原子特征詞 圖書(shū)館 情報(bào)學(xué) 文獻(xiàn)學(xué) 總計(jì) 圖書(shū) 295 0 2 297 圖書(shū)館 292 0 2 294 數(shù)字 97 0 0 97 知識(shí) 53 16 0 69 資源 39 11 0 50 館員 27 0 0 27 社區(qū) 25 0 0 25 評(píng)價(jià) 23 0 0 23 信息 17 0 0 17 社會(huì) 17 0 0 17 ( 4)研究熱點(diǎn)匯總 將三張表的結(jié)果進(jìn)行匯總得到每個(gè)學(xué)科研究的熱點(diǎn)如下表: 研究熱點(diǎn) 學(xué) 科 研究熱點(diǎn) 圖書(shū)館學(xué) 數(shù)字圖書(shū)館、知識(shí)管理、信息資源、信息評(píng)價(jià)、社區(qū)圖書(shū)館等 情報(bào)學(xué) 情報(bào)檢索、競(jìng)爭(zhēng)情報(bào)、知識(shí)管理、信息資源管理、信息數(shù)字化等。 文獻(xiàn)學(xué) 文獻(xiàn)資源管理、文獻(xiàn)檢索、文獻(xiàn)查新、數(shù)字文獻(xiàn)、藏書(shū)等 ( 3)學(xué)科交叉分析 從三張表中字體為黑斜體的數(shù)據(jù)統(tǒng)計(jì)出三個(gè)學(xué)科之間的交叉情況如下表: 圖書(shū)館學(xué) 報(bào)學(xué) 數(shù)字圖書(shū)館、 知識(shí)管理、信息資源等 情報(bào)學(xué) 獻(xiàn)學(xué) 文獻(xiàn)檢索、編目、文獻(xiàn)、信息資源等 文獻(xiàn)學(xué) 書(shū)館學(xué) 編目、文獻(xiàn)、信息資源、知識(shí)管理等 文獻(xiàn)學(xué) 書(shū)館學(xué) 報(bào)學(xué) 檢索、數(shù)據(jù)、資源、參考、期刊、編目等 ( 4)新的學(xué)科增長(zhǎng)點(diǎn)分析 為了研究新的學(xué)科增長(zhǎng)點(diǎn),我們從第 中提取了情報(bào)學(xué)文獻(xiàn)進(jìn)行研究,由于該類別中絕大部分屬于圖書(shū)館學(xué),盡管其中只有 21 篇文獻(xiàn)既屬于圖書(shū)館學(xué)又屬于情報(bào)學(xué)研究?jī)?nèi)容,因此該類別中這種學(xué)科交叉點(diǎn)有可能成為情報(bào)學(xué)新的增長(zhǎng)點(diǎn)。具體數(shù)據(jù)如下圖: 15 圖 6 第 中情報(bào)學(xué)文獻(xiàn)數(shù)據(jù) 從數(shù)據(jù)中可以 看出,其中“數(shù)字圖書(shū)館”涉及較多,當(dāng)然它也是 05 年圖書(shū)情報(bào)研究的熱點(diǎn),這是一個(gè)顯性的知識(shí);而其中的“語(yǔ)義 “本體”、“知識(shí)”等詞的出現(xiàn),應(yīng)該成為我們必須關(guān)注的信號(hào),因?yàn)樗鼈兛赡茉谌舾赡旰蟪蔀閳D書(shū)情報(bào)學(xué)研究的新的增長(zhǎng)點(diǎn)。為了驗(yàn)證我們的結(jié)論,我們從中知網(wǎng)的 數(shù)字出版物超市 中國(guó)學(xué)術(shù)文獻(xiàn)網(wǎng)絡(luò)出版總庫(kù) 學(xué)科學(xué)術(shù)熱點(diǎn) ,從中檢索“本體”關(guān)鍵字的結(jié)果如下表: 序號(hào) 熱點(diǎn)主題 主要知識(shí)點(diǎn) 主題所屬學(xué)科名稱 熱度值 文獻(xiàn)數(shù) 相關(guān)國(guó)家課題數(shù) 研究人員數(shù) 研究機(jī)構(gòu)數(shù) 5 語(yǔ)義網(wǎng) ;知識(shí)服務(wù) ;本體 ; 語(yǔ)義網(wǎng) ;知識(shí)服務(wù) ;本體 ;識(shí)管理 ;萬(wàn)維網(wǎng) ;高校圖書(shū)館 ;數(shù)據(jù) ;網(wǎng)絡(luò)檢索 ;圖書(shū)館 ;圖書(shū)館員 ;本體映射 ;智能檢索 ;圖書(shū)館服務(wù) ;知識(shí)地圖 ;知識(shí)服務(wù)系統(tǒng) ;數(shù)字圖書(shū)館建設(shè) ;語(yǔ)義 圖書(shū)情報(bào)與數(shù)字圖書(shū)館 ;計(jì)算機(jī)軟件及計(jì)算機(jī)應(yīng)用 ; 10149 178 25 273 127 6 語(yǔ)義網(wǎng) ;本體 ;信息組織 ; 語(yǔ)義網(wǎng) ;本體 ;務(wù) ;數(shù)字圖書(shū)館 ;萬(wàn)維網(wǎng) ;獻(xiàn)標(biāo)題 ;搜索引擎 ;網(wǎng)絡(luò)檢索 ;元數(shù)據(jù) ;知識(shí)服務(wù) ;智能檢索 ;圓周率 ;本體論 ;知識(shí)表示 ;信息檢索系統(tǒng) ;據(jù)庫(kù) ;體語(yǔ)言 ; 互聯(lián)網(wǎng)技術(shù) ;計(jì)算機(jī)軟件及計(jì)算機(jī)應(yīng)用 ; 7959 146 28 226 104 從表中可以檢驗(yàn)我們通過(guò)對(duì) 05年數(shù)據(jù)挖掘的結(jié)果在 09年得到驗(yàn)證。 五、結(jié)論 本次建模的主要目標(biāo)是通過(guò)文獻(xiàn)聚類發(fā)現(xiàn)學(xué)科交叉和學(xué)科熱點(diǎn)等隱藏在數(shù)據(jù)背后的學(xué)科知識(shí)。在建模中,我們選取了 05 年圖書(shū)情報(bào)學(xué)的 681 篇文獻(xiàn)作為統(tǒng)計(jì)建模的數(shù)據(jù),由于采用了系統(tǒng)抽樣的方法,因此研究的數(shù)據(jù)具有一定的代表性。通過(guò)數(shù)據(jù)的采集和預(yù)處理、模型的建立、實(shí)驗(yàn)仿真、結(jié)果的統(tǒng)計(jì)分析和結(jié)果檢驗(yàn)等各個(gè)環(huán)節(jié),我們比較順利 地完成了本次建模任務(wù)。經(jīng)檢驗(yàn),模型是科學(xué)的,結(jié)果是正確的。主要的創(chuàng)新點(diǎn):( 1)在設(shè)計(jì)的模型中,我們提出了一種新的相似度加權(quán)模型,從而使得 類所得的結(jié)果更加合理和準(zhǔn)確。( 2)設(shè)計(jì)了學(xué)科交叉表。從學(xué)科交叉表中可以一目了然地看出哪些學(xué)科在哪些方面交叉,同時(shí)還可以看出哪些課題是學(xué)科之間的熱點(diǎn)及新的增長(zhǎng)點(diǎn)。這樣研究人員、學(xué)者就可以在第一時(shí)間很清楚地了解到交叉學(xué)科的熱點(diǎn)及增長(zhǎng)點(diǎn),不僅節(jié)省花在查找方面的時(shí)間與精力,更為重要地是,可以時(shí)刻掌握先機(jī),搶占科學(xué)前沿。該模型還需改進(jìn)的方面有:( 1)模型只考慮了摘要詞對(duì)關(guān)鍵詞 的貢獻(xiàn)度,還可以考慮標(biāo)題詞對(duì)關(guān)鍵詞的貢獻(xiàn)度,以進(jìn)一步加強(qiáng)文獻(xiàn)間相似度的精確性;( 2)由于 此在該模型中可以引入模糊理論,使得聚類的結(jié)果有重合,對(duì)于研究學(xué)科交叉將更為直接。 16 參考文獻(xiàn) 1林春燕,朱東華 計(jì)算機(jī)應(yīng)用, 2004. 2蔣澄 ,馬范援 ,蔣思杰 索引擎的信息處理 J1999,25(4):373 嚴(yán)威 ,趙政 J1999,25(6):54 胥桂仙 ,蘇筱蔚 ,陳淑艷 J2002,23(1):165 牛正雨 ,柴佩琪 J2001,(1):256魏建香,蘇新寧 . 基于關(guān)鍵字和摘要相關(guān)度的文獻(xiàn)聚類研究 . 情報(bào)學(xué)報(bào),2009, 28( 2) . 7金華 . 分級(jí)聚類與平面劃分結(jié)合方法在網(wǎng)頁(yè)分類中的應(yīng)用 . 計(jì)算機(jī)工程與應(yīng)用 , 2004. 8胡寧?kù)o,王靖 . 基于模糊 c 均值算法文檔聚類問(wèn)題的研究 . 長(zhǎng)沙電力學(xué) 院學(xué)報(bào) , 2004. 17 附錄 I: 法( U, %if 2 & 3, %判斷輸入的函數(shù)參數(shù)個(gè)數(shù)只能是 2個(gè)或 3個(gè) or ); 1); %求出 ,即樣本個(gè)數(shù) 2); %求出 ,即特征值長(zhǎng)度 2;100;1; %默認(rèn)操作參數(shù) 隸屬度矩陣 最大迭代次數(shù) 隸屬度最小變化量 迭代終止條件 每次迭代是否輸出信息標(biāo)志 if 2, if , if i) 18 i; :; % 標(biāo)函數(shù)值 % U:隸屬度矩陣 % 類中心 附錄 表 1 學(xué)科交叉表 原子特征詞 1全 0 3 0 0 2 0 5 0 0 版本 0 0 3 0 0 0 0 0 0 版權(quán) 0 0 0 0 2 0 4 0 0 保存 0 5 0 0 0 0 0 0 0 被引 0 2 4 0 0 0 0 0 0 本體 0 8 0 0 0 0 0 6 0 編目 7 2 19 2 0 0 5 0 0 標(biāo)引 0 3 13 0 0 0 0 0 0 博客 0 9 0 0 0 0 0 0 0 采訪 2 2 7 8 0 0 4 0 0 采購(gòu) 2 0 8 3 2 0 3 0 0 參考 7 32 5 2 8 0 10 5 0 藏書(shū) 2 0 12 9 0 0 7 0 0 查全 0 7 0 0 0 0 0 0 0 查新 0 7 15 0 0 0 0 0 0 查詢 0 10 0 0 0 0 0 0 0 成本 4 5 0 0 0 0 11 0 0 出版 0 0 3 0 0 0 0 0 4 傳播 0 0 0 0 3 0 4 0 0 導(dǎo)航 0 8 2 0 0 0 0 0 0 電子 16 15 10 0 0 0 0 0 0 調(diào)查 0 0 0 0 0 0 3 0 0 讀者 2 0 0 6 0 0 9 0 0 敦煌 0 0 4 0 0 0 0 0 0 分布式 2 0 0 0 0 0 0 0 0 分詞 0 0 15 0 0 0 0 0 0 分類 0 0 4 0 0 0 0 0 0 佛經(jīng) 0 0 5 0 0 0 0 0 0 個(gè)人 0 7 0 0 3 0 4 0 0 個(gè)性化 0 10 0 0 0 0 0 2 0 19 公共 0 0 0 0 0 0 0 0 0 共享 7 6 8 6 2 0 8 0 0 古籍 0 0 0 0 0 0 0 0 0 關(guān)鍵詞 0 3 4 0 0 0 0 0 0 館藏 6 0 0 0 0 0 2 0 0 館際 0 0 0 0 0 0 0 0 0 館員 18 0 0 14 0 0 27 0 0 集成 0 4 0 3 4 2 0 2 0 計(jì)算機(jī) 0 0 0 0 0 0 2 0 0 家譜 0 0

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論