版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
引文分析法共詞分析法淺析第一頁,共四十一頁,2022年,8月28日
科學研究前沿代表了科學發(fā)展的難點、熱點以及發(fā)展趨勢,從浩瀚的科技信息中探測研究前沿是科技創(chuàng)新的關(guān)鍵任務(wù)之一。因此,如何能夠科學、準確地把握研究前沿已經(jīng)成為科學研究人員及其管理者關(guān)注的焦點??茖W家提出各種方法與技術(shù)用于探測研究前沿,其中以利用引文分析和共詞分析的研究最為常見。第二頁,共四十一頁,2022年,8月28日引文分析
引文分析是利用各種數(shù)學、統(tǒng)計學以及邏輯方法,對科技期刊、論文、著作等各種分析對象的引用或被引用現(xiàn)象進行分析研究,以便揭示其數(shù)量特征和內(nèi)在規(guī)律,達到評價、預測科學發(fā)展趨勢的目的。近幾年主要的關(guān)注研究對象或熱點集中在“引文網(wǎng)絡(luò)”、“自引與自引率”、“共引分析”、“影響因子”以及“引文分析和統(tǒng)計中的誤差”等方面。第三頁,共四十一頁,2022年,8月28日
在引文分析中,引文網(wǎng)絡(luò)得到了學者們的高重視。國外方面,將引文看作代表信賴的原型。他們認為在虛擬環(huán)境中,引文實際上代表了一種信賴。當A引用B的文章時,A認為B的觀點是支持性的,而B引用的內(nèi)容是被協(xié)商許可了的,引用內(nèi)容的同時也就影響了B的思維。因此,引文網(wǎng)絡(luò)系統(tǒng)可以被看成是信賴系統(tǒng),引文索引則可以被看成是一個推薦系統(tǒng)———推薦被引次數(shù)多的文章。引文網(wǎng)絡(luò)第四頁,共四十一頁,2022年,8月28日在引文網(wǎng)絡(luò)中存在大量的同引和耦合。同引(或稱同被引)是指兩篇或兩篇以上文獻共同被之后的一篇或多篇文獻引用,如圖中5和6同時被之后的8和8′引用;引用它們的論文的多少,即同被引程度,稱為同被引強度。耦合則是指兩篇文獻共同引用了一篇或多篇文獻,如圖中2和4共同引用了1;耦合的文獻之間總存在著這樣或那樣的聯(lián)系,其聯(lián)系的程度稱為耦合強度。第五頁,共四十一頁,2022年,8月28日第六頁,共四十一頁,2022年,8月28日
引文網(wǎng)絡(luò)的結(jié)構(gòu)特點有:①引文網(wǎng)絡(luò)是靜態(tài)的,不可以在任何已有節(jié)點上增加新的代表引用的單向箭頭,也不可以隨意刪除已有的代表引用的單向箭頭,因為文獻一經(jīng)出版之后,它的參考文獻就一成不變了;②引文網(wǎng)絡(luò)中的引用是單向的,即只能是后期的文獻引用前期的文獻,而前期的文獻不能反過來引用后期的文獻;③引文網(wǎng)絡(luò)中的引文不可以自引,引文不能自己引用自己,在引文分析中,自引主體只能是作者、期刊、學科、機構(gòu)等;④引文網(wǎng)絡(luò)中的引用是有固定時間的,即文獻A引用文獻B是有固定時間的,這個固定時間正好是文獻A的發(fā)表時間,且文獻A的發(fā)表時間必然在文獻B之后,如圖3中8和8′同時發(fā)表,故不存在8引用8′或8′引用8;⑤引文網(wǎng)絡(luò)中引文間的引用呈現(xiàn)出主題集中,因為引文間引用的正式性和文獻出版的質(zhì)量控制,引文基本來自同一科學領(lǐng)域或關(guān)系緊密的領(lǐng)域。第七頁,共四十一頁,2022年,8月28日常見的引文網(wǎng)絡(luò)測度指標可以分為四類:①引文數(shù)量特征測度指標:引文數(shù);②引文分布特征測度指標:平均引用數(shù)、自引數(shù)與自引率、被引次數(shù)與引用數(shù)的比值;③期刊(論文)影響力測度指標:被引用數(shù)、同引和耦合、期刊影響因子即年指標;④文獻老化規(guī)律測度指標:衰減系數(shù)等第八頁,共四十一頁,2022年,8月28日自引自引率
關(guān)于自引和自引率的研究是引文分析的內(nèi)容之一。目前在國外研究最多的是關(guān)于期刊的自引和自引率。一般認為,期刊高自引有助于提升其影響因子;也有研究人員研究去除期刊自引數(shù)對影響因子的影響,認為未去除影響因子的數(shù)據(jù)可以采用;還有研究顯示期刊自引與自引率與影響因子的負相關(guān)性。第九頁,共四十一頁,2022年,8月28日共引(co-citation)就是兩篇文獻同時被其他文獻引用。一般認為同被引用的文獻在主題上具有或多或少的相似性,因此同被引次數(shù)即共引強度可以測度文獻在內(nèi)容方面的相關(guān)度。由此,通過一組文獻之間的共引關(guān)系可以形成共引網(wǎng)絡(luò),該網(wǎng)絡(luò)內(nèi)節(jié)點之間的遠近便可以反映它們主題內(nèi)容的親疏關(guān)系。第十頁,共四十一頁,2022年,8月28日
共引分析方法始于small于1973年提出的以文獻為單位的共引分析,但共引概念可以推廣到與文獻相關(guān)的各種特征對象上,形成各種類型的共引概念,如詞的共引、文獻共引、著者共引、期刊共引、主題共引和類的共引等。第十一頁,共四十一頁,2022年,8月28日共引的意義
自1973年被提出以來,共引分析已成為引文分析里面一種潛在多產(chǎn)的分析方法,它不僅可以用來揭示科學結(jié)構(gòu)的發(fā)展現(xiàn)狀乃至變化情況,還可以用來進行前沿分析、領(lǐng)域分析、科研評價等,進而為宏觀科技決策提供先行支持,為科技規(guī)劃與評估提供基礎(chǔ)。第十二頁,共四十一頁,2022年,8月28日共引分析的一般過程共引分析方法的一般過程可以概括為分析領(lǐng)域的確定分析對象的選擇及共引矩陣的形成共引數(shù)據(jù)的處理聚類分析和多維標度結(jié)果分析和解釋。方法的演進過程以分析過程中分析對象的選擇和聚類方法中的參數(shù)修正為主。第十三頁,共四十一頁,2022年,8月28日
選擇對象搜索數(shù)據(jù)構(gòu)建矩陣聚類分析/多維尺度分析/計算戰(zhàn)略坐標分析結(jié)果第十四頁,共四十一頁,2022年,8月28日幾乎國內(nèi)外所有學者都是按照統(tǒng)一的方法模式來進行共被引分析,即第一步構(gòu)造共被引矩陣;第二步將該矩陣轉(zhuǎn)化為相似系數(shù)矩陣,方法大多為皮爾遜相關(guān)系數(shù)法(Pearson’SCorrelationCoeficient);第三步是進行聚類(Cluster)和多維尺度分析(MDS)。這基本是大家默認的方法,在我國許多相關(guān)教材和相關(guān)論文中也多是采用這樣的方法。從2003年開始,在科學計量學學者之間又引發(fā)了關(guān)于共被引分析方法的討論。焦點主要集中在對皮爾遜相關(guān)系數(shù)是否適合應(yīng)用到共被引分析這一問題,及共被引矩陣對角線如何取值這一問題的討論。第十五頁,共四十一頁,2022年,8月28日McCain將其定為:默認值,這也是影響最廣泛的一種對角線確定方法;Ahlgren等認為應(yīng)該使用自己與自己實際共被引次數(shù);White則建議使用最大值來確定對角線的值。邱均平等認為根據(jù)共被引原理來看,從臨近矩陣的定義來看,White的建議則更正確。共被引矩陣本來就是考察各對象之間親疏關(guān)系的臨近矩陣,只不過研究的目標選定了有特殊意義的作者、論文、期刊、學科等而已。從這點出發(fā),我們自然而然的認為自己和自己的關(guān)系最親近,所以應(yīng)該是該作者與其他作者共被引頻次中最高的。表達方式可以是最大值。但我們認為為了突出自己與自己的親密關(guān)系,可以用最大值+l來凸顯。所以我們大體傾向于White的提法,但可做適當?shù)恼{(diào)整。第十六頁,共四十一頁,2022年,8月28日Pearson’s只是一種測度變量相似性的方法,是為了更好地發(fā)現(xiàn)變量之間的關(guān)系,而許多方法都可以取代它。我們認為SquaredEuclideandistance是代替它的最好方法。理由如下:Pearson’S相關(guān)系數(shù)矩陣自身的確存在問題。其不適合對有0-模塊的矩陣進行轉(zhuǎn)化,雖然White等一再強調(diào),共被引矩陣不應(yīng)該存在0-模塊,并且給出了許多實例。但是我們認為這還是不具有普遍性,難免遇到0-模塊,尤其是在我國的研究者之間。在這里,我們再次肯定Ahlgren等提出的相似性測度的兩個必要條件(注)是非常正確的。雖然是針對相似性測度提出,但是其原理對于非相似測度同樣正確。我們用SquaredEuclideandistance測度方法是滿足兩個必要條件。根據(jù)SquaredEuclideandistance公式可以看出即使在矩陣后加入0-模塊,D2(X,Y)的值保持不變,說明SquaredEuclideandistance測度方法具有很好的穩(wěn)定性。第十七頁,共四十一頁,2022年,8月28日注:
兩個必要條件:(1)對于相似性測度,變量A和變量B的相關(guān)系數(shù)s(A,B)在加入0-模塊后不能減小;(2)未加入0-模塊前,如果s(A,>s(C,D),那么加入0-模塊后,這種關(guān)系也仍要保持。返回上一張第十八頁,共四十一頁,2022年,8月28日第十九頁,共四十一頁,2022年,8月28日第二十頁,共四十一頁,2022年,8月28日第二十一頁,共四十一頁,2022年,8月28日注:在戰(zhàn)略坐標中,X軸為向心度,表示領(lǐng)域間相互影響的強度,Y軸為密度,表示某一領(lǐng)域內(nèi)部聯(lián)系強度。以向心度和密度為參數(shù)繪制成的二維坐標即為戰(zhàn)略坐標,它可以概括地表現(xiàn)一個領(lǐng)域內(nèi)亞領(lǐng)域的結(jié)構(gòu)。第二十二頁,共四十一頁,2022年,8月28日共引的發(fā)展趨勢a.綜合多種分析方法。例如研究前沿和熱點分析時,將共引分析結(jié)果和文獻耦合、共詞聚類、詞頻統(tǒng)計等方法的分析結(jié)果加以比較分析;揭示科學結(jié)構(gòu)時,將共引分析與共詞分析相結(jié)合,分析結(jié)果會更準確可靠。b.不斷融入新的技術(shù)。由最初借用多維尺度技術(shù)進行降維,到現(xiàn)在用PFNETS替代Pearson相關(guān)系數(shù),引入自組織映射(Self-OrganizationMap,SOM)技術(shù)、潛在語義索引(LatentSemanticIndexing,LSI)技術(shù)等。隨著各種技術(shù)的發(fā)展,共引分析中不斷融入其他學科新的技術(shù),真可謂吸眾家之長為我所用。c.擴展至網(wǎng)絡(luò)結(jié)構(gòu)研究。網(wǎng)絡(luò)環(huán)境中,站點的鏈接關(guān)系類似于文獻的引用關(guān)系,因此可以將共引分析方法移植到網(wǎng)絡(luò)站點共引研究或稱其為網(wǎng)頁共鏈分析(WebColinkAnalysis,WCA),反映網(wǎng)絡(luò)本身的結(jié)構(gòu)和網(wǎng)絡(luò)中知識的結(jié)構(gòu)。d.不斷探究共引分析中的一些細節(jié)問題。這其中包括相似性計算方法的優(yōu)化,如何對合著者進行所有作者的共引分析等。第二十三頁,共四十一頁,2022年,8月28日影響因子
影響因子(ImpactFactor,IF)是美國ISI(科學信息研究所)的JCR(期刊引證報告)中的一項數(shù)據(jù)。即某期刊前兩年發(fā)表的論文在統(tǒng)計當年的被引用總次數(shù)除以該期刊在前兩年內(nèi)發(fā)表的論文總數(shù)。這是一個國際上通行的期刊評價指標。意義:該指標是相對統(tǒng)計值,可克服大小期刊由于載文量不同所帶來的偏差。一般來說,影響因子越大,其學術(shù)影響力也越大。第二十四頁,共四十一頁,2022年,8月28日
附:IF值計算方法(以1992年為例)
A=1992年的全部引文(指定數(shù)據(jù)庫中的記錄)
B=1992年某期刊發(fā)表在1990和1991的論文的被引次數(shù)
C=某期刊1990和1991年發(fā)表的全部論文的總和
D(期刊1992的影響因子)=B/C第二十五頁,共四十一頁,2022年,8月28日例如,某期刊2005年影響因子的計算
1.本刊2004年的文章在2005年的被引次數(shù):48本刊2004年的發(fā)文量:187
2.本刊2003年的文章在2005年的被引次數(shù):128本刊2003年的發(fā)文量:154
3.本刊2003-2004的文章在2005年的被引次數(shù)總計:176
4.本刊2003-2004年的發(fā)文量總計:341
5.本刊2005年的影響因子:0.5161=176÷341
第二十六頁,共四十一頁,2022年,8月28日
引文分析和統(tǒng)計中的誤差
引文分析以其獨特的科學評價功能而備受推崇,然而隨著應(yīng)用的深化,越來越多的人開始對引文分析的有效性與可靠性提出質(zhì)疑。因為無論是引文分析的對象,還是引文分析的方法本身,都存在一些虛假和錯誤的成份。雖然不是很熱門,但針對引文分析和統(tǒng)計誤差的研究一直伴隨著SCI的成長歷程。盡管專論相對而言不是很多,但在不少采用引文數(shù)據(jù)進行研究工作的文獻中多少都存在對引文分析中缺陷和錯誤的分析和研究,很多文獻也以善意的提醒或者警示來告知讀者要謹慎地使用引文數(shù)據(jù)。目前,國內(nèi)對于引文虛假和誤差討論最多的當屬偽引和漏引。第二十七頁,共四十一頁,2022年,8月28日共詞分析法
共詞分析法利用文獻集中詞匯對或名詞短語共同出現(xiàn)的情況,來確定該文獻集所代表學科中各主題之間的關(guān)系。一般認為詞匯對在同一篇文獻中出現(xiàn)的次數(shù)越多,則代表這兩個主題的關(guān)系越緊密。由此,統(tǒng)計一組文獻的主題詞兩兩之間在同一篇文獻出現(xiàn)的頻率,便可形成一個由這些詞對關(guān)聯(lián)所組成的共詞網(wǎng)絡(luò),網(wǎng)絡(luò)內(nèi)節(jié)點之間的遠近便可以反映主題內(nèi)容的親疏關(guān)系。共詞分析就是以此為原理,將文獻主題詞作為分析對象,利用包容系數(shù)、聚類分析等多種統(tǒng)計分析方法,把眾多分析對象之間錯綜復雜的共詞網(wǎng)狀關(guān)系簡化為以數(shù)值、圖形直觀地表示出來的過程。第二十八頁,共四十一頁,2022年,8月28日共詞分析法的過程
1確定分析的問題2確定分析單元3高頻詞的選定4共詞分析中統(tǒng)計方法5對共詞結(jié)果的分析
第二十九頁,共四十一頁,2022年,8月28日一、確定分析的問題
利用共詞分析法基本原理可以概述研究領(lǐng)域的研究熱點,橫向和縱向分析領(lǐng)域、學科的發(fā)展過程、特點以及領(lǐng)域或?qū)W科之間的關(guān)系等等。不同的問題有不同的分析過程,采用不同的數(shù)學計量方法。第三十頁,共四十一頁,2022年,8月28日二、確定分析單元
有學者選擇文獻中的主題詞、關(guān)鍵詞為共詞分析的基本單元。在共詞分析中借助數(shù)據(jù)庫管理軟件以及SPSS統(tǒng)計軟件進行識別統(tǒng)計,對計算機而言同義不同詞的詞在統(tǒng)計過程中,被看作兩個完全不相關(guān)的詞匯,對統(tǒng)計分析的結(jié)果產(chǎn)生很大干擾。因此,被分析的詞匯最好是受控的、被統(tǒng)一標引的主題詞。只有這樣,共詞分析方法利用文章中詞語對的共現(xiàn)頻次來反映包含在文章中的概念才能成立。第三十一頁,共四十一頁,2022年,8月28日
主題詞是規(guī)范化的檢索語言,它對文獻中出現(xiàn)的同義詞、近義詞、多義詞以及同一概念的不同書寫形式等進行嚴格的控制和規(guī)范,使每個主題詞都含義明確,以便準確檢索,防止誤檢、漏檢。如:白介素2、白細胞介素2、IL2、IL-2等表達同一概念的不同書寫形式規(guī)范為“白細胞介素2”。
關(guān)鍵詞是屬于自然語言的范疇,未經(jīng)規(guī)范化處理,也不受主題詞表的控制。如:對于“白細胞介素2”這一概念可有白介素2、白細胞介素2、IL2、IL-2等不同形式來表達。
主題詞與關(guān)鍵詞最大的區(qū)別就是主題詞經(jīng)過了規(guī)范化處理。
第三十二頁,共四十一頁,2022年,8月28日三、高頻詞的選定
為簡化統(tǒng)計的過程及減少低頻詞對統(tǒng)計過程帶來的干擾,通常共詞分析選擇高頻主題詞為分析的對象。共詞分法對高頻詞數(shù)量的選擇沒有統(tǒng)一的見解,如果主題的范圍過小,則不能如實反映學科知識點的構(gòu)成;如果主題的范圍選擇過大,則給共詞分析過程帶來不必要的干攏。用域值表示高頻詞劃分的頻次值,高頻詞域值越高,高頻詞的數(shù)量越多。高頻詞閾值是被認定高頻詞的詞頻總和,占所有詞頻總和的比率。第三十三頁,共四十一頁,2022年,8月28日高頻詞的確定主要有兩種方法:一種是結(jié)合研究者的經(jīng)驗在選詞個數(shù)和詞頻高度上平衡,該方法具有一定的主觀性;另一種是結(jié)合齊普夫第二定律輔助判定高頻詞的界限。第三十四頁,共四十一頁,2022年,8月28日四、共詞分析中統(tǒng)計方法
共詞矩陣的計算是共詞分析中的重要一步,在此基礎(chǔ)上采用不同的統(tǒng)計學方法,揭示共詞中的信息,常用的分析方法有:聚類法、關(guān)聯(lián)法、詞頻法、突發(fā)詞監(jiān)測法等。第三十五頁,共四十一頁,2022年,8月28日共詞聚類分析法
借助數(shù)據(jù)挖掘中的聚類分析法,對共詞關(guān)系網(wǎng)絡(luò)中的詞與詞之間的距離進行數(shù)學運算分析,將距離較近的主題詞聚集起來,形成一個個概念相對獨立的類團,使得類團內(nèi)屬性相似性最大,類團間屬性相似性最小。第三十六頁,共四十一頁,2022年,8月28日共詞關(guān)聯(lián)分析法
關(guān)聯(lián)規(guī)則是描述一個事物中物品之間同時出現(xiàn)的規(guī)律的知識模式,更確切地說,就是通過量化的數(shù)據(jù)描述物品A的出現(xiàn)對物品B的出現(xiàn)有多大的影響。共詞關(guān)聯(lián)分析以此為原理,通過關(guān)聯(lián)統(tǒng)計方法,揭示主題詞間的依存關(guān)系,在這基礎(chǔ)上可現(xiàn)實對文獻知識的提取以及組織文獻數(shù)據(jù)庫的作用。在共詞關(guān)聯(lián)分析的過程,涉及到4個重要的概念:a.支持度(Support)b.可信度(Confidence)c.期望可信度(ExpectedConfidence)d.作用度
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- (2025年)勞動保障協(xié)理員證考試題庫及答案
- 2025年大型無菌包裝機項目發(fā)展計劃
- 2025年山梨酸及山梨酸鉀項目發(fā)展計劃
- 2025年安聯(lián)全球財富報告
- 味蕾的課件教學課件
- 老年人便秘的膳食安排
- 2025年胺類項目建議書
- 患者疼痛管理與評估
- 股骨護理實踐技巧
- 子宮肉瘤的康復護理策略
- 2026中儲糧集團公司西安分公司招聘(43人)筆試考試參考試題及答案解析
- 2025年全國防汛抗旱知識競賽培訓試題附答案
- 2025年10月自考00420物理工試題及答案含評分參考
- (2025)交管12123駕照學法減分題庫附含答案
- 中層競聘面試必-備技能與策略實戰(zhàn)模擬與案例分析
- 科技信息檢索與論文寫作作業(yè)
- 施工現(xiàn)場防火措施技術(shù)方案
- 2025年高職物理(電磁學基礎(chǔ))試題及答案
- 服裝打版制作合同范本
- 技術(shù)部門項目交付驗收流程與標準
- 林場管護知識培訓課件
評論
0/150
提交評論