版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
3信息交流
本章聚焦于信息分布,研究對(duì)象為文獻(xiàn)信息。我們將從兩個(gè)維度展開研究,縱向維度關(guān)注信息隨時(shí)間變化的分布動(dòng)態(tài),借此可以洞察信息在不同時(shí)間段的演變趨勢(shì),了解信息產(chǎn)生和傳播的時(shí)間規(guī)律。橫向維度則考察信息在不同載體和領(lǐng)域的分布狀態(tài),這有助于我們掌握信息在多樣化環(huán)境中的擴(kuò)散情況。
在研究過程中,我們會(huì)介紹一些文獻(xiàn)信息分布的主要經(jīng)典定律。這些定律是前人通過大量觀察和統(tǒng)計(jì)得出的,具有很高的權(quán)威性和實(shí)用性,能為我們理解信息分布提供重要的理論支持。
在掌握了這些理論知識(shí)后,我們會(huì)對(duì)網(wǎng)絡(luò)環(huán)境下信息資源的分布進(jìn)行初步探討。隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)已成為信息傳播的重要平臺(tái),網(wǎng)絡(luò)環(huán)境下的信息分布有著獨(dú)特的特點(diǎn)和規(guī)律,與傳統(tǒng)文獻(xiàn)信息分布存在差異。對(duì)其進(jìn)行研究,有助于我們更好地適應(yīng)數(shù)字化時(shí)代的信息傳播模式,提高信息利用的效率。
信息產(chǎn)生與分布中的馬太效應(yīng)具有多種表現(xiàn)和作用形式。從核心趨勢(shì)來看,會(huì)形成高產(chǎn)作者群體。在學(xué)術(shù)領(lǐng)域,一部分作者憑借自身能力、資源和機(jī)遇,發(fā)表大量高質(zhì)量論文,逐漸形成高產(chǎn)作者群體。他們的作品不斷涌現(xiàn),在學(xué)術(shù)圈的影響力也越來越大,吸引更多資源和關(guān)注,進(jìn)一步鞏固其高產(chǎn)地位。
馬太效應(yīng)還會(huì)使期刊信息密度增大。優(yōu)質(zhì)期刊會(huì)吸引更多高質(zhì)量論文投稿,隨著優(yōu)質(zhì)論文不斷匯聚,期刊的信息含量和學(xué)術(shù)價(jià)值大幅提升,進(jìn)而吸引更多讀者和作者,形成良性循環(huán)。
高頻詞匯的確立也是馬太效應(yīng)的體現(xiàn)。在某一領(lǐng)域的研究中,一些特定詞匯因頻繁出現(xiàn)而成為高頻詞匯。這些高頻詞匯代表著該領(lǐng)域的研究熱點(diǎn)和重點(diǎn)方向,隨著研究深入,它們的使用頻率會(huì)越來越高,逐漸在學(xué)術(shù)交流中占據(jù)主導(dǎo)地位。
從集中取向方面看,一篇論文多次被引和一個(gè)網(wǎng)站被眾多用戶點(diǎn)擊,都體現(xiàn)了馬太效應(yīng)。被引次數(shù)多的論文會(huì)被更多人關(guān)注和引用,訪問量高的網(wǎng)站也會(huì)吸引更多用戶,進(jìn)一步擴(kuò)大其影響力。
信息分布的富集現(xiàn)象,雖然在一定程度上有積極意義,能夠突出重點(diǎn)、摒棄平均,為信息源的選擇、獲取、評(píng)價(jià)和利用提供依據(jù),進(jìn)而降低信息管理成本,提高信息利用效益。然而,其帶來的負(fù)面影響也不容小覷。
聚焦于核心信息源時(shí),會(huì)忽略分布在其他信息源中有價(jià)值的信息。這就如同只看到了冰山一角,而錯(cuò)過了隱藏在水下的巨大信息寶藏。很多時(shí)候,那些被忽視的信息源中可能蘊(yùn)含著獨(dú)特的、創(chuàng)新的知識(shí),因?yàn)檫^度關(guān)注核心信息源而被埋沒。
馬太效應(yīng)青睞名人、拒絕新人的習(xí)慣勢(shì)力,更是嚴(yán)重限制了新思想、新知識(shí)和新信息的產(chǎn)生及傳播。新人往往缺乏足夠的知名度和資源,即使他們有新穎的觀點(diǎn)和想法,也很難在信息傳播的舞臺(tái)上嶄露頭角。而名人則因?yàn)橐延械穆曌u(yù)和影響力,更容易獲得關(guān)注和資源,這就形成了一種惡性循環(huán),不利于信息領(lǐng)域的多元化和創(chuàng)新發(fā)展。
信息的離散分布作為信息的重要屬性,體現(xiàn)為內(nèi)容單元以多元方式、從不同角度分布于各類載體。這一現(xiàn)象并非偶然,有著復(fù)雜的內(nèi)在機(jī)理。
從本質(zhì)上來說,信息的生產(chǎn)與利用決定了其離散分布。信息生產(chǎn)過程中,不同的生產(chǎn)者有不同的知識(shí)背景、研究方向和表達(dá)習(xí)慣,會(huì)使信息以多樣的形式產(chǎn)生,自然地分散在不同載體中。而信息利用方面,用戶的需求千差萬(wàn)別,為滿足不同需求,信息會(huì)被以不同方式整理、存儲(chǔ)和傳播,進(jìn)一步加劇了離散分布。
認(rèn)識(shí)信息離散分布規(guī)律意義重大。它有助于我們?cè)谛畔⒌暮Q笾懈珳?zhǔn)地定位和獲取所需信息,避免大海撈針式的低效勞動(dòng)。也能讓我們更合理地組織和管理信息資源,提高信息服務(wù)的質(zhì)量和效率??傊?,把握這一規(guī)律,能讓我們?cè)谛畔⒌纳a(chǎn)和利用中更加得心應(yīng)手。
在信息內(nèi)容的離散分布規(guī)律研究中,布拉德福定律是一項(xiàng)重要成果。布拉德福在長(zhǎng)期觀察與統(tǒng)計(jì)某學(xué)科領(lǐng)域相關(guān)論文在期刊中的分布后,發(fā)現(xiàn)其存在不均勻性,且有明顯的集中與分散規(guī)律,進(jìn)而提出了“布拉德福分散定律”。
該定律的區(qū)域表述形式具有深刻意義。當(dāng)把科學(xué)期刊按刊載某學(xué)科主題論文數(shù)量遞減排序,就能區(qū)分出載文率最高的“核心”部分和后續(xù)包含同等數(shù)量論文的區(qū)域。核心區(qū)和后繼各區(qū)的期刊數(shù)成1∶a∶a2(a>1)的關(guān)系,這一比例關(guān)系揭示了論文在期刊中的分布模式。
這意味著在眾多期刊中,少數(shù)核心期刊集中了大量相關(guān)論文,而其他大部分期刊載文量相對(duì)較少。此定律為我們篩選核心期刊、獲取關(guān)鍵信息提供了理論依據(jù),有助于提高信息獲取的效率和精準(zhǔn)度,讓我們能更有針對(duì)性地從期刊中挖掘有價(jià)值的研究成果。
現(xiàn)在我們來深入探討布拉德福定律,當(dāng)前展示的是應(yīng)用地球物理學(xué)論文的布氏分布表格。布拉德福定律是信息離散分布規(guī)律中的重要內(nèi)容,它揭示了某一學(xué)科領(lǐng)域相關(guān)論文在期刊中不均勻的分布特征。
這個(gè)表格呈現(xiàn)的數(shù)據(jù),是布拉德福定律的具體應(yīng)用體現(xiàn)。通過對(duì)應(yīng)用地球物理學(xué)論文在不同期刊上的分布進(jìn)行統(tǒng)計(jì)和分析,我們能更直觀地看到論文的集中與分散規(guī)律。從表格里,我們可以推測(cè)出哪些期刊是該學(xué)科領(lǐng)域的核心期刊,即載文率高的期刊,它們就像信息的富集地,包含了大量該學(xué)科的重要論文。
布拉德福定律的意義在于,它為我們獲取和利用信息提供了指引。讓我們?cè)诿鎸?duì)海量的期刊資源時(shí),能夠快速找到核心的信息源,提高信息獲取的效率。而且,它也有助于我們對(duì)期刊進(jìn)行科學(xué)的評(píng)價(jià)和管理,明確不同期刊在學(xué)科領(lǐng)域中的地位和作用。總之,這個(gè)布氏分布表格是理解布拉德福定律的重要實(shí)證依據(jù)。
布拉德福分散曲線是研究信息離散分布規(guī)律的重要工具。當(dāng)以期刊按載文量遞減排列時(shí)順序號(hào)n的對(duì)數(shù)為橫坐標(biāo),以1至n號(hào)期刊所載論文的累積數(shù)為縱坐標(biāo),繪制出的曲線就是布拉德福分散曲線。
這條曲線由三部分構(gòu)成,先是上升曲線AC,這表明在開始階段,隨著期刊順序號(hào)的增加,論文累積數(shù)增長(zhǎng)較快,說明少數(shù)載文量高的期刊集中了較多論文。接著是直線CB,意味著在這一區(qū)間,期刊載文量的增加與論文累積數(shù)的增長(zhǎng)呈現(xiàn)出一種穩(wěn)定的線性關(guān)系。最后是下垂曲線,這表示隨著期刊順序號(hào)進(jìn)一步增大,論文累積數(shù)的增長(zhǎng)逐漸變緩,說明后續(xù)期刊的載文量較低。B.C.布魯克斯用特定模式來表示布拉德福定律,而布拉德福分散曲線則直觀地展示了該定律所揭示的論文在期刊中的分散規(guī)律。它讓我們能更清晰地看到信息在期刊中的分布情況,為我們研究信息的離散分布提供了重要的可視化依據(jù)。
布拉德福定律有兩個(gè)關(guān)鍵要點(diǎn)。其一,通過頻次等級(jí)排序,形成主體來源也就是期刊的有序目錄。這就如同給眾多期刊排了個(gè)隊(duì),讓我們能清晰知曉哪些期刊在某學(xué)科領(lǐng)域的載文量處于前列,為我們獲取相關(guān)信息提供了明確的指引。其二,確定相關(guān)論文在主體來源中的分布規(guī)律。這能幫助我們了解論文在不同期刊中的分散情況,知道哪些期刊是該學(xué)科論文的集中地。
該定律采用的具體方法包括區(qū)域分析和圖形描述。雖然這兩種方法得出的數(shù)值不同,但它們殊途同歸,揭示的都是論文在期刊中的分散規(guī)律。這就好比從不同角度去觀察一個(gè)事物,最終都能讓我們對(duì)其有更全面的認(rèn)識(shí)。
不過,布拉德福定律也存在一定局限性。它主要聚焦于宏觀層次的信息,即文獻(xiàn)的離散分布。然而,對(duì)于微觀層次的信息,也就是內(nèi)容單元分布的研究,幾乎還是一片空白。這意味著我們?cè)谶\(yùn)用該定律時(shí),不能完全依賴它來解決所有關(guān)于信息分布的問題,還需要進(jìn)一步探索微觀層面的信息分布規(guī)律,以完善我們對(duì)信息離散分布的認(rèn)知。
在信息分布規(guī)律的研究中,齊夫定律是一個(gè)重要的發(fā)現(xiàn)。當(dāng)我們面對(duì)一篇較長(zhǎng)的文章,大約5000字以上,把其中每個(gè)詞按照出現(xiàn)的頻次進(jìn)行遞減排列,高頻詞排在前面,低頻詞排在后面,并且用自然數(shù)給這些詞編上等級(jí)序號(hào),出現(xiàn)頻次最高的為1級(jí),其次是2級(jí),以此類推,直到D級(jí)。
這里用f表示詞在文章中出現(xiàn)的頻次,用r表示詞的等級(jí)序號(hào),就會(huì)發(fā)現(xiàn)存在這樣一個(gè)關(guān)系,式中c為常數(shù),這就是齊夫定律。齊夫定律揭示了文章中詞匯出現(xiàn)頻次和等級(jí)序號(hào)之間的內(nèi)在規(guī)律。它告訴我們,在語(yǔ)言表達(dá)中,詞匯的使用并不是隨機(jī)的,而是有著一定的分布模式。高頻詞在文章中占據(jù)著重要的地位,它們的出現(xiàn)頻次和等級(jí)序號(hào)之間有著穩(wěn)定的數(shù)學(xué)關(guān)系。這一定律對(duì)于研究語(yǔ)言的結(jié)構(gòu)、信息的傳遞以及文本的分析都有著重要的意義。它讓我們能夠從一個(gè)新的角度去理解語(yǔ)言文字背后隱藏的規(guī)律,也為我們?cè)谛畔⑻幚?、文本挖掘等領(lǐng)域的工作提供了理論基礎(chǔ)。
前面我們提到了齊夫定律,即把較長(zhǎng)文章中的詞按出現(xiàn)頻次遞減排列并編號(hào),頻次與等級(jí)序號(hào)滿足一定數(shù)學(xué)關(guān)系。現(xiàn)在來看齊夫定律在坐標(biāo)系中的呈現(xiàn)。當(dāng)建立f與r的直角坐標(biāo)系,以縱坐標(biāo)表示詞的等級(jí)序號(hào),橫坐標(biāo)表示出現(xiàn)頻次時(shí),會(huì)得到一條雙曲線。這一曲線形態(tài)實(shí)際上反映了詞頻分布的一種規(guī)律,體現(xiàn)出高頻詞和低頻詞之間的數(shù)量關(guān)系差異。
而當(dāng)我們對(duì)等級(jí)r與頻次f都取對(duì)數(shù)時(shí),神奇的事情發(fā)生了,原本的雙曲線變成了一條直線。這種轉(zhuǎn)變意義重大,它讓原本復(fù)雜的詞頻分布規(guī)律變得更加直觀和易于分析。直線形式能幫助我們更清晰地洞察詞頻與詞的等級(jí)序號(hào)之間的內(nèi)在聯(lián)系,也為進(jìn)一步深入研究語(yǔ)言的結(jié)構(gòu)和使用規(guī)律提供了更便捷的途徑。這一數(shù)學(xué)表達(dá)式所揭示的規(guī)律,在信息檢索、自然語(yǔ)言處理等諸多領(lǐng)域都有著重要的應(yīng)用價(jià)值。第12頁(yè)
上一頁(yè)提到齊夫定律,若將較長(zhǎng)文章中每個(gè)詞按出現(xiàn)頻次遞減排列并編號(hào),出現(xiàn)頻次與等級(jí)序號(hào)有特定關(guān)系,用數(shù)學(xué)式表達(dá),建立直角坐標(biāo)系后能得到雙曲線,取對(duì)數(shù)則變?yōu)橹本€。而本處的詞頻分布表進(jìn)一步展示齊夫定律的具體呈現(xiàn)。
詞頻分布表是研究齊夫定律的重要依據(jù),它詳細(xì)記錄不同詞匯的出現(xiàn)頻次,為驗(yàn)證定律提供數(shù)據(jù)支撐。通過分析表3.2中的數(shù)據(jù),能深入了解文章中詞匯的分布模式。比如能發(fā)現(xiàn)高頻詞和低頻詞的數(shù)量差異、等級(jí)序號(hào)與頻次的具體對(duì)應(yīng)關(guān)系等。這有助于我們更精準(zhǔn)地把握齊夫定律在實(shí)際文本中的體現(xiàn),進(jìn)而拓展到對(duì)信息分布規(guī)律的研究。因?yàn)樵~匯作為信息的載體,其分布規(guī)律能反映出信息在文本中的組織和傳遞方式。所以,這個(gè)詞頻分布表是深入探究齊夫定律以及信息分布規(guī)律的關(guān)鍵一環(huán)。第13頁(yè)
我們現(xiàn)在來深入了解齊夫定律相關(guān)的曲線。這里呈現(xiàn)了齊夫詞頻分布曲線和齊夫詞頻對(duì)數(shù)分布曲線。先看齊夫詞頻分布曲線,它以詞的等級(jí)序號(hào)r為縱坐標(biāo),以出現(xiàn)頻次f為橫坐標(biāo)。從圖中給出的數(shù)值,像頻次f有250、200等不同數(shù)值,等級(jí)序號(hào)r有1、3等,我們能看到它們之間的對(duì)應(yīng)關(guān)系。這反映出在一篇文章里,不同等級(jí)序號(hào)的詞有著不同的出現(xiàn)頻次,高頻詞和低頻詞在文章中的分布是有規(guī)律的。
再看齊夫詞頻對(duì)數(shù)分布曲線,當(dāng)我們把等級(jí)r與頻次f都取對(duì)數(shù)后,原本的雙曲線變成了直線。這一轉(zhuǎn)變意義重大,它讓我們可以用更簡(jiǎn)潔的直線方程來描述詞頻分布規(guī)律。圖中的虛線代表理想化形式,一般而言,斜率為b的任一直線可用來表示這種對(duì)數(shù)分布關(guān)系。這兩條曲線從不同角度展示了齊夫定律,幫助我們更清晰地認(rèn)識(shí)到文章中詞的出現(xiàn)頻次與等級(jí)序號(hào)之間的內(nèi)在聯(lián)系,為我們研究信息分布規(guī)律提供了重要的工具和視角。第14頁(yè)
信息生產(chǎn)者在信息生產(chǎn)過程和結(jié)構(gòu)中所呈現(xiàn)的規(guī)律,以及這些規(guī)律對(duì)信息分布的影響,是一個(gè)極具意義卻又充滿挑戰(zhàn)的課題。研究這一課題,就如同探索一座神秘的寶藏迷宮,雖困難重重,但寶藏的價(jià)值卻難以估量。
以科學(xué)信息生產(chǎn)為基礎(chǔ)來研究此問題,是因?yàn)榭茖W(xué)信息生產(chǎn)是信息領(lǐng)域的重要組成部分??茖W(xué)研究產(chǎn)生的大量信息,從研究成果的發(fā)布到知識(shí)的傳播,都與信息生產(chǎn)者的行為規(guī)律密切相關(guān)。通過對(duì)科學(xué)信息生產(chǎn)的研究,我們能夠更深入地了解信息生產(chǎn)者在不同環(huán)節(jié)中的作用和表現(xiàn)。
例如,不同的科研人員在論文發(fā)表數(shù)量、研究方向等方面存在差異,這些差異背后的規(guī)律對(duì)于信息在學(xué)術(shù)界的分布有著深遠(yuǎn)影響。掌握了信息生產(chǎn)者的分布規(guī)律,我們就能更好地預(yù)測(cè)信息的流向和分布,為信息的有效傳播和利用提供依據(jù)。在當(dāng)今信息爆炸的時(shí)代,這對(duì)于推動(dòng)學(xué)術(shù)進(jìn)步、促進(jìn)知識(shí)共享具有重要意義。第15頁(yè)1926年,統(tǒng)計(jì)學(xué)家洛特卡完成了一項(xiàng)意義非凡的研究。他經(jīng)過大量統(tǒng)計(jì)和分析,在美國(guó)著名學(xué)術(shù)刊物《華盛頓科學(xué)院學(xué)報(bào)》發(fā)表了“科學(xué)生產(chǎn)率的頻率分布”論文。這一成果不僅是學(xué)術(shù)探索的結(jié)晶,更開啟了對(duì)科技工作者生產(chǎn)能力及貢獻(xiàn)研究的新征程。
當(dāng)時(shí)科技發(fā)展日新月異,科技工作者的成果對(duì)社會(huì)進(jìn)步影響深遠(yuǎn),但缺乏量化研究。洛特卡敏銳捕捉到這一空白,通過統(tǒng)計(jì)發(fā)表論著情況,試圖揭示科技工作者的產(chǎn)出規(guī)律。他深知,只有深入了解科技工作者的生產(chǎn)能力,才能更好評(píng)估其對(duì)科技進(jìn)步和社會(huì)發(fā)展的貢獻(xiàn)。
該研究為后續(xù)研究奠定了基礎(chǔ),為衡量科技工作者的貢獻(xiàn)提供了科學(xué)依據(jù),也讓我們能更清晰認(rèn)識(shí)科技發(fā)展的動(dòng)力源泉。洛特卡定律的提出,如同在科技研究的海洋中點(diǎn)亮了一盞明燈,指引著后來者不斷探索前行。第16頁(yè)
洛特卡為研究科技工作的論著數(shù)量分布,精心挑選了美國(guó)《化學(xué)文摘》和德國(guó)奧爾巴赫《物理學(xué)史一覽表》作為數(shù)據(jù)源。他對(duì)《化學(xué)文摘》1907-1916年10年累積索引中,姓氏以字母A和B開頭的6891位作者進(jìn)行了統(tǒng)計(jì)分析,詳細(xì)列出了發(fā)表過1篇、2篇,直至346篇論文的人數(shù)。這一數(shù)據(jù)選取并非隨意為之,而是為了盡可能全面且有代表性地反映科技工作者的論著發(fā)表情況。
對(duì)于《物理學(xué)史一覽表》,洛特卡取其全部數(shù)據(jù)進(jìn)行統(tǒng)計(jì),該表涵蓋了1900年前物理學(xué)領(lǐng)域內(nèi)出現(xiàn)的1325位物理學(xué)家及其論著。這種全面的數(shù)據(jù)收集方式,能讓我們更清晰地看到物理學(xué)領(lǐng)域科技工作者的論著分布規(guī)律。
洛特卡如此嚴(yán)謹(jǐn)?shù)剡x擇數(shù)據(jù)源和進(jìn)行數(shù)據(jù)統(tǒng)計(jì),為后續(xù)研究科技工作者的生產(chǎn)能力以及對(duì)科技進(jìn)步和社會(huì)發(fā)展的貢獻(xiàn)奠定了堅(jiān)實(shí)基礎(chǔ),讓我們能夠從這些數(shù)據(jù)中探尋到更深層次的規(guī)律和意義。第17頁(yè)
洛特卡對(duì)科技工作者論著數(shù)量分布進(jìn)行研究,以論文數(shù)(x)和作者數(shù)(yx)的對(duì)數(shù)為橫、縱坐標(biāo)作圖,兩組數(shù)據(jù)均呈直線狀。其中,圖中虛線代表《化學(xué)文摘》數(shù)據(jù),實(shí)線代表《物理學(xué)史一覽表》數(shù)據(jù)。
通過最小二乘法計(jì)算擬合直線的斜率,近似為-2。這一結(jié)果意義重大,它揭示了論文數(shù)與作者數(shù)之間存在著某種特定的規(guī)律。從數(shù)學(xué)角度看,斜率為-2表明兩者之間呈現(xiàn)出一種較為穩(wěn)定的數(shù)量關(guān)系。
這一規(guī)律有助于我們理解科技工作者的生產(chǎn)能力分布情況。若斜率穩(wěn)定為-2,意味著在科技領(lǐng)域,論文產(chǎn)出數(shù)量與作者數(shù)量之間存在著可預(yù)測(cè)的模式。這對(duì)于評(píng)估科技工作者的貢獻(xiàn)、合理分配科研資源等方面都具有重要的參考價(jià)值。例如,科研管理部門可依據(jù)此規(guī)律,更好地規(guī)劃科研項(xiàng)目,激勵(lì)更多科技工作者產(chǎn)出高質(zhì)量論文。第18頁(yè)
洛特卡定律是信息生產(chǎn)者分布規(guī)律中的重要內(nèi)容。洛特卡通過研究發(fā)現(xiàn),論文數(shù)x和作者數(shù)之間存在特定關(guān)系。式中,是發(fā)表了論文x篇的作者數(shù),n和c是對(duì)應(yīng)于典型數(shù)據(jù)集合估計(jì)出的兩個(gè)常數(shù),n的數(shù)值在2上下波動(dòng)。這一關(guān)系揭示了作者論文產(chǎn)出的分布模式。
經(jīng)過變換得到新的公式,令實(shí)際表示寫x篇論文的作者出現(xiàn)的頻率,是新的常量,表示作者取樣總數(shù)比例。通過積分運(yùn)算得出C=0.6079,即60.79%。這意味著按照平方反比分布,所有生產(chǎn)一篇論文的著者的比例剛剛超過60%。
以《物理學(xué)史一覽表》數(shù)據(jù)為例,共有1325名作者,寫一篇論文的為784人,占總數(shù)的59.2%。從絕對(duì)數(shù)來看,生產(chǎn)2篇論文的作者大約是生產(chǎn)1篇論文作者數(shù)的四分之一,生產(chǎn)3篇論文的作者大約是生產(chǎn)1篇論文作者數(shù)的九分之一,以此類推。洛特卡定律展示了信息生產(chǎn)者在論文產(chǎn)出上的規(guī)律,對(duì)研究科技工作者的生產(chǎn)能力和貢獻(xiàn)具有重要意義。第19頁(yè)
在洛特卡定律的研究進(jìn)程中,當(dāng)令一個(gè)表達(dá)式實(shí)際表示寫x篇論文的作者出現(xiàn)的頻率時(shí),同時(shí)引入一個(gè)新的常量表示作者取樣總數(shù)比例,由此可以得到一個(gè)新的公式。隨后對(duì)這個(gè)公式兩邊進(jìn)行積分運(yùn)算,這一數(shù)學(xué)操作是深入探究洛特卡定律的關(guān)鍵步驟。通過嚴(yán)謹(jǐn)?shù)姆e分計(jì)算,最終得出C的值為0.6079,也就是60.79%。
這一結(jié)果意義重大,按照平方反比分布理論,意味著所有生產(chǎn)一篇論文的著者的比例剛剛超過60%。這一數(shù)據(jù)直觀地反映出在科學(xué)信息生產(chǎn)領(lǐng)域,大部分作者的產(chǎn)出論文數(shù)量集中在一篇。以《物理學(xué)史一覽表》的數(shù)據(jù)為例,1325名作者中寫一篇論文的有784人,占總數(shù)的59.2%,這與理論推導(dǎo)的結(jié)果高度接近,進(jìn)一步驗(yàn)證了洛特卡定律的科學(xué)性和可靠性。第20頁(yè)
洛特卡定律中提到的平方反比分布,揭示了論文產(chǎn)出與作者數(shù)量之間的一種有趣規(guī)律。依據(jù)這一分布,生產(chǎn)一篇論文的著者比例剛剛超過60%,這意味著在學(xué)術(shù)研究領(lǐng)域,大部分作者的產(chǎn)出集中在較低水平。以《物理學(xué)史一覽表》的數(shù)據(jù)為例,1325名作者中寫一篇論文的有784人,占總數(shù)的59.2%,這一數(shù)據(jù)與理論比例較為接近,進(jìn)一步驗(yàn)證了該定律的可靠性。
從絕對(duì)數(shù)角度來看,生產(chǎn)多篇論文的作者數(shù)量與生產(chǎn)一篇論文的作者數(shù)量存在一定的比例關(guān)系。生產(chǎn)2篇論文的作者大約是生產(chǎn)1篇論文作者數(shù)的四分之一,生產(chǎn)3篇論文的作者大約是生產(chǎn)1篇論文作者數(shù)的九分之一,以此類推,生產(chǎn)n篇論文的作者大約是生產(chǎn)1篇論文作者數(shù)的n的平方分之一。這表明隨著論文產(chǎn)出數(shù)量的增加,作者數(shù)量呈急劇下降趨勢(shì)。
這一規(guī)律反映出學(xué)術(shù)研究的難度和門檻。撰寫一篇論文相對(duì)較為容易,因此大部分作者能夠達(dá)到這一水平;而隨著論文數(shù)量的增加,所需的研究能力、時(shí)間和精力也大幅提升,能夠達(dá)到這一水平的作者自然就越來越少。這也提醒我們,在學(xué)術(shù)評(píng)價(jià)中,不能僅僅以論文數(shù)量來衡量一個(gè)學(xué)者的能力和貢獻(xiàn),還需要綜合考慮論文的質(zhì)量和影響力。第21頁(yè)
普賴斯定律揭示了特定領(lǐng)域中論文產(chǎn)出與作者數(shù)量的關(guān)系。該定律指出,在某一特定領(lǐng)域里,全部論文的半數(shù)是由該領(lǐng)域全部作者平方根數(shù)量的那些人撰寫的。這一規(guī)律反映出在學(xué)術(shù)研究中成果產(chǎn)出的不均衡性,少數(shù)高產(chǎn)作者貢獻(xiàn)了大量論文。
普賴斯定律用公式(3-13)表示,其中n(x)代表撰寫x篇論文的作者數(shù),I=nmax是該學(xué)科規(guī)定時(shí)期內(nèi)最高產(chǎn)的作者數(shù),N為該學(xué)科領(lǐng)域全部作者總數(shù)。而m可通過公式(3-14)確定。
這一定律對(duì)學(xué)術(shù)研究的評(píng)估和資源分配有著重要的意義。它提醒我們?cè)谠u(píng)價(jià)學(xué)術(shù)成果時(shí),不能只看作者數(shù)量,更要關(guān)注高產(chǎn)作者的貢獻(xiàn)。同時(shí),在資源分配上,可以考慮向高產(chǎn)作者傾斜,以提高學(xué)術(shù)研究的效率和質(zhì)量。此外,對(duì)于那些想要在學(xué)術(shù)領(lǐng)域取得突出成就的人來說,普賴斯定律也提供了一個(gè)努力的方向,即成為高產(chǎn)作者。第22頁(yè)
研究信息在時(shí)間軸上的動(dòng)態(tài)分布規(guī)律意義重大,它猶如一把精準(zhǔn)的手術(shù)刀,能夠深入剖析信息的增長(zhǎng)與老化過程。信息如同有生命的個(gè)體,在不同的時(shí)間階段會(huì)展現(xiàn)出不同的特征,而通過科學(xué)高效的理論模型,我們可以像繪制生命軌跡圖一樣,清晰地刻畫信息隨時(shí)間推移所呈現(xiàn)出的趨勢(shì)。
這一研究的實(shí)際價(jià)值在于,可以幫助我們準(zhǔn)確把握信息量的變化。信息量并非一成不變,它會(huì)受到各種因素的影響而起伏波動(dòng)。了解其變化規(guī)律,我們就能在信息的海洋中找準(zhǔn)方向,避免被信息的洪流淹沒。
基于對(duì)信息變化規(guī)律的把握,我們可以對(duì)信息實(shí)施動(dòng)態(tài)管理。這意味著我們不再是被動(dòng)地接受信息,而是主動(dòng)地根據(jù)信息的發(fā)展態(tài)勢(shì)進(jìn)行調(diào)整和優(yōu)化。在當(dāng)今信息爆炸的時(shí)代,有效的信息管理能夠讓我們?cè)诤A啃畔⒅泻Y選出有價(jià)值的部分,提高工作和決策的效率,從而在激烈的競(jìng)爭(zhēng)中占據(jù)優(yōu)勢(shì)??傊芯啃畔?duì)時(shí)間的分布規(guī)律是信息時(shí)代的必修課,它將為我們帶來更高效的信息利用和更明智的決策。本章先以文獻(xiàn)信息為對(duì)象,從縱向(隨時(shí)間變化的分布動(dòng)態(tài))和橫向(在不同載體和領(lǐng)域的分布狀態(tài))來研究信息分布的特征和規(guī)律,介紹一些文獻(xiàn)信息分布的主要經(jīng)典定律。在此基礎(chǔ)上,對(duì)網(wǎng)絡(luò)環(huán)境下信息資源的分布進(jìn)行初步的探討。3信息分布3.1.1馬太效應(yīng)的表現(xiàn)和作用形式核心趨勢(shì)高產(chǎn)作者群體的形成期刊信息密度增大高頻詞匯的確立集中取向一篇論文多次被引一個(gè)網(wǎng)站被眾多用戶點(diǎn)擊3.1信息產(chǎn)生與分布中的
馬太效應(yīng)信息分布的富集現(xiàn)象突出重點(diǎn)、摒棄平均,為信息源的選擇、獲取、評(píng)價(jià)和利用提供依據(jù),降低信息管理成本,提高信息利用效益。核心信息源忽略分布在其他信息源中有價(jià)值的信息馬太效應(yīng)青睞名人、拒絕新人的習(xí)慣勢(shì)力限制了新思想、新知識(shí)和新信息的產(chǎn)生及傳播3.1.2馬太效應(yīng)的負(fù)面影響信息的離散分布是信息的重要屬性,它表現(xiàn)為信息的內(nèi)容單元以不同方式從不同角度分布于各種載體中,信息的離散分布具有復(fù)雜的機(jī)理,本質(zhì)上是由信息的生產(chǎn)和利用決定的。3.2 信息內(nèi)容的離散分布規(guī)律布拉德福發(fā)現(xiàn),某一學(xué)科領(lǐng)域中的相關(guān)論文在期刊中的分布是不均勻的,而且具有明顯的集中與分散規(guī)律。他在長(zhǎng)期的觀察和統(tǒng)計(jì)基礎(chǔ)之上,提出了有名的“布拉德福分散定律”(Bradford’sLawofScattering)布拉德福定律的區(qū)域表述形式:如果將科學(xué)期刊按其刊載某個(gè)學(xué)科主題的論文數(shù)量,以遞減順序排列起來,就可以在所有這些期刊中區(qū)分出載文率最高的‘核心’部分和包含著與核心部分同等數(shù)量論文的隨后幾區(qū),這時(shí)核心區(qū)和后繼各區(qū)中所含的期刊數(shù)成1∶a∶a2的關(guān)系(a>1)。3.2.1布拉德福定律表3-1應(yīng)用地球物理學(xué)論文的布氏分布3.2.1布拉德福定律如果橫坐標(biāo)取期刊按載文量遞減排列時(shí)的順序號(hào)n的對(duì)數(shù),縱坐標(biāo)取1至n號(hào)期刊所載論文的累積數(shù),我們將繪制出的曲線稱為布拉德福分散曲線。BR(n)DNLogenR(N’)COAR(N)n1R(n1)N’圖3-1布拉德福分散曲線3.2.1布拉德福定律布拉德福分散曲線由三部分構(gòu)成,先是一段上升的曲線AC,然后是一段直線CB,最后是下垂的曲線。B.C.布魯克斯用下述模式來表示布拉德福定律:布拉德福定律有兩個(gè)基本要點(diǎn):一是頻次等級(jí)排序,形成主體來源(期刊)的有序目錄;二是確定相關(guān)論文在主體來源中的分布規(guī)律。
具體方法則包括區(qū)域分析和圖形描述,雖然兩者數(shù)值并不相等,但它所揭示的都是論文在期刊中的分散規(guī)律。
布拉德福定律主要揭示的是宏觀層次的信息(文獻(xiàn))離散分布,而對(duì)于微觀層次的信息(內(nèi)容單元)分布的研究則基本上是空白。3.2.1布拉德福定律如果將一篇較長(zhǎng)文章(約5000字以上)中每個(gè)詞按其出現(xiàn)頻次遞減排列起來(高頻詞在前,低頻詞在后),并用自然數(shù)給這些詞編上等級(jí)序號(hào),出現(xiàn)頻次最高的為1級(jí),其次為2級(jí)……這樣一直到D級(jí),如果用f表示詞在文章中出現(xiàn)的頻次,用r表示詞的等級(jí)序號(hào),則有:
式中c為常數(shù)。上式稱為齊夫定律。3.2.2齊夫定律如果建立f與r的直角坐標(biāo)系,用縱坐標(biāo)表示詞的等級(jí)序號(hào),橫坐標(biāo)表示出現(xiàn)頻次,就得到一條雙曲線。如果等級(jí)r與頻次f都取對(duì)數(shù),則雙曲線變成一條直線。與之等價(jià)的數(shù)學(xué)表達(dá)式為:3.2.2齊夫定律RfLgrLgf140005.9922000.695.3031331.104.8941001.384.605801.614.386661.794.197581.944.068502.083.919442.203.7810402.303.69表3.2詞頻分布3.2.2齊夫定律f25020015010050300r132564LgfLgr圖3.2齊夫詞頻分布曲線圖3.3齊夫詞頻對(duì)數(shù)分布分布曲線圖中的虛線表示理想化形式,一般地,斜率為b的任一直線可表示為3.2.2齊夫定律信息生產(chǎn)者在信息生產(chǎn)過程和生產(chǎn)結(jié)構(gòu)中呈現(xiàn)何種規(guī)律,這種規(guī)律對(duì)信息分布有何影響,這是一個(gè)意義重大而又很難的課題。本節(jié)將以科學(xué)信息的生產(chǎn)為基礎(chǔ)來研究和回答這一問題。3.3信息生產(chǎn)者分布規(guī)律
1926年,統(tǒng)計(jì)學(xué)家洛特卡經(jīng)過大量統(tǒng)計(jì)和研究,在美國(guó)著名的學(xué)術(shù)刊物《華盛頓科學(xué)院學(xué)報(bào)》上發(fā)表了一篇題名為“科學(xué)生產(chǎn)率的頻率分布”的論文,旨在通過對(duì)發(fā)表論著的統(tǒng)計(jì)來探明科技工作者的生產(chǎn)能力及對(duì)科技進(jìn)步和社會(huì)發(fā)展所作的貢獻(xiàn)。3.3.1洛特卡定律洛特卡選擇美國(guó)《化學(xué)文摘》和德國(guó)奧爾巴赫《物理學(xué)史一覽表》為數(shù)據(jù)源研究科技工作的論著數(shù)量分布。他統(tǒng)計(jì)分析了《化學(xué)文摘》1907~1916年10年累積索引中的部分作者,即姓氏以字母A和B開頭的6891位作者。分別列出發(fā)表過1篇、2篇,一直到346篇論文的人數(shù)?!段锢韺W(xué)史一覽表》包括了1900年前物理學(xué)領(lǐng)域內(nèi)出現(xiàn)的1325位物理學(xué)家及其論著,取其全部數(shù)據(jù)進(jìn)行統(tǒng)計(jì)。3.3.1洛特卡定律洛特卡以論文數(shù)(x)和作者數(shù)(yx)的對(duì)數(shù)為橫坐標(biāo)和縱坐標(biāo)(即logx和logyx)作圖,兩組數(shù)據(jù)都是直線(如圖所示)。圖中虛線表示《化學(xué)文摘》數(shù)據(jù),實(shí)線代表《物理學(xué)史一覽表》的數(shù)據(jù)。用最小二乘法計(jì)算擬合直線的斜率,近似為-2。LogyxLogx10532151253010020圖3-4洛特卡分布曲線3.3.1洛特卡定律根據(jù)洛特卡分析,在論文數(shù)x和作者數(shù)之間存在下列關(guān)系:式中,
是發(fā)表了論文x篇的作者數(shù),n和c是對(duì)應(yīng)于這一典型數(shù)據(jù)集合而估計(jì)出來的兩個(gè)常數(shù),n的數(shù)值在2上下波動(dòng)。通過變換可以得到下面的公式:3.3.1洛特卡定律令,實(shí)際表示寫x篇論文的作者出現(xiàn)的頻率.是新的常量,表示作者取樣總數(shù)比例,這樣可以寫成:兩邊積分得:
于是,C=0.6079=60.79%3.3.1洛特卡定律按照平方反比分布,所有生產(chǎn)一篇論文的著者的比例剛剛超過60%。例如在《物理學(xué)史一覽表》數(shù)據(jù)中,共有1325名作者,寫一篇論文的為784人,占總數(shù)的59.2%。如果取絕對(duì)數(shù),則可表述為:生產(chǎn)2篇論文的作者大約是生產(chǎn)1篇論文作者數(shù)的(即)生產(chǎn)3篇論文的作者大約是生產(chǎn)1篇論文作者數(shù)的(即)生產(chǎn)n篇論文的作者大約是生產(chǎn)1篇論文作者數(shù)的3.3.1洛特卡定律在某一特定領(lǐng)域中,全部論文的半數(shù)系由該領(lǐng)域中全部作者的平方根的那些人撰寫的。該定律可表示為:
(3-13)
式中,n(x)為撰寫x篇論文的作者數(shù);I=nmax為該學(xué)科規(guī)定時(shí)期內(nèi)最高產(chǎn)的作者數(shù);N為該學(xué)科領(lǐng)域全部作者總數(shù)。m可由下式確定:
(3-14)
3.3.2普賴斯定律研究信息在時(shí)間軸上的動(dòng)態(tài)分布規(guī)律可以揭示信息的增長(zhǎng)與老化,用科學(xué)高效的理論模型來刻畫信息隨時(shí)間的推移所表現(xiàn)出來的趨勢(shì),把握信息量的變化,對(duì)信息實(shí)施動(dòng)態(tài)管理。3.4 信息對(duì)時(shí)間的分布規(guī)律(1)普賴斯曲線如果我們以文獻(xiàn)量為縱軸,以歷史年代為橫軸,把各不同年代的文獻(xiàn)量在坐標(biāo)圖上逐點(diǎn)描繪出來,然后以一光滑曲線連接各點(diǎn),則可十分近似地表征文獻(xiàn)隨時(shí)間增長(zhǎng)的規(guī)律。這就是著名的普賴斯曲線。3.4.1指數(shù)增長(zhǎng)律F(t)1001019001950t1665100001000180017501850圖3-5普賴斯曲線
通過對(duì)曲線分析,普賴斯最先注意到文獻(xiàn)增長(zhǎng)與時(shí)間成指數(shù)函數(shù)關(guān)系。如果用F(t)表示時(shí)刻t的文獻(xiàn)量,則指數(shù)定律可表為下式:…………(3-22)式中:a是統(tǒng)計(jì)的初始時(shí)刻(t=0)的文獻(xiàn)量;
e=2.718;b表示持續(xù)增長(zhǎng)率。
人們還常常用文獻(xiàn)量翻一倍的時(shí)間來衡量文獻(xiàn)的增長(zhǎng)速度,即…………(3-23)式中:t′為文獻(xiàn)量翻倍時(shí)間,b為持續(xù)增長(zhǎng)率。3.4.1指數(shù)增長(zhǎng)律實(shí)際的統(tǒng)計(jì)發(fā)現(xiàn),不同時(shí)期、不同級(jí)別、不同質(zhì)量、不同學(xué)科領(lǐng)域的文獻(xiàn)信息增長(zhǎng)態(tài)勢(shì)是不一樣的。勒希爾考察了不同質(zhì)量級(jí)別的文獻(xiàn)增長(zhǎng)狀況,發(fā)現(xiàn)它們的增長(zhǎng)速度差別很大。勒希爾認(rèn)為,文獻(xiàn)的數(shù)量與其質(zhì)量有關(guān)。他定義λ(0≤λ≤1)為文獻(xiàn)的質(zhì)量級(jí)別,則不同級(jí)別上的文獻(xiàn)量為[F(t)]λ。他給λ的具體值如下:λ=1:至少是一般文獻(xiàn)(實(shí)際代表所有文獻(xiàn))λ=3/4:至少是有意義的文獻(xiàn)λ=1/2:至少是重要的文獻(xiàn)λ=1/4:至少是非常重要的文獻(xiàn)λ=0:第一流的文獻(xiàn)對(duì)于第一流的文獻(xiàn)(即λ=0),文獻(xiàn)數(shù)量為lnF(t)。
3.4.1指數(shù)增長(zhǎng)律(2)生長(zhǎng)曲線
普賴斯指出,考慮物質(zhì)的、經(jīng)濟(jì)的、智力的及時(shí)間的影響和限制,文獻(xiàn)信息的增長(zhǎng)更趨近于生物的生長(zhǎng)曲線(LogisticCurve),即最初生長(zhǎng)或繁殖很快,隨著時(shí)間推移,其生長(zhǎng)速度越來越慢,以致幾乎不增加了。其方程為:
……(3-24)
式中:F(t)代表時(shí)刻t的文獻(xiàn)量,k為文獻(xiàn)增長(zhǎng)的最大值。3.4.1指數(shù)增長(zhǎng)律F(t)tK/2Lna/kb圖3-6生長(zhǎng)曲線3.4.1指數(shù)增長(zhǎng)律一般來說,在不同的階段科學(xué)文獻(xiàn)增長(zhǎng)的態(tài)勢(shì)是不同的。學(xué)科處于誕生和發(fā)展階段,文獻(xiàn)量指數(shù)增長(zhǎng),文獻(xiàn)的壽命較短。學(xué)科進(jìn)入相對(duì)成熟階段,文獻(xiàn)增長(zhǎng)就不能總保持原有的指數(shù)速率,增長(zhǎng)率變小,曲線變得平緩,文獻(xiàn)壽命相對(duì)變長(zhǎng)。某一知識(shí)領(lǐng)域的研究取得重大進(jìn)展后進(jìn)入相對(duì)成熟的階段。內(nèi)容上更新的文獻(xiàn)又將進(jìn)入一個(gè)新的急劇增長(zhǎng)時(shí)期(如指數(shù)增長(zhǎng))。然后又進(jìn)入一個(gè)穩(wěn)定時(shí)期。文獻(xiàn)的增長(zhǎng)往往會(huì)出現(xiàn)幾個(gè)急劇增長(zhǎng)時(shí)期和幾個(gè)相對(duì)穩(wěn)定時(shí)期,呈現(xiàn)出錯(cuò)綜復(fù)雜的格局。一般說來,對(duì)不同的領(lǐng)域,描述其文獻(xiàn)增長(zhǎng)的生長(zhǎng)線中各個(gè)常數(shù)(a,b和k)也是不相同的。3.4.1指數(shù)增長(zhǎng)律
利用指數(shù)曲線和生長(zhǎng)曲線來研究文獻(xiàn)增長(zhǎng)、預(yù)測(cè)未來文獻(xiàn)總量必然會(huì)有局限。這是因?yàn)椋孩僦笖?shù)增長(zhǎng)定律的產(chǎn)生,首先是普賴斯分析研究物理學(xué)文獻(xiàn)數(shù)量的增長(zhǎng)時(shí)提出的,然后把這一結(jié)果擴(kuò)大到科學(xué)期刊和其他類型的出版物上,繪制了普賴斯曲線。把對(duì)文獻(xiàn)某一方面、某一歷史階段的研究成果,推廣到文獻(xiàn)的全部領(lǐng)域,根據(jù)是不充分的。②利用上述二曲線對(duì)文獻(xiàn)增長(zhǎng)所作的預(yù)測(cè),依據(jù)的是預(yù)測(cè)學(xué)中的趨勢(shì)外推法。文獻(xiàn)作為傳播信息這一復(fù)雜系統(tǒng)中的子系統(tǒng),其增長(zhǎng)規(guī)律受到許多因素的影響和制約,只有利用系統(tǒng)論的觀點(diǎn)對(duì)其作系統(tǒng)分析,才能得到比較符合實(shí)際的結(jié)果。3.4.1指數(shù)增長(zhǎng)律文獻(xiàn)老化的表現(xiàn)
文獻(xiàn)信息的老化一般指這樣四種情形:文獻(xiàn)中所含信息仍然有用,但現(xiàn)在已被包含在更新的其他論著中;文獻(xiàn)中信息仍舊有用,但現(xiàn)在正處于一個(gè)人們對(duì)其興趣下降的學(xué)科文獻(xiàn)中的信息仍舊有用,但為后來的著作所超越信息不再有用文獻(xiàn)半衰期
所謂文獻(xiàn)的半衰期,是指某學(xué)科領(lǐng)域現(xiàn)時(shí)尚在利用的全部文獻(xiàn)中的一半是在多長(zhǎng)一段時(shí)間內(nèi)發(fā)表的。3.4.2逐漸過時(shí)律普賴斯指數(shù)
普賴斯指數(shù),即某一學(xué)科領(lǐng)域內(nèi),對(duì)發(fā)表年限不超過5年的文獻(xiàn)的引用次數(shù)與總的引用次數(shù)之比值。一般來說,普賴斯指數(shù)越大,半衰期就越小,文獻(xiàn)老化的速度越快。3.4.2逐漸過時(shí)律
用縱坐標(biāo)表示現(xiàn)在正被利用(引證)的文獻(xiàn)的被引量,橫坐標(biāo)表示時(shí)間,我們可以繪制出文獻(xiàn)的老化曲線。相應(yīng)的方程可表示為:
C(t)=ke-at
………(3-26)式中:C(t)表示發(fā)表了t年的文獻(xiàn)的被引次數(shù),k是常數(shù),隨學(xué)科不同而異,a為老化率。被引證次數(shù)C(t)0.5出版年齡tt1t2t3圖3-7文獻(xiàn)信息老化曲線3.4.2逐漸過時(shí)律文獻(xiàn)老化的影響因素
(1)文獻(xiàn)增長(zhǎng)。文獻(xiàn)的增長(zhǎng)和老化是一個(gè)事物的兩個(gè)方面,它們從不同的側(cè)面來描述科學(xué)的發(fā)展,闡明科學(xué)知識(shí)的修正率。(2)學(xué)科差異。世界上93%~98%的科學(xué)雜志引用壽命為20年左右,但并不是所有這些學(xué)科的文獻(xiàn)老化速率都大體一致,相反,彼此之間差異甚大。(3)學(xué)科發(fā)展階段的差異。即使是同一學(xué)科,不同的時(shí)期或階段,文獻(xiàn)的半衰期不盡完全相同。(4)信息環(huán)境和需求。不同信息用戶對(duì)文獻(xiàn)的需求是不同的,因而信息利用者的需求及所處的信息環(huán)境的研究十分必要。3.4.2逐漸過時(shí)律在本節(jié)中,我們將主要根據(jù)該領(lǐng)域相關(guān)研究論文的成果,從信息內(nèi)容分布、信息生產(chǎn)者分布和時(shí)間分布三個(gè)方面來探討網(wǎng)絡(luò)信息的分布規(guī)律。3.5網(wǎng)絡(luò)應(yīng)用:
網(wǎng)絡(luò)信息資源的分布規(guī)律3.5.1網(wǎng)絡(luò)信息內(nèi)容的分布規(guī)律通過一些工具性網(wǎng)站2003年5月1日-3日中“網(wǎng)絡(luò)經(jīng)濟(jì)”這個(gè)條目命中的網(wǎng)頁(yè)數(shù)量的集中與分散分布發(fā)現(xiàn),其分布的近似曲線與布拉德福分布曲線比較接近。圖3-8以“網(wǎng)絡(luò)經(jīng)濟(jì)”為主題的網(wǎng)頁(yè)的布氏分布曲線網(wǎng)絡(luò)信息資源內(nèi)容分布仍然滿足集中與分散規(guī)律,但分散的趨勢(shì)較文獻(xiàn)信息的趨勢(shì)更加明顯。臺(tái)灣學(xué)者蔡明月于2002年5月5日至7日,利用google搜尋引擎,以“電子圖書館or數(shù)字圖書館or數(shù)字博物館”,并配合設(shè)限網(wǎng)域site:tw的檢索策略,查尋臺(tái)灣地區(qū)建立的有關(guān)數(shù)字圖書館主題的網(wǎng)頁(yè)。最后共得5850個(gè)網(wǎng)頁(yè),其中907個(gè)為商業(yè)(.Com)機(jī)構(gòu)所制作,4259個(gè)為教育(.Edu)網(wǎng)站,政府(.Gov)單位制作的有387個(gè),網(wǎng)絡(luò)事業(yè)(.Net)單位制作了23個(gè);另外246個(gè)是由組織機(jī)構(gòu)(.Org)所制作,最后個(gè)人(.Idv)制作的網(wǎng)頁(yè)亦有28個(gè)。圖3-9為根據(jù)統(tǒng)計(jì)數(shù)據(jù)所繪制的“數(shù)字圖書館”網(wǎng)頁(yè)之布拉德福分布圖,其橫軸為單位排名之自然對(duì)數(shù),縱軸為累積的網(wǎng)頁(yè)數(shù)。3.5.1網(wǎng)絡(luò)信息內(nèi)容的分布規(guī)律可見,其分布曲線與典型的布拉德福分布圖頗為相近。首先,排名前十名的網(wǎng)站形成一非線性的曲線,繼之為一線性的區(qū)域,當(dāng)排名超過55左右之后,網(wǎng)頁(yè)累積之曲線斜率開始變小,形成一尾端下滑的偏垂區(qū)段。位于曲線部分前十名的網(wǎng)站則形成所謂的核心網(wǎng)站。圖3-9以“數(shù)字圖書館”為主題的網(wǎng)頁(yè)(臺(tái)灣地區(qū))的布氏分布曲線3.5.1網(wǎng)絡(luò)信息內(nèi)容的分布規(guī)律選擇校園BBS來研究網(wǎng)絡(luò)生產(chǎn)者的分布規(guī)律武漢大學(xué)珞珈山水BBS(2003年5月5日)發(fā)文3307篇,作者1171人根據(jù)普賴斯定律,生產(chǎn)者開根號(hào)的人數(shù)生產(chǎn)信息總數(shù)的一半,即的人要發(fā)文1653篇3.5.2網(wǎng)絡(luò)信息生產(chǎn)者的分布規(guī)律發(fā)文篇數(shù)作者數(shù)累積篇數(shù)累積作者數(shù)%數(shù)據(jù)點(diǎn)斜率7717710171-3.84858119930.256-4.09350124940.342-1.95341337270.598-2.81638141080.683-1.74837144790.767-4.344311478100.854-6.081281506110.939-0.932262558131.11-2.545251583141.196-1.895231606151.281-0.823213669181.537-2.005202709201.708-2.160192747221.879-1.865182783242.05-1.613174851282.391-2.683163899312.647-1.681153944342.904-1.6751441000383.245-1.6071251060433.672-0.8031181148514.355-1.9601071218584.953-1.3269121326705.978-1.784881390786.661-0.9187161502948.027-1,39866+1538+100+8.54+-表3-3珞珈山水BBS部分發(fā)文情況(2003年5月5日)3.5.2網(wǎng)絡(luò)信息生產(chǎn)者的分布規(guī)律實(shí)際的結(jié)果34位作者僅只發(fā)文944篇,還不足總數(shù)(3307篇)的1/3BBS中生產(chǎn)者的分布不如科學(xué)文獻(xiàn)分布那么集中在蔡明月的研究中,她繼續(xù)采用“數(shù)字圖書館”網(wǎng)頁(yè)的數(shù)據(jù)樣本,進(jìn)一步利用洛特卡定律與普賴斯定律檢驗(yàn)網(wǎng)頁(yè)生產(chǎn)力分布。5850個(gè)網(wǎng)頁(yè)共由392個(gè)單位所制作,其中174個(gè)單位只生產(chǎn)一個(gè)網(wǎng)頁(yè),占全部單位數(shù)的44%。超過100個(gè)網(wǎng)頁(yè)的單位有11個(gè),所制作的網(wǎng)頁(yè)共計(jì)2889個(gè),約占全部網(wǎng)頁(yè)的50%。即有關(guān)數(shù)字圖書館一半的網(wǎng)頁(yè)是由這些單位生產(chǎn)的,其中前9個(gè)單位均為教育機(jī)構(gòu),另外2個(gè)分別為商業(yè)與政府機(jī)構(gòu)。3.5.2網(wǎng)絡(luò)信息生產(chǎn)者的分布規(guī)律根據(jù)普賴斯定律,全部“數(shù)字圖書館”的網(wǎng)頁(yè)制作機(jī)構(gòu)為392個(gè),開根號(hào)得19.8個(gè)。換言之,最多產(chǎn)的20個(gè)單位所制作的網(wǎng)頁(yè)應(yīng)達(dá)全部網(wǎng)頁(yè)的半數(shù),即2925個(gè);實(shí)際上,前20個(gè)單位制作的網(wǎng)頁(yè)總量為3589個(gè),占所有網(wǎng)頁(yè)的61%。此外,根據(jù)數(shù)據(jù),只生產(chǎn)一個(gè)網(wǎng)頁(yè)的單位占全部單位的44%。此數(shù)值與洛特卡原始定律中發(fā)表一篇文獻(xiàn)的作者人數(shù)約占全部作者數(shù)之60%,有頗大的差異。利用最小平方差的方法求得洛特卡定律中的直線斜率值為-0.7,與洛特卡原始定律之n值(-2)差異亦相當(dāng)大。因而數(shù)據(jù)樣本中,“數(shù)字圖書館”網(wǎng)頁(yè)制作單位的生產(chǎn)力分布與普賴斯定律和洛特卡定律都不相符。3.5.2網(wǎng)絡(luò)信息生產(chǎn)者的分布規(guī)律推論
上面分析的BBS的情況可能并不能代表網(wǎng)絡(luò)信息資源生產(chǎn)者的頻率分布,而且所選數(shù)據(jù)也不夠完整。但就此所得到的新的結(jié)論是:著者的集中程度比傳統(tǒng)文獻(xiàn)低,著者分布更加廣泛而且相對(duì)均衡。而這一點(diǎn)卻與蔡明月關(guān)于“數(shù)字圖書館”網(wǎng)頁(yè)生產(chǎn)者分布的結(jié)論恰好相反。比較分析這兩個(gè)研究,“數(shù)字圖書館”的主題更加專業(yè)化,對(duì)于生產(chǎn)者的要求較高,而BBS的發(fā)文要容易很多,生產(chǎn)者的門檻相對(duì)降低。由此我們可得到的推論是,網(wǎng)絡(luò)條件下的信息生產(chǎn)表現(xiàn)出不同的規(guī)律,生產(chǎn)者的分布與信息內(nèi)容的專業(yè)化程度密切相關(guān),信息專業(yè)化程度越高,則生產(chǎn)者的集中程度就越
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年安徽水利水電職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性考試題庫(kù)及答案詳解一套
- 2026年運(yùn)城師范高等專科學(xué)校單招職業(yè)適應(yīng)性測(cè)試題庫(kù)及答案詳解1套
- 2026年長(zhǎng)白山職業(yè)技術(shù)學(xué)院?jiǎn)握芯C合素質(zhì)考試題庫(kù)附答案詳解
- 2026年安徽醫(yī)學(xué)高等??茖W(xué)校單招職業(yè)適應(yīng)性測(cè)試題庫(kù)及參考答案詳解1套
- 2026年林州建筑職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)傾向性測(cè)試題庫(kù)及答案詳解一套
- 2026年川南幼兒師范高等??茖W(xué)校單招職業(yè)適應(yīng)性考試題庫(kù)及答案詳解一套
- 2026年常州紡織服裝職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)傾向性測(cè)試題庫(kù)及答案詳解1套
- 2026年云南錫業(yè)職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫(kù)及答案詳解一套
- 2026年廣西科技職業(yè)學(xué)院?jiǎn)握芯C合素質(zhì)考試題庫(kù)帶答案詳解
- 2026年滄州醫(yī)學(xué)高等??茖W(xué)校單招職業(yè)技能考試題庫(kù)參考答案詳解
- 【普通高中地理課程標(biāo)準(zhǔn)】日常修訂版-(2017年版2025年修訂)
- 高層建筑幕墻維護(hù)方案
- 現(xiàn)代精細(xì)化工生產(chǎn)技術(shù) 課件 模塊1-4 表面活性劑 -涂料
- 合伙開母嬰店協(xié)議合同
- 2025年事業(yè)單位招聘考試綜合類專業(yè)能力測(cè)試試卷(新聞?lì)悾┬旅襟w運(yùn)營(yíng)與管理實(shí)戰(zhàn)
- GB/T 23436-2025汽車風(fēng)窗玻璃清洗液
- 冷庫(kù)安全培訓(xùn)演練課件
- 2025年高考物理山東卷試卷評(píng)析及備考策略(課件)
- 農(nóng)業(yè)產(chǎn)業(yè)新質(zhì)生產(chǎn)力
- 五金廠生產(chǎn)部工時(shí)統(tǒng)計(jì)制度
- 研磨鉆石的專業(yè)知識(shí)培訓(xùn)課件
評(píng)論
0/150
提交評(píng)論