版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
計算與人工智能概論第10章互聯(lián)網(wǎng)信息處理目錄1.網(wǎng)絡(luò)信息獲獎基礎(chǔ)2.網(wǎng)頁爬蟲與信息提取3.搜索引擎原理4.網(wǎng)絡(luò)安全計算與人工智能概論第10章互聯(lián)網(wǎng)信息處理第1節(jié)網(wǎng)絡(luò)信息獲取基礎(chǔ)信息科學(xué)與工程學(xué)院
計算機網(wǎng)絡(luò)
概況1PART1.計算機網(wǎng)絡(luò)基礎(chǔ)1.即時通信IM(InstantMessaging)(1)問題分解子問題問題目標解決方案問題1提供發(fā)送/接收終端智能手機、臺式計算機等端設(shè)備問題2接入網(wǎng)絡(luò)有線/無線網(wǎng)絡(luò)問題3傳輸數(shù)據(jù)網(wǎng)絡(luò)核心(轉(zhuǎn)發(fā)與路由)以微信通信為例的計算機網(wǎng)絡(luò)構(gòu)成示意圖(2)模式識別(3)抽象(4)算法設(shè)計快遞寄送發(fā)送消息快遞物品消息內(nèi)容“早上好”快遞單上的寄送地址朋友的賬號快遞收發(fā)點智能手機/臺式電腦集散地路由器或交換機快遞寄送線路通信鏈路即時通訊工具發(fā)送消息與快遞寄送模式對比找出從出發(fā)節(jié)點到目的節(jié)點之間最低費用的路徑,也可能是找出傳輸速度最快的路徑。運輸線路可以抽象成圖,圖中的點表示經(jīng)過的城市,邊表示城市間的通路1.計算機網(wǎng)絡(luò)基礎(chǔ)2.網(wǎng)絡(luò)構(gòu)成(1)互聯(lián)網(wǎng)的邊緣:臺式電腦、筆記本電腦、平板電腦、手機、服務(wù)器、數(shù)字電視、汽車、環(huán)境傳感器、家用電器、其他智能設(shè)備等等,所有這些設(shè)備被稱為主機(host)或端系統(tǒng)(endsystem)。這些端系統(tǒng)位于互聯(lián)網(wǎng)的邊緣,它們往往能運行瀏覽器程序、Web服務(wù)器程序、電子郵件閱讀程序等。(2)網(wǎng)絡(luò)核心端系統(tǒng)通過通信鏈路(communicationlink)和分組交換機(packetswitch)連接到一起。1.計算機網(wǎng)絡(luò)基礎(chǔ)(3)客戶端(client)和服務(wù)器(server)客戶端有便攜機、智能手機、平板電腦、智能手環(huán)、智能手表等各類智能設(shè)備。服務(wù)器則往往為更強大的機器,通常位于數(shù)據(jù)中心,用于存儲和發(fā)布Web網(wǎng)頁、轉(zhuǎn)發(fā)電子郵件、文件等。(4)將端系統(tǒng)連接到網(wǎng)絡(luò)邊緣路由器(edgerouter)的物理鏈路稱為接入網(wǎng)(accessnetwork)。(5)通信信道(communicationchannel)將信息從一個設(shè)備傳輸?shù)搅硪粋€設(shè)備的介質(zhì)稱為通信信道。有線信道(wiredchannels)和無線信道(wirelesschannels)。1.計算機網(wǎng)絡(luò)基礎(chǔ)(6)網(wǎng)絡(luò)接入根據(jù)信道不同,網(wǎng)絡(luò)接入分為有線網(wǎng)絡(luò)接入和無線網(wǎng)絡(luò)接入兩種。有線網(wǎng)絡(luò)接入包括光纖到戶(FiberToTheHome,F(xiàn)TTH)、以太網(wǎng)、同軸電纜、雙絞線的DSL、撥號上網(wǎng)等。無線網(wǎng)絡(luò)接入有WiFi、3G/4G/5G、衛(wèi)星廣域覆蓋等。網(wǎng)絡(luò)接入根據(jù)場景大致分為三類:住宅(家庭)接入、機構(gòu)(學(xué)校、公司)接入和無線接入網(wǎng)(移動)接入。住宅和機構(gòu)接入網(wǎng)常常采用有線、無線多種技術(shù)混合。1.計算機網(wǎng)絡(luò)基礎(chǔ)家庭網(wǎng)絡(luò)連接(7)網(wǎng)絡(luò)核心將大量的端系統(tǒng)互相聯(lián)結(jié)起來,主要功能是路由和轉(zhuǎn)發(fā)。路由確定數(shù)據(jù)分組從源到目的所使用的路徑,需要路由協(xié)議和路由算法產(chǎn)生路由表。轉(zhuǎn)發(fā)指分組交換機(路由器或交換機)將接收到的數(shù)據(jù)分組轉(zhuǎn)發(fā)出去。當一個端系統(tǒng)向另一個端系統(tǒng)發(fā)送信息時,發(fā)送端系統(tǒng)將信息拆分形成多個小分組(packet,或稱包),并以分組作為數(shù)據(jù)傳輸單元發(fā)送到網(wǎng)絡(luò)。分組交換機從一個入鏈路接收分組,然后根據(jù)分組頭中的目的地址查找本地路由表,確定出鏈路,從出鏈路轉(zhuǎn)發(fā)出去。這些分組可以獨立通過從源到目的的路徑上的鏈路,逐跳傳輸?shù)侥康亩讼到y(tǒng)。來自不同消息的分組可以共享某個鏈路。1.計算機網(wǎng)絡(luò)基礎(chǔ)3.網(wǎng)絡(luò)協(xié)議網(wǎng)絡(luò)協(xié)議類似于人類協(xié)議,是網(wǎng)絡(luò)設(shè)備之間廣泛運行著的控制信息接收和發(fā)送的一系列規(guī)則、標準或約定。一個協(xié)議規(guī)定交換數(shù)據(jù)的格式、完成的功能和進行各種操作的順序。不同的協(xié)議用于完成不同的通信任務(wù)。1.計算機網(wǎng)絡(luò)基礎(chǔ)地址解析協(xié)議(AddressResolutionProtocol,ARP)傳輸控制協(xié)議(TransmissionControlProtocol,TCP)超文本傳輸協(xié)議(HypertextTransferProtocol,HTTP)用戶數(shù)據(jù)報協(xié)議(UserDatagramProtocol,UDP)1.計算機網(wǎng)絡(luò)基礎(chǔ)網(wǎng)絡(luò)協(xié)議以分層(layer)的方式組織,一個協(xié)議層能夠用網(wǎng)絡(luò)硬件和軟件或者軟硬件結(jié)合的方式實現(xiàn)。各層網(wǎng)絡(luò)協(xié)議的集合稱為協(xié)議棧(protocolstack)。協(xié)議分層可以使得網(wǎng)絡(luò)結(jié)構(gòu)清晰,便于分析。1.計算機網(wǎng)絡(luò)基礎(chǔ)端系統(tǒng)A的微信用戶發(fā)送消息“早上好”
到達端系統(tǒng)B的路線圖4.網(wǎng)絡(luò)參考模型(1)OSI參考模型1.計算機網(wǎng)絡(luò)基礎(chǔ)(2)TCP/IP參考模型ISO/OSI參考模型只是一種理想化的網(wǎng)絡(luò)結(jié)構(gòu),實際應(yīng)用中采用的是TCP/IP結(jié)構(gòu)。TCP/IP(TransmissionControlProtocol/InternetProtocol,傳輸控制協(xié)議/網(wǎng)間協(xié)議)是因特網(wǎng)上各網(wǎng)絡(luò)間的通信協(xié)議。TCP/IP不只是一個協(xié)議,而是一個協(xié)議簇。1.計算機網(wǎng)絡(luò)基礎(chǔ)(3)IP地址和域名因特網(wǎng)的每臺計算機和路由器等設(shè)備的每個接口都有唯一的標識碼,稱為IP地址。IP地址有IPv4和IPv6兩個版本。點分十進制表示法對大多數(shù)人來說,IP地址不太容易記住和使用,因此,相對易于記憶的域名(DomainName)被引入,來代替IP地址。域名由一串用點分隔的“名字”組成。如果是國際英文域名,每個“名字”由英文字母和數(shù)字組成,英文字母不區(qū)分大小寫。如果是非英語域名,“名字”可以是該語種的文字或其與英文字母、數(shù)字的組合。1.計算機網(wǎng)絡(luò)基礎(chǔ)湖南大學(xué)的一個IP地址4域名域名中的點將域名分隔成不同的層次。從右往左分別是頂級域名、二級域名、子域名及最后一級的主機名域名的最高管理機構(gòu)是ICANN域名系統(tǒng)(DomainNameSystem,簡稱DNS)是因特網(wǎng)中的一項服務(wù),包含一個分布式數(shù)據(jù)庫,提供將域名和IP地址相互轉(zhuǎn)換的服務(wù)。1.計算機網(wǎng)絡(luò)基礎(chǔ)5.計算機網(wǎng)絡(luò)的發(fā)展歷史(1)聯(lián)機系統(tǒng)階段(2)網(wǎng)絡(luò)互聯(lián)階段(3)標準化網(wǎng)絡(luò)階段(4)網(wǎng)絡(luò)互聯(lián)與高速發(fā)展階段1.計算機網(wǎng)絡(luò)基礎(chǔ)計算機網(wǎng)絡(luò)的分類方法有多種,根據(jù)網(wǎng)絡(luò)大小和地理范圍可以分為PAN(PersonalAreaNetwork,個人區(qū)域網(wǎng))LAN(LocalAreaNetwork,局域網(wǎng))MAN(MetropolitanAreaNetwork,城域網(wǎng))WAN(WideAreaNetwork,廣域網(wǎng))6.因特網(wǎng)因特網(wǎng)(Internet),又稱國際互聯(lián)網(wǎng),是最大的互聯(lián)網(wǎng),起源于阿帕網(wǎng)(ARPANET)我國于1994年5月正式接入因特網(wǎng)。因特網(wǎng)中的各種網(wǎng)絡(luò)以自愿原則采用TCP/IP連接,即只要是采用TCP/IP并且能夠與因特網(wǎng)中任何主機通信的機器,就在因特網(wǎng)中。網(wǎng)絡(luò)具有兩面性,因特網(wǎng)在給人們帶來便利的同時,也帶來了很多問題,尤其是網(wǎng)絡(luò)信息安全問題?!吨腥A人民共和國網(wǎng)絡(luò)安全法》,自2017年6月1日起施行1.計算機網(wǎng)絡(luò)基礎(chǔ)
無線網(wǎng)絡(luò)和
物聯(lián)網(wǎng)2PART無線網(wǎng)絡(luò)2.無線網(wǎng)絡(luò)與物聯(lián)網(wǎng)序號問題目標宇宙探測智慧城市智慧農(nóng)業(yè)問題1提供發(fā)送/接收終端祝融號配備的全景相機等科學(xué)儀器城市物聯(lián)網(wǎng)感知設(shè)備農(nóng)田各種嵌入式設(shè)備問題2接入網(wǎng)絡(luò)無線網(wǎng)物聯(lián)網(wǎng)物聯(lián)網(wǎng)問題3傳輸數(shù)據(jù)中繼衛(wèi)星網(wǎng)絡(luò)核心(轉(zhuǎn)發(fā)與路由)在火星車與地球通信這個例子中,與有線網(wǎng)絡(luò)最大的不同就是數(shù)據(jù)的傳輸采用無線信道,通過中繼衛(wèi)星進行信號中轉(zhuǎn)。無線網(wǎng)絡(luò)是指采用無線通信技術(shù)實現(xiàn)的計算機網(wǎng)絡(luò)。無線網(wǎng)絡(luò)無需布線就能實現(xiàn)各種通信設(shè)備互聯(lián)(1)無線電波傳輸。(2)微波(microwave)傳輸。(3)光學(xué)傳輸。根據(jù)網(wǎng)絡(luò)覆蓋范圍的不同,無線網(wǎng)絡(luò)分為無線個人網(wǎng)、無線局域網(wǎng)和無線廣域網(wǎng)。2.無線網(wǎng)絡(luò)與物聯(lián)網(wǎng)(2)典型的無線廣域網(wǎng)是蜂窩移動通信網(wǎng)絡(luò)和衛(wèi)星通信網(wǎng)絡(luò)。移動通信的基本問題是無線信號的覆蓋范圍問題,即無論在哪里都要有無線信號,用戶都能打電話?!按髤^(qū)制”“小區(qū)制”:由多個小區(qū)組成區(qū)群,由于各基站的信號覆蓋呈六邊形,區(qū)群結(jié)構(gòu)酷似蜂窩,所以小區(qū)制移動通信也被稱為蜂窩移動通信(CellularMobileCommunication)2.無線網(wǎng)絡(luò)與物聯(lián)網(wǎng)移動通信空中接口技術(shù)與標準的進步,演繹了從1G到5G,從語音到移動寬帶數(shù)據(jù)業(yè)務(wù)的快速發(fā)展。物聯(lián)網(wǎng)2005年ITU在信息社會世界峰會(WSIS)上發(fā)布了《物聯(lián)網(wǎng)》。報告描述了世界上的萬事萬物從鑰匙、手表、牙刷到汽車、房屋,只要嵌入一個微型的RFID芯片或傳感器芯片,就能變得智能化,通過互聯(lián)網(wǎng)就能實現(xiàn)人與物、物與物之間的信息交互,這就是物聯(lián)網(wǎng)。物聯(lián)網(wǎng)是按照約定的協(xié)議,將具有“感知、通信、計算”功能的智能物體、系統(tǒng)、信息資源互聯(lián)起來,實現(xiàn)對物理世界“泛在感知、可靠傳輸、智慧處理”的智能服務(wù)系統(tǒng)。2.無線網(wǎng)絡(luò)與物聯(lián)網(wǎng)物聯(lián)網(wǎng)案例:共享單車共享單車采用分時租賃模式,是典型的物聯(lián)網(wǎng)技術(shù)應(yīng)用的產(chǎn)品。2.無線網(wǎng)絡(luò)與物聯(lián)網(wǎng)序號分問題解決方法問題1位置感知車鎖感知位置問題2可靠通信NB-IoT技術(shù)問題3智慧處理手機App、后臺車輛管理系統(tǒng)物聯(lián)網(wǎng)技術(shù)的主要特點:(1)泛在感知(2)可靠通信(3)智慧處理可以把物聯(lián)網(wǎng)與人對外部世界的感知進行對比,物聯(lián)網(wǎng)中的泛在感知就像人的感官感知外部世界信息,可靠通信就像神經(jīng)系統(tǒng)傳遞信息,智慧處理如同大腦處理信息。物聯(lián)網(wǎng)的應(yīng)用領(lǐng)域廣闊,應(yīng)用創(chuàng)新是物聯(lián)網(wǎng)發(fā)展的核心,我國政府出臺了大量政策推進物聯(lián)網(wǎng)技術(shù)的發(fā)展。1.計算機網(wǎng)絡(luò)基礎(chǔ)Web的基本工作
方式3PARTWeb的基本工作方式(1)1989年,英國科學(xué)家蒂姆
伯納斯-李(TimBerners-Lee)在歐洲核子研究中心(CERN)工作期間,撰寫了《關(guān)于信息管理的一個提案》(InformationManagement:AProposal)一文,這被認為是萬維網(wǎng)誕生的標志。(2)萬維網(wǎng)是因特網(wǎng)技術(shù)發(fā)展中一個重要的里程碑(3)在Web中,通信主要在瀏覽器和Web服務(wù)器之間進行1.計算機網(wǎng)絡(luò)基礎(chǔ)(4)URL(UniformResourceLocator,統(tǒng)一資源定位符)1.計算機網(wǎng)絡(luò)基礎(chǔ)狀態(tài)碼含義1**信息。例如100,英文為Continue,表示服務(wù)器僅接收到部分請求,如果服務(wù)器沒有拒絕,客戶端應(yīng)該繼續(xù)發(fā)送其余請求2**成功。例如200,英文OK,表示請求成功(其后是對GET和POST請求的響應(yīng)文檔)3**重定向。例如301,英文MovedPermanently,表示請求的網(wǎng)頁已經(jīng)轉(zhuǎn)移到新的URL4**客戶端錯誤。例如403,英文Forbidden,表示禁止訪問被請求的網(wǎng)頁。再如404,英文NotFound,表示被請求的網(wǎng)頁無法找到5**服務(wù)器錯誤。例如500,英文InternalServerError,表示請求未完成,服務(wù)器出現(xiàn)不可預(yù)知錯誤Web服務(wù)器向客戶端返回的響應(yīng)消息開頭行包含一個狀態(tài)碼,用來表示請求服務(wù)的執(zhí)行結(jié)果(5)一般瀏覽器提供了工具來觀察瀏覽器和Web服務(wù)器之間的通信過程,如Chrome瀏覽器的開發(fā)者工具1.計算機網(wǎng)絡(luò)基礎(chǔ)HTML語言
簡介4PART我的孩子:你已經(jīng)長大,并逐漸強壯。我們希望你記住八個字“堅強、勇敢、正直、善良”,這是你做人的基本品質(zhì)。同時,我希望你有夢想,并學(xué)會通過自律,努力為夢想奮斗,收獲一個無怨無悔的青春!此致愛你的
爸爸媽媽寫信需要符合書信的格式要求學(xué)習(xí)HTML標記語言亦不例外,同樣需要先掌握它的基本格式,遵從相應(yīng)的格式規(guī)范。1.HTML文檔基本格式32信息科學(xué)與工程學(xué)院李小英頭部:瀏覽器、搜索引擎所需信息主體:網(wǎng)頁中包含的具體內(nèi)容<!doctypehtml><html>
<head>頭部標記</head>
<body>主體內(nèi)容</body></html>帶有“<>”符號的元素被稱為HTML標記1.HTML文檔基本格式<標記名>內(nèi)容
</標記名>表示該標記的作用結(jié)束,一般稱為“結(jié)束標記”表示該標記的作用開始,一般稱為“開始標記33信息科學(xué)與工程學(xué)院李小英岳麓書院網(wǎng)站上的書院美景網(wǎng)頁1.計算機網(wǎng)絡(luò)基礎(chǔ)2.HTML的常用標記(TAG)及描述標記描述html根標記,表示html文檔的開始與結(jié)束head頭部標記titleHTML頁面標題,在<head>之中body主體標記,網(wǎng)頁內(nèi)容所在處h1~h6標題標記,數(shù)值越小標題級別越高p段落標記a超鏈接divdiv可定義文檔中的分區(qū)或節(jié)olliol是有序列表標記,li表示列表項ulliul是無序列表標記,li表示列表項table,tr,td表格標記,tr是表格的行標記,td是表格列標記span行內(nèi)標記img圖像標記,單標記無結(jié)束標記35信息科學(xué)與工程學(xué)院李小英Web標準并不是一個標準,而是一系列標準的集合。一個網(wǎng)頁可以分為3部分,分別是結(jié)構(gòu)(Structure)、表現(xiàn)(Presentation)和行為(Behavior)。3.Web標準結(jié)構(gòu)表現(xiàn)行為XML(eXtensibleMarkupLanguage,可擴展的標記語言)和XHTML(eXtensibleHypertextMarkupLanguage,可擴展超文本標記語言)從語義的角度,描述頁面結(jié)構(gòu)CSS(CascadingStyleSheets,層疊樣式表)從審美的角度,美化頁面DOM(DocumentObjectModel,文檔對象模型)和ECMAScript(EuropeanComputerManufacturersAssociation,歐洲計算機廠商協(xié)會)JavaScripte,從交互的角度,提升用戶體驗計算與人工智能概論第10章互聯(lián)網(wǎng)信息處理第2節(jié)網(wǎng)絡(luò)爬蟲與信息提取信息科學(xué)與工程學(xué)院
天氣數(shù)據(jù)爬取
案例1PART如果要從網(wǎng)上獲取長沙市2021年3月的天氣數(shù)據(jù),包括每天的溫度范圍、風(fēng)力風(fēng)向和空氣質(zhì)量等,該怎樣進行呢?2.網(wǎng)頁爬蟲與信息提取序號分問題解決方案問題1確定目標網(wǎng)頁URL確定問題2請求網(wǎng)頁內(nèi)容網(wǎng)頁獲取問題3解析網(wǎng)頁提取天氣數(shù)據(jù)信息提取問題4將天氣數(shù)據(jù)保存到文件中數(shù)據(jù)存儲(1)URL確定(2)網(wǎng)頁獲取通過Python語言編寫爬蟲程序,利用requests庫的get()方法,通過HTTP向Web服務(wù)器發(fā)送URL請求,保存服務(wù)器發(fā)回的網(wǎng)頁2.網(wǎng)頁爬蟲與信息提?。?)信息提取分析頁面結(jié)構(gòu),確定每天各項天氣數(shù)據(jù)在網(wǎng)頁中的存放位置(4)數(shù)據(jù)存儲將列表中的數(shù)據(jù)寫入文件“長沙天氣2021年3月.csv”,保存數(shù)據(jù)。2.網(wǎng)頁爬蟲與信息提取
網(wǎng)絡(luò)爬蟲2PART網(wǎng)絡(luò)爬蟲(WebCrawler)簡稱爬蟲,又稱網(wǎng)頁蜘蛛,其實就是一個能按照一定的規(guī)則,自動地從萬維網(wǎng)上獲取網(wǎng)頁信息的程序。2.網(wǎng)頁爬蟲與信息提取網(wǎng)絡(luò)爬蟲的工作流程(1)URL確定通常把這些網(wǎng)頁的URL放入一個列表,每次從中取出一個URL進行爬取。(2)網(wǎng)頁獲取在Python語言的計算生態(tài)中,有多個庫可以進行網(wǎng)絡(luò)信息的獲取,例如,urllib庫、urllib3庫、requests庫等都可以發(fā)送HTTP請求及下載網(wǎng)頁。requests庫獲取網(wǎng)絡(luò)信息的方式接近正常URL訪問,非常方便。requests庫中與HTTP請求相關(guān)的函數(shù)有多個,最常用的是get()函數(shù),對應(yīng)于HTTP的GET方式一旦從服務(wù)器獲得響應(yīng),就會生成響應(yīng)對象Response,包含服務(wù)器返回的全部消息及最初創(chuàng)建的請求對象Requests。2.網(wǎng)頁爬蟲與信息提取Response對象的屬性45信息科學(xué)與工程學(xué)院李小英r.encoding:如果header中不存在charset,則認為編碼為ISO‐8859‐1r.text:根據(jù)r.encoding顯示網(wǎng)頁內(nèi)容r.apparent_encoding:根據(jù)網(wǎng)頁內(nèi)容分析出的編碼方式,可以看作是r.encoding的備選2.網(wǎng)頁爬蟲與信息提?。?)信息提取2.網(wǎng)頁爬蟲與信息提取文檔樹部分結(jié)構(gòu)每一個Tag
標簽在beautifulsoup4
庫中也是一個對象,稱為Tag對象。標簽Tag有5個常用屬性(以“對象名.Tag.屬性名”方式訪問)47信息科學(xué)與工程學(xué)院李小英屬性描述用法示例name標記的名字attrs標記的屬性,一個標記可能有多個屬性。標記屬性的操作方法與字典相同tag['class']或tag.attrscontents一個列表,這個標記下所有子標記的內(nèi)容tag.contentsstring一個字符串,標記所包含的文本tag.stringtext一個字符串,標記所包含的所有文本(包括當前節(jié)點的子孫節(jié)點)tag.text2.網(wǎng)頁爬蟲與信息提取(4)數(shù)據(jù)存儲為了長期保存數(shù)據(jù),方便使用,應(yīng)該將提取出來的信息保存為文件,常見的文件類型有TXT、CSV、JSON等。爬蟲根據(jù)用途可以分為搜索引擎、商業(yè)目的爬蟲、研究學(xué)習(xí)用爬蟲3類。2.網(wǎng)頁爬蟲與信息提取計算與人工智能概論第10章互聯(lián)網(wǎng)信息處理第3節(jié)搜索引擎原理信息科學(xué)與工程學(xué)院
搜索引擎
組成1PART搜索引擎一般由網(wǎng)頁抓取、索引處理、提供檢索服務(wù)3部分組成。3.搜索引擎原理(1)網(wǎng)頁抓取搜索引擎的網(wǎng)頁抓取工作由網(wǎng)絡(luò)爬蟲完成。爬蟲在遍歷萬維網(wǎng)時抓取有價值的網(wǎng)頁,并將網(wǎng)頁保存在原始數(shù)據(jù)庫。網(wǎng)絡(luò)爬蟲爬取策略廣度優(yōu)先搜索(BreadthFirstStrategy,BFS)深度優(yōu)先搜索(DepthFirstStrategy,DFS)3.搜索引擎原理按照廣度優(yōu)先搜索策略,網(wǎng)頁的訪問順序為A→B→C→D→E→F→G→H。按照深度優(yōu)先搜索策略,網(wǎng)頁的訪問順序為A→B→D→E→F→C→G→H。(2)索引處理爬蟲抓取的網(wǎng)頁包含各種文件格式,需要對這些文件進行內(nèi)容提取(包括網(wǎng)頁的URL、標題、頁面內(nèi)容關(guān)鍵詞、文件類型、生成時間、與其他網(wǎng)頁的鏈接關(guān)系等)、篩查過濾,還要按照一定的規(guī)則編排索引,并將索引信息保存到索引數(shù)據(jù)庫,以方便準確檢索,使爬蟲得以正確跟蹤其他鏈接。(3)檢索服務(wù)用戶向搜索引擎提交查詢請求,搜索引擎收到查詢請求后進行一些處理工作,包括分割查詢串為若干子查詢串、去重、中文分詞等,得到查詢關(guān)鍵詞,然后在索引數(shù)據(jù)庫中根據(jù)關(guān)鍵詞檢索、提取相關(guān)網(wǎng)頁,最后向用戶返回查詢結(jié)果。搜索引擎按其工作方式分為全文搜索引擎、元搜索引擎、目錄索引引擎、垂直引擎和智能引擎等。3.搜索引擎原理
網(wǎng)頁排名算法
2PART網(wǎng)頁排名算法PageRank算法基本思想:如果一個網(wǎng)頁被其他網(wǎng)頁鏈接越多,該網(wǎng)頁越重要,網(wǎng)頁排名分值(下面簡稱網(wǎng)頁排名分值為PageRank值或者PR值)越高;如果一個PR值很高的網(wǎng)頁鏈接到其他的網(wǎng)頁,被鏈接的網(wǎng)頁的PR值也會相應(yīng)提高。PageRank算法預(yù)先給每個網(wǎng)頁設(shè)定一個PR初始值,一般設(shè)置為1/N,N是總的網(wǎng)頁數(shù)。網(wǎng)頁PR值按照給定的公式反復(fù)迭代,直到所有網(wǎng)頁PR值不再變化,停止迭代,此時的網(wǎng)頁PR值就表明各個網(wǎng)頁的重要程度,按照這個值排序,推薦給用戶。3.搜索引擎原理案例:PageRank算法網(wǎng)頁節(jié)點PR值3.搜索引擎原理基于人工智能的PageRank算法傳統(tǒng)PageRank算法的問題:假設(shè)所有鏈接權(quán)重相等且忽略用戶行為與內(nèi)容語義,存在局限性。人工資能賦能的PageRank算法(1)?監(jiān)督學(xué)習(xí)優(yōu)化鏈接權(quán)重:通過提取用戶停留時長、頁面權(quán)威性等特征,用模型預(yù)測鏈接權(quán)重,將其融入排序算法,提高結(jié)果與真實點擊匹配度。(2)?強化學(xué)習(xí)動態(tài)調(diào)整排名策略:用強化學(xué)習(xí),基于技術(shù)、內(nèi)容、行為指標定義狀態(tài),以長期點擊價值為獎勵,優(yōu)化排名策略。(3)?多模態(tài)特征融合:融合BERT語義與CLIP圖文匹配,修正鏈接偏差,增強富媒體權(quán)重。3.搜索引擎原理計算與人工智能概論第10章互聯(lián)網(wǎng)信息處理第4節(jié)網(wǎng)絡(luò)安全信息科學(xué)與工程學(xué)院
網(wǎng)絡(luò)安全基本
屬性1PART網(wǎng)絡(luò)安全基本屬性(1)保密性:又稱機密性,包括數(shù)據(jù)機密性和隱私性。(2)完整性:發(fā)送的消息在傳輸過程中沒有被改變(惡意篡改或意外改動),包括數(shù)據(jù)完整性和系統(tǒng)完整性。(3)可用性:對信息系統(tǒng)及其服務(wù)的使用可靠及時,不會拒絕授權(quán)用戶。(4)可認證性/真實性:通信過程中,發(fā)送方和接收方能證實對方的身份,系統(tǒng)每個輸入信息是否來自可靠的信息源。(5)不可抵賴性:發(fā)送方和接收方都不能抵賴曾經(jīng)的行為和操作,建立有效的責(zé)任機制,防止用戶否認其行為。(6)可控性:對信息的傳播及內(nèi)容具有控制能力,產(chǎn)品或服務(wù)安全可控。4.網(wǎng)絡(luò)安全威脅網(wǎng)絡(luò)安全的原因復(fù)雜多變,其中一些原因如下。(1)安全問題并不像對基本屬性要求的描述那么簡單,符合這些屬性要求的機制可能非常復(fù)雜,甚至涉及到相當深奧的論證推理。(2)在開發(fā)一種特定安全機制或算法時,常常考慮對這些安全特性的潛在攻擊,但成功的攻擊往往是通過一種完全不同的方式來觀察問題的,這樣的攻擊在開發(fā)時不可預(yù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 代運營合同范本
- 付款結(jié)算協(xié)議書
- 租車接人合同范本
- 網(wǎng)吧網(wǎng)管合同范本
- 租賃續(xù)約合同范本
- 床墊的質(zhì)量協(xié)議書
- 代收債權(quán)協(xié)議書
- 律師解除合同協(xié)議
- 托管與合伙協(xié)議書
- 仔豬買賣協(xié)議書
- 共創(chuàng)賬號合同協(xié)議
- 2026年贛州職業(yè)技術(shù)學(xué)院單招職業(yè)技能測試題庫帶答案詳解
- 2025年區(qū)域經(jīng)濟一體化戰(zhàn)略可行性研究報告
- 港口安全規(guī)劃與應(yīng)急預(yù)案
- 2025專精特新小巨人打分表(密件)
- 國家自然科學(xué)基金申報培訓(xùn)
- MOOC 光學(xué)發(fā)展與人類文明-華南師范大學(xué) 中國大學(xué)慕課答案
- GB/T 38658-20203.6 kV~40.5 kV交流金屬封閉開關(guān)設(shè)備和控制設(shè)備型式試驗有效性的延伸導(dǎo)則
- 疲勞與斷裂完整
- 2022年研究生考試數(shù)學(xué)二試題及解析
- 礦山地質(zhì)環(huán)境恢復(fù)治理講課稿
評論
0/150
提交評論