云南開放大學(xué)自然語(yǔ)言處理網(wǎng)上作業(yè)1-4_第1頁(yè)
云南開放大學(xué)自然語(yǔ)言處理網(wǎng)上作業(yè)1-4_第2頁(yè)
云南開放大學(xué)自然語(yǔ)言處理網(wǎng)上作業(yè)1-4_第3頁(yè)
云南開放大學(xué)自然語(yǔ)言處理網(wǎng)上作業(yè)1-4_第4頁(yè)
云南開放大學(xué)自然語(yǔ)言處理網(wǎng)上作業(yè)1-4_第5頁(yè)
已閱讀5頁(yè),還剩9頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

云南開放大學(xué)自然語(yǔ)言處理網(wǎng)上作業(yè)1一、單項(xiàng)選擇題(共1題,共5分)第1題(5分):1.字符串處理函數(shù)中,下列可以刪除字符串前后的特殊字符或空格的是。()A.len(chars)B.str.strip(chars)C.str.find(chars)D.str.split(sep,maxsplit)正確答案:B二、多項(xiàng)選擇題(共3題,共24分)第2題(8分):1.下列屬于NLP研究?jī)?nèi)容的是()A.自動(dòng)文摘B.智能問(wèn)答C.文本分類D.機(jī)器翻譯正確答案:ABCD第3題(8分):2.關(guān)于NLP的研究?jī)?nèi)容,下列說(shuō)法正確的是()A.機(jī)器翻譯又稱為自動(dòng)翻譯,是利用計(jì)算機(jī)將一種自然語(yǔ)言轉(zhuǎn)換為另一種自然語(yǔ)言的過(guò)程B.自動(dòng)文摘?jiǎng)t是指利用計(jì)算機(jī)自動(dòng)地創(chuàng)建文摘C.標(biāo)注像素點(diǎn)越接近標(biāo)注物的邊緣像素,標(biāo)注質(zhì)量就越高,標(biāo)注難度也就越小D.智能問(wèn)答是指問(wèn)答系統(tǒng)能以一問(wèn)一答的形式,正確回答用戶提出的問(wèn)題正確答案:ABC第4題(8分):3.下列屬于數(shù)據(jù)標(biāo)注類別的是()A.關(guān)鍵點(diǎn)識(shí)別B.語(yǔ)音標(biāo)注C.文本標(biāo)注D.圖像標(biāo)注正確答案:BCD三、判斷題(共5題,共13分)第5題(3分):1.自然語(yǔ)言是指人類社會(huì)約定俗成的,并且區(qū)別于人工語(yǔ)言(如計(jì)算機(jī)程序)的語(yǔ)言。()正確答案:√第6題(3分):2.自然語(yǔ)言處理是一門以計(jì)算機(jī)為工具,僅對(duì)書面的語(yǔ)言進(jìn)行各種處理和加工的技術(shù)。()正確答案:×第7題(3分):3.在NLP的研究中,以循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)為代表的深度模型,可以隨著模型復(fù)雜度的增大而增強(qiáng),更好貼近數(shù)據(jù)的本質(zhì)映射關(guān)系,達(dá)到更優(yōu)的效果。()正確答案:√第8題(3分):4.word2vec的出現(xiàn),可以將詞表示為更加低維的向量空間。()答案:正確正確答案:√第9題(1分):5.當(dāng)數(shù)據(jù)量增大之后,傳統(tǒng)淺層模型依然可以對(duì)海量數(shù)據(jù)中的高維非線性映射做建模。()正確答案:×

云南開放大學(xué)自然語(yǔ)言處理網(wǎng)上作業(yè)2一、多項(xiàng)選擇題(共2題,共16分)第1題(8分):下列屬于文本語(yǔ)料的獲取方法是()。A.獲取網(wǎng)上數(shù)據(jù)B.制定數(shù)據(jù)搜集策略來(lái)搜集數(shù)據(jù)C.第三方語(yǔ)料庫(kù)D.通過(guò)購(gòu)買的方式滿足部分需求文本數(shù)據(jù)正確答案:ABCD第2題(8分):4.下列屬于NLTK語(yǔ)料庫(kù)中可獲取的集成文本語(yǔ)料庫(kù)的是()A.網(wǎng)絡(luò)聊天文本B.布朗語(yǔ)料庫(kù)C.就職演說(shuō)語(yǔ)料庫(kù)D.路透社語(yǔ)料庫(kù)正確答案:ABCD二、判斷題(共7題,共19分)第3題(3分):1.語(yǔ)料庫(kù)的實(shí)質(zhì)是經(jīng)過(guò)科學(xué)取樣和加工的大規(guī)模電子文本庫(kù)。()正確答案:√第4題(3分):2.大規(guī)模的語(yǔ)料庫(kù)對(duì)于語(yǔ)言研究特別是對(duì)NLP研究具有不可替代的作用,但隨著語(yǔ)料庫(kù)的增大,垃圾語(yǔ)料帶來(lái)的統(tǒng)計(jì)垃圾問(wèn)題也越來(lái)越嚴(yán)重。()正確答案:√第5題(3分):3.NLTK是一個(gè)用于構(gòu)建處理自然語(yǔ)言數(shù)據(jù)的Python應(yīng)用開源平臺(tái)。()正確答案:√第6題(3分):4.NLP只能使用傳統(tǒng)的機(jī)器學(xué)習(xí)方法來(lái)處理。()正確答案:×第7題(3分):5.中文語(yǔ)料的處理過(guò)程復(fù)雜,英文語(yǔ)料的處理過(guò)程比較簡(jiǎn)單。()正確答案:√第8題(3分):6.元字符使得正則表達(dá)式只能匹配字符串集合。()正確答案:×第9題(1分):7.語(yǔ)料集合結(jié)構(gòu)包括語(yǔ)料庫(kù)中語(yǔ)料記錄的代碼,元數(shù)據(jù)項(xiàng)、數(shù)據(jù)類型、數(shù)據(jù)寬度、取值范圍、完整性約束。()正確答案:√

云南開放大學(xué)自然語(yǔ)言處理網(wǎng)上作業(yè)3一、單項(xiàng)選擇題(共6題,共30分)第1題(5分):1.下列不屬于jieba支持的分詞模式的是()。A.全模式B.精確模式C.切分模式D.搜索引擎模式正確答案:C第2題(5分):2.關(guān)于去停用詞,下列說(shuō)法錯(cuò)誤的是()。A.停用詞等同于過(guò)濾詞B.停用詞包含人類語(yǔ)言中的功能詞,語(yǔ)氣助詞、副詞、介詞、連接詞等,通常自身并無(wú)明確的意義C.停用詞包含常見的符號(hào),比如逗號(hào)、句號(hào)、問(wèn)號(hào)、●、★等D.一個(gè)句子去掉這些停用詞,并不影響理解。正確答案:A第3題(5分):3.關(guān)于隱馬爾可夫模型,下列說(shuō)法正確的是()。A.馬爾可夫模型中的狀態(tài)是可見的,而HMM的狀態(tài)則是部分可見B.HMM描述觀測(cè)變量和狀態(tài)變量之間的概率關(guān)系C.不同時(shí)刻的狀態(tài)值之間,同一時(shí)刻的狀態(tài)值和觀測(cè)值之間,都存在概率關(guān)系D.以上正確正確答案:D第4題(5分):4.關(guān)于基于統(tǒng)計(jì)的分詞方法,下列說(shuō)法錯(cuò)誤的是()。A.解決了中文分詞遇到歧義問(wèn)題和未登錄詞問(wèn)題B.在上下文中,相鄰的字同時(shí)出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個(gè)詞C.統(tǒng)計(jì)詞出現(xiàn)的次數(shù),次數(shù)足夠高的詞作為單獨(dú)的詞語(yǔ)被保留D.不需要依靠語(yǔ)料庫(kù)進(jìn)行分詞正確答案:D第5題(5分):5.下列代碼輸出的結(jié)果是()。sentence=‘周末我們一起去爬山吧!’print(jieba.lcut(sentence))A.[‘周末’,‘我’,‘們’,‘一起’,‘去’,‘爬山’,‘吧’,‘!’]B.[‘周末’,‘我們’,‘一起’,‘去’,‘爬山’,‘吧’,‘!’]C.[‘周末’,‘我們’,‘一起’,‘去’,‘爬山’,‘吧!’]D.[‘周末’,‘我們’,‘一起去’,‘爬山’,‘吧’,‘!’]正確答案:B第6題(5分):6.下列代碼輸出的結(jié)果是()。sentence=‘我們一起去假日主題公園玩吧!’list(jieba.cut_for_search(sentence,HMM=True))A.[‘我們’,‘一起’,‘去’,‘假日’,‘主題’,‘公園’,‘主題公園’,‘玩吧’,‘!’]B.[‘我們’,‘一起’,‘去’,‘假日’,‘主題公園’,‘玩吧’,‘!’]C.[‘我們’,‘一起去’,‘假日’,‘主題’,‘公園’,‘主題公園’,‘玩吧’,‘!’]D.[‘我們’,‘一起去’,‘假日’,‘主題公園’,‘玩吧’,‘!’]正確答案:A二、多項(xiàng)選擇題(共6題,共48分)第7題(8分):1.下列()是分詞算法的類別。A.無(wú)字典分詞B.機(jī)械分詞方法C.基于語(yǔ)義的分詞方法D.基于規(guī)則的分詞方法正確答案:ABCD第8題(8分):2.下列屬于基于規(guī)則的分詞方法的缺點(diǎn)的是()。A.缺乏自學(xué)習(xí)的智能性B.匹配速度慢C.復(fù)雜、不易于實(shí)現(xiàn)D.存在交集型和組合型歧義切分問(wèn)題正確答案:ABD第9題(8分):3.下列()是常用中文分詞庫(kù)。A.jiebaB.JcsegC.HanLPD.sego正確答案:ABCD第10題(8分):4.關(guān)于逆向最大匹配法,下列說(shuō)法正確的是()。A.從右至左匹配待分詞文本的后K個(gè)字符串,查找是否有和詞典一致的字符串B.若匹配失敗,僅留下待分詞文本的后K-1個(gè)詞,繼續(xù)匹配這個(gè)字符串C.如果一個(gè)詞序列全部匹配失敗,則逐次刪去第一個(gè)字符D.如果匹配成功,則被切分下來(lái)的第一個(gè)文本序列成為新的待分詞文本正確答案:ABCD第11題(8分):5.關(guān)于jieba分詞,下列說(shuō)法正確的是()。A.使用jieba進(jìn)行中文分詞的人員占大多數(shù),使用較為廣泛B.jieba使用簡(jiǎn)單,并且支持Python、R、C++等多種編程語(yǔ)言的實(shí)現(xiàn)C.jieba不僅包含分詞這一功能,而且提供了許多分詞以外的算法D.以基于語(yǔ)義的分詞方法為主,以統(tǒng)計(jì)分詞方法為輔進(jìn)行中文分詞正確答案:ABC第12題(8分):6.關(guān)于詞性編碼,下列說(shuō)法正確的是()。A.d表示副詞B.p表示介詞C.m表示名詞D.v表示動(dòng)詞正確答案:ABD

云南開放大學(xué)自然語(yǔ)言處理網(wǎng)上作業(yè)4一、單項(xiàng)選擇題(共8題,共40分)第1題(5分):1.假定一文長(zhǎng)度為1000個(gè)詞,”中國(guó)”、”爬山”、”旅游”各出現(xiàn)20、30、10次,則這三個(gè)詞的TF為()。A.0.02、0.03、0.01B.0.08、0.07、0.09C.0.98、0.97、0.99D.0.01、0.03、0.02正確答案:A第2題(5分):2.假定中文網(wǎng)頁(yè)(文檔)總數(shù)一共是200萬(wàn)張,包含”中國(guó)”的網(wǎng)頁(yè)共有64.5萬(wàn)張,包含”爬山”的網(wǎng)頁(yè)為0.162萬(wàn)張,包含”旅游”的網(wǎng)頁(yè)為1.68萬(wàn)張,則這3個(gè)詞的IDF為()A.0.02、0.03、0.01B.4、3.82、4.3C.0.48、2.24、1.87D.3.51、0.73、2.23正確答案:C第3題(5分):3.根據(jù)上述兩題計(jì)算出”中國(guó)”、”爬山”、”旅游”這3個(gè)詞的TF和IDF,則這三個(gè)詞的TF-IDF為()A.24、75、187B.0.0096、0.0672、0.0187C.0.042、0.013、0.005D.3.51、0.73、2.23正確答案:B第4題(5分):3.根據(jù)上述兩題計(jì)算出”中國(guó)”、”爬山”、”旅游”這3個(gè)詞的TF和IDF,則這三個(gè)詞的TF-IDF為()A.24、75、187B.0.0096、0.0672、0.0187C.0.042、0.013、0.005D.3.51、0.73、2.23正確答案:D第5題(5分):3.根據(jù)上述兩題計(jì)算出”中國(guó)”、”爬山”、”旅游”這3個(gè)詞的TF和IDF,則這三個(gè)詞的TF-IDF為()A.24、75、187B.0.0096、0.0672、0.0187C.0.042、0.013、0.005D.3.51、0.73、2.23正確答案:C第6題(5分):6.使用BOW模型計(jì)算“我是一個(gè)喜歡學(xué)習(xí)的人”的詞向量,下列結(jié)果正確的是()。A.{‘我’:1,’是’:1,’一’:1,’個(gè)’:1,’喜’:1,’歡’:1,’學(xué)’:1,’習(xí)’:1,’的’:1,’人’:1}B.{‘我’:6,’是’:7,’一’:0,’個(gè)’:1,’喜’:4,’歡’:8,’學(xué)’:5,’習(xí)’:2,’的’:9,’人’:3}C.{‘我’:0,’是’:0,’一’:0,’個(gè)’:0,’喜’:1,’歡’:1,’學(xué)’:0,’習(xí)’:1,’的’:1,’人’:0}D.{‘我’:7,’是’:8,’一’:1,’個(gè)’:2,’喜’:5,’歡’:9,’學(xué)’:4,’習(xí)’:3,’的’:10,’人’:4}正確答案:B第7題(5分):6.使用BOW模型計(jì)算“我是一個(gè)喜歡學(xué)習(xí)的人”的詞向量,下列結(jié)果正確的是()。A.{‘我’:1,’是’:1,’一’:1,’個(gè)’:1,’喜’:1,’歡’:1,’學(xué)’:1,’習(xí)’:1,’的’:1,’人’:1}B.{‘我’:6,’是’:7,’一’:0,’個(gè)’:1,’喜’:4,’歡’:8,’學(xué)’:5,’習(xí)’:2,’的’:9,’人’:3}C.{‘我’:0,’是’:0,’一’:0,’個(gè)’:0,’喜’:1,’歡’:1,’學(xué)’:0,’習(xí)’:1,’的’:1,’人’:0}D.{‘我’:7,’是’:8,’一’:1,’個(gè)’:2,’喜’:5,’歡’:9,’學(xué)’:4,’習(xí)’:3,’的’:10,’人’:4}正確答案:B第8題(5分):7.關(guān)于Word2Vec模型,下列說(shuō)法錯(cuò)誤的是()。A.根據(jù)輸入和輸出模式不同,分為連續(xù)詞袋模型(ContinuousBag-of-Words,CBOW)和跳字模型(Skip-Gram)B.假設(shè)一共有V個(gè)詞語(yǔ),Word2Vec模型的輸入是每個(gè)詞的one-hot向量,輸出是在V個(gè)詞的概率數(shù)值向量C.某個(gè)詞的詞向量就是模型訓(xùn)練得到的權(quán)重組成的向量D.Word2Vec模型無(wú)法度量詞與詞之間的相似性正確答案:B二、多項(xiàng)選擇題(共9題,共72分)第9題(8分):1.關(guān)于文本向量化,下列說(shuō)法正確的是()。A.將文本表示成一系列能夠表達(dá)文本語(yǔ)義的機(jī)讀向量B.按照向量化的粒度可以將其分為以字單位、以詞為單位和以句子為單位向量表達(dá)C.向量化表示主要分為離散表示和分布式表示D.文本向量化是為了讓計(jì)算機(jī)理解語(yǔ)言正確答案:ABCD第10題(8分):2.下列屬于離散表示的是()。A.BOW模型B.TF-IDFC.doc2vecD.one-hot正確答案:ABD第11題(8分):3.關(guān)于TF-IDF說(shuō)法正確的是()。A.某個(gè)詞對(duì)文章的重要性越高,它的TF-IDF值就越大。B.TF是詞出現(xiàn)的次數(shù)統(tǒng)計(jì)為”詞頻”C.TF-IDF=TF×IDFD.sklearn可以實(shí)現(xiàn)TF-IDF的計(jì)算正確答案:ABCD第12題(8分):4.關(guān)于Doc2Vec模型,下列說(shuō)法正確的是()。A.Doc2vec方法是一種無(wú)監(jiān)督算法B.它可以獲得句子、段落和文檔的向量表達(dá)C.用于預(yù)測(cè)一個(gè)向量來(lái)表示不同的文檔D.是在Word2Vec模型輸入層增添了一個(gè)與詞向量同維度的段落向量正確答案:ABCD第13題(8分):5.下列屬于獨(dú)熱編碼常用方法的是()。A.Doc2Vec模型B.Word2Vec模型C.詞袋(BOW)模型D.詞集模型正確答案:CD第14題(8分):6.下列可以正確構(gòu)建文本向量化模型的是()。A.gensim.models.word2vec.Word2vec()B.gensim.models.TfidfVectorizer()C.gensim.models.doc2vec.Doc2Vec()D.gensim.models.CountVectorizer()正確答案:AC第15題(8分):7.關(guān)于TF-IDF權(quán)重策略,下列說(shuō)法正確的是()。A.TF是Termfrequency的簡(jiǎn)寫,即關(guān)鍵詞詞頻B.IDF是Inversedocumentfrequency的簡(jiǎn)寫,指逆向文本頻率C.TF表示關(guān)鍵詞詞頻,是用于衡量關(guān)鍵詞權(quán)重的指數(shù)D.IDF是用于衡量關(guān)鍵詞權(quán)重的指數(shù)正確答案:ABD第16題(8分):8.詞袋模型包括下列()三個(gè)步驟。A.分詞B.統(tǒng)計(jì)修訂詞特征值C.工程D.標(biāo)準(zhǔn)化正確答

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論