2020年上海市高等學校信息技術水平考試試卷四級人工智能自然語言處理與識別方向模擬卷_第1頁
2020年上海市高等學校信息技術水平考試試卷四級人工智能自然語言處理與識別方向模擬卷_第2頁
2020年上海市高等學校信息技術水平考試試卷四級人工智能自然語言處理與識別方向模擬卷_第3頁
2020年上海市高等學校信息技術水平考試試卷四級人工智能自然語言處理與識別方向模擬卷_第4頁
2020年上海市高等學校信息技術水平考試試卷四級人工智能自然語言處理與識別方向模擬卷_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

2020年上海市高等學校信息技術水平考試試卷四級人工智能(自然語言處理與識別方向模擬卷)(本試卷考試時間150分鐘)一、單選題(本大題15道小題,每小題1分,共15分),從下面題目給出的A、B、C、D四個可供選擇的答案中選擇一個正確答案。1.在回歸模型中,下列 在權衡欠擬合和過擬合中影響最大。A.多項式階數(shù)B.更新權重w時,使用的是矩陣求逆還是梯度下降C.使用常數(shù)項D.增加數(shù)據(jù)量.A和B分別代表兩個事件,如果P(A,B)降低,同時P(A)上升,―是正確的。A.P(B|A)降低B.P(A|B)降低C.P⑻降低D.P(B)上升.癌癥檢查數(shù)據(jù)樣本有10000個,其中10個數(shù)據(jù)祥本是有癌癥,其它是無癌癥。假設分類模型在無癌癥數(shù)據(jù)9990中預測正確了9980個,在10個癌癥數(shù)據(jù)中預測正確了9個,此時真陽=9,真陰=9980,假陽=10,假陰=1。則該分類模型的F1-score為—。A.62.07%B.99.89%C.47.36%D.76.27%.在測試一假設h時,發(fā)現(xiàn)在一包含n=1000個隨機抽取樣例的樣本s上,它出現(xiàn)r=300個錯誤,計算errors(h)的標準差為。A.0.0145B.0.145C.1.45D.14.55,下表為某訓練集數(shù)據(jù),其中X1,X2為特征,Y為分類標記,則使用該訓練集學習到的樸素貝葉斯分類器對x=(1,M)的分類結果為。B.1C.不確定D.0和1都有可能6.關于主成分分析算法,以下步驟 是錯誤的。A.對所有樣本進行去中心化B.計算樣本的協(xié)方差矩陣C.對協(xié)方差矩陣做特征值分解D.取最大的低維空間維數(shù)特征值所對應的特征向量輸出投影矩陣.四個點坐標為(1,1),(1,0),(-1,-1),(-1,0),用SVM分類的決策邊界是 。A.x=0.y=xC.y=-xD.y=08.在大數(shù)據(jù)集上訓練決策樹,為減少訓練時間,可使用以下 方法。A.減少樹的深度B.增加樹的深度C.增加學習率D.減少樹的數(shù)量9.關于偏差和方差,以下說法不正確的是 。A.如果能保證或驗證一批訓練集來自同一個分布,算法在這批訓練集上的學習結果會是一致的B.偏差-方差分解試圖對學習算法的期望泛化錯誤率進行拆解C.泛化誤差可以分解為偏差、方差和噪聲之和D.方差與偏差通常是有沖突的,其中方差刻畫數(shù)據(jù)擾動造成的影響,偏差刻畫的是學習算法本身的擬合能力10.下列哪個神經(jīng)網(wǎng)絡結構會發(fā)生權重共享 。A.卷積神經(jīng)網(wǎng)絡和循環(huán)神經(jīng)網(wǎng)絡B.卷積神經(jīng)網(wǎng)絡C.循環(huán)神經(jīng)網(wǎng)絡D.全連接神經(jīng)網(wǎng)絡ll.Shanghai和Beijing的編輯距離是。A.7B.8C.11D.1512.在自然語言處理中,實體關系學習是指 。A.發(fā)現(xiàn)文本中的有效實體B.實體識別與鏈接C.研究如何從文本中抽取事件信息并以結構化的形式呈現(xiàn)出來D.檢測文本中的實體是否具有某種預定義的關系.在文本挖掘中,可以使用―命令完成將文本轉換為tokens,然后將其轉換為整數(shù)或浮點向量的操作。A.CountVectorizerB.TF-IDFC.詞袋模型(82gofWords)D.NERs.主題模型是自然語言處理中的常見的一類統(tǒng)計模型。對于常用的兩類主題模型81乂、LDA,下列—不是BTM相較于LDA模型的優(yōu)點。A.計算速度快B.適用于短文本C.占用空間少D.解決稀疏性問題15.以下關于神經(jīng)網(wǎng)絡自然語言模型的評述,錯誤的是 。A.BERT模型可用作特征提取B.神經(jīng)網(wǎng)絡語言模型可解決維數(shù)災難的問題C.GPT和ELMo使用整個模型的全部參數(shù)來表示詞向量D.BERT是一個雙向注意力模型二、多選題(本大題6道小題,每小題2分,共12分),從下面題目給出的A、B、C、D四個可供選擇的答案中選擇所有正確答案。1.關于樸素貝葉斯分類方法描述正確的有 。A.需要計算先驗概率B.對缺失數(shù)據(jù)敏感C.對小規(guī)模的數(shù)據(jù)表現(xiàn)很好D.算法成立的前提是假設各屬性之間互相獨立2.正則化能處理過擬合的原因是 。A.懲罰了模型的復雜度,避免模型過度學習訓練集,提高泛化能力B.正則項降低了每一次系數(shù)w更新的步伐,使參數(shù)更小,模型更簡單C.正則化使得訓練集和測試集數(shù)據(jù)分布更為接近,因而避免了在訓練集上過擬合D.貝葉斯學派的觀點,認為加入了先驗分布(11拉普拉斯分布,l2高斯分布),減少參數(shù)的選擇空間.通過監(jiān)督學習進行二分類模型訓練過程中,可能會遇到正負樣本分布不均的情況(比如正樣本有50萬但是負樣本有100萬),下列 方法可以進行恰當處理。A.將所有的數(shù)據(jù)加入訓練集,充分利用所有數(shù)據(jù)B.從100萬負樣本中隨機抽取50萬C.正樣本權重設置為2,負樣本權重設置為1D.復制兩份正樣本參與到訓練中去.可以實現(xiàn)關鍵詞提取任務的常見算法包括()。A.TF/IDFB.SVMC.TextRankD.最短編輯距離.對語義關系進行分類可以幫助我們更好理解語義關系的含義及特性,語義關系包括()。A.因果關系B.上下位關系C.部分整體D.實體來源6.評價一個推薦系統(tǒng)輸出的Top-N推薦列表的好壞,常見的指標有:()。A.準確率PrecisionB.召回率RecallC.F1值D.轉化率三、是非題(本大題15道小題,每小題1分,共15分),從下面題目給出的兩個可供選擇的答案中選擇一個正確答案。1.如果決策樹對訓練集擬合不足,通過縮放輸入特征可以有效改善。A.正確B.錯誤2.Boosting和Bagging都是組合多個分類器投票的方法,二者都是根據(jù)單個分類器的正確率決定其權重。A.正確B.錯誤3.如果兩個變量的Pearson相關性系數(shù)為零,則它們不相關。A.正確B.錯誤4.當不知道數(shù)據(jù)所帶標簽時,可以使用分類技術促使帶同類標簽的數(shù)據(jù)與帶其他標簽的數(shù)據(jù)相分離。A.正確B.錯誤5.回歸問題和分類問題都有可能發(fā)生過擬合。A.正確B.錯誤6.向量x=[1,2,3,4,-9,0]的L1范數(shù)是1。A.正確B.錯誤.神經(jīng)網(wǎng)絡中激活函數(shù)引入了非線性。A.正確.錯誤8.參數(shù)化的方法可以使得類條件概率估計簡化,但是估計結果的準確性嚴重依賴于所假設的概率分布形式是否符合真實數(shù)據(jù)分布。A.正確.正確假設我們有三個簇中心^1=[1;2],^2二[-3;0];,^3二[4;2]。此外,我們還有一個訓練示例x(i)=[-2;1]。則在一個集群分配步驟之后,c(i)將會是2。A.正確B.錯誤10.評價規(guī)則優(yōu)劣的標準應該優(yōu)先考慮規(guī)則準確率,同時考慮覆蓋樣例數(shù)和屬性次序。A.正確B.錯誤11.逆文檔頻率(IDF)的作用是減少常用詞的權重,增加文檔中不常用詞的權重。A.正確B.錯誤12.將詞表示成向量被稱為神經(jīng)詞嵌入(NeuralWordEmbeddings)。A.正確B.錯誤13.信息抽取是指對源語言的長文本進行壓縮,提取出關鍵句子的短文本的技術。A.正確B.錯誤.在給到任何神經(jīng)網(wǎng)絡之前,Tokens都會被轉換成數(shù)字。A.正確B.錯誤.Word2Vec包含CBOW和Skip-gram這兩個模型,其中CBOW模型是輸入當前詞的詞向量,輸出周圍詞的詞向量,而Skip-gram模型正好相反。A.正確B.錯誤四、操作題西素材、樣張、KS目錄均在zip文件中,可雙擊此圖標1C.zip打開以下第(一)題(案例應用題)題目請在文件“C:\KS\人工智能-自然語言處理與理解-答題紙.docx”中作答。(一)案例應用題(共20分)雖然近年來智能對話系統(tǒng)取得了長足的進展,但是針對專業(yè)性較強的問答系統(tǒng),如何準確的判別用戶的輸入是否為給定問題的語義等價問法仍然是智能問答系統(tǒng)的關鍵。舉例而言,“請問什么是公益訴訟?”和“什么是公益訴訟?”可以認為是語義上等價的問題,而“請問什么是公益訴訟?”和“檢察機關發(fā)起公益訴訟是什么意思?”則為不等價的問題。針對問題等價性判別而言,除去系統(tǒng)的準確性外,系統(tǒng)的魯棒性也是很重要。問題:現(xiàn)有某人工智能公司開發(fā)的自動問答系統(tǒng)用于某市法院的微信服務號,自動回答市民關于法律方面的常見問題。假設收集的提問數(shù)據(jù)集格式如下,數(shù)據(jù)以問題組的形式提供,每組問句又分為等價部分和不等價部分,等價問句之間互相組合可以生成正樣本,等價問句和不等價問句之間互相組合可以生成負樣本。請設計一個方案,用于預測一組文本是否為等價問法。提示:這道題可能會有多種思路,建議使用基于BERT預訓練的文本相似度預測思路。請在答題紙作答,此處答題一律無效!<?xmlversion="1.0"encoding="utf-8"?><TrainCorpus>〈Questionsnumber="0"><EquivalenceQuestions>〈question〉哪些情形下,不予受理民事訴訟申請?〈/question〉〈question〉民事訴訟中對哪些情形的起訴法院不予受理〈/question〉〈question〉人民法院不予受理的民事案件有哪些情形?〈/question〉〈/EquivalenceQuestions〉〈NotEquivalenceQuestions〉〈question〉民事訴訟什么情況下不能立案〈/question〉〈question>哪些案件會給開具民事訴訟不予立案通知書〈/question〉〈question〉法院對于哪些案件再審申請不予受理〈/question〉</NotEquivalenceQuestions>〈/Questions〉〈Questionsnumber="1"〉〈EquivalenceQuestions〉〈question〉我被車撞了,肇事車是借的,我能找車主索賠嗎?〈/question〉〈question〉借車撞人了,被撞者能找車主去索賠嗎?〈/question〉〈question〉我被人家車撞了,可以去找原車主索要賠償呢〈/question〉 一〈/EquivalenceQuestions〉〈NotEqui

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論