版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、什么是語言相信大多數(shù)同學(xué)都有過和計(jì)算機(jī)對(duì)話的經(jīng)歷,我們這個(gè)蘋果手機(jī)上搭載了SIRI,我們的微信上也有一些公眾號(hào),它們能夠在一定程度上跟我們進(jìn)行文字交流??梢娪?jì)算機(jī)能夠理解自然語言,也就是我們?nèi)祟惖恼Z言,使得我們覺得人工智能更加的平易近人了。今天我們就來詳細(xì)的聊一聊自然語言理解這門技術(shù),語言是人類區(qū)別其他動(dòng)物的本質(zhì)特性之一。在所有生物中,只有人類才具有語言能力。當(dāng)然,我們?cè)挷荒苷f的這么絕對(duì)。語言:語言是人類區(qū)別其他動(dòng)物的本質(zhì)特性。在所有生物中,只有人類才具有語言能力。人類的多種智能都與語言有著密切的關(guān)系。人類的邏輯思維以語言為形式,人類的絕大部分知識(shí)也是以語言文字的形式記載和流傳下來的。因而,它
2、也是人工智能的一個(gè)重要,甚至核心部分有些報(bào)道說猩猩也會(huì)一定的語言,2004年的報(bào)道中,美國有只猩猩啊,說是會(huì)1000個(gè)單詞的手語,可以和人類通過手語交流,這個(gè)猩猩發(fā)音好像由于構(gòu)造原因不能發(fā)那么多復(fù)雜的音節(jié),但人家不傻,可以用手語交流,不禁讓老師感嘆也許這個(gè)人猿星球中的未來,還真說不準(zhǔn)什么時(shí)候就會(huì)到來。但不管怎么說,這個(gè)語言是高級(jí)智能的一種最直觀的反應(yīng)。人類的邏輯思維以語言為形式,人類的絕大部分知識(shí)也是以語言文字的形式記載和流傳下來的。因此,它是人工智能的一個(gè)重要,甚至是核心的一個(gè)部分。當(dāng)然,這門技術(shù)不光光是用在人機(jī)交互這個(gè)功能上。我們用機(jī)器翻譯的時(shí)候就需要用到自然語言理解的技術(shù),未來如果這門技
3、術(shù)發(fā)展到非常成熟了,我們就不需要學(xué)四六級(jí)了,不管去什么國家,帶個(gè)電腦做翻譯,你說一句中文,它說一句英語。這種工具在很多的科幻片里面都出現(xiàn)過。非常的方便,但是現(xiàn)在大家還是要好好學(xué)英語,因?yàn)檫@個(gè)技術(shù)現(xiàn)在還不夠成熟,大家可以期待我們的后代能夠免去學(xué)習(xí)外語的痛苦。但是話說回來,我們這節(jié)課還真要用到一些英文,因?yàn)閭鹘y(tǒng)的自然語言理解的就是建立在英文的基礎(chǔ)上的。大家似乎沒法回憶自己是如何掌握第一門語言了吧?也就是中文的學(xué)習(xí)過程,但英文的學(xué)習(xí)過程大家應(yīng)該都還記得比較清楚,很多同學(xué)可能從小學(xué)就開始學(xué)英文??梢妼W(xué)習(xí)一門語言其實(shí)是蠻難的一件事。我們?nèi)藢W(xué)習(xí)語言最難是什么?有人說是語法,有人說是單詞量。但有一點(diǎn),大家會(huì)
4、不會(huì)很好奇,那就是計(jì)算機(jī)可以瞬間記住一本詞典,也可以瞬間就背下所有的語法,那為什么它理解語言就那么難呢?覺得計(jì)算機(jī)學(xué)習(xí)語言容易的學(xué)者,在計(jì)算機(jī)剛剛流行的時(shí)候特別的多,那時(shí)候很多專家認(rèn)為,用不了多長(zhǎng)時(shí)間,計(jì)算機(jī)就能和人類自如的交流。但后來很多事實(shí)證明,我們之前太高傲了,也太小看自然語言了。自然語言理解已然成為了人工智能中最難攻破的難點(diǎn)之一。為什么電腦理解語言這么的難呢?我們首先要知道啊這個(gè)語言的理解不僅僅是背單詞和背語法那么簡(jiǎn)單,我們的自然語言理解是有二義性的,這種從各個(gè)層次上廣泛存在的各種各樣的歧義性或多義性是造成困難的根本原因,比如說:例:冬天,能穿多少就多少; 夏天,能穿多少就多少。例:剩
5、女產(chǎn)生的原因有兩個(gè):一是誰都看不上(看不上別人) 二是誰都看不上(別人看不上她)例:?jiǎn)紊砣说挠蓙恚涸瓉硎窍矚g一個(gè)人(別人) 現(xiàn)在是喜歡一個(gè)人(獨(dú)身)這種例子你給計(jì)算機(jī),估計(jì)要暈菜了。要理解這種句子,不但需要對(duì)詞匯了解,還要斷句,還要聯(lián)系上下文的語境,從這個(gè)角度說,英文的機(jī)器理解較中文還要簡(jiǎn)單一點(diǎn)。中文這個(gè)斷句實(shí)在是一個(gè)非常難的地方。這也是很多老外啊,在學(xué)習(xí)中文時(shí)候,非常崩潰的地方。比如,南京市長(zhǎng)江大橋和南京市長(zhǎng)江大橋還有自然語言中經(jīng)常用到了一些修辭手法,例如,諷刺,暗喻,夸張,排比,反問等等。還有諸多俚語,也就是方言,就更難理解了。比如這是老師看到網(wǎng)上流傳的中文六級(jí)考題:小明和小強(qiáng)正在談?wù)撔〖t
6、,這時(shí)小紅走了過來,小明對(duì)小強(qiáng)說:“說曹操曹操就到?!眴枺赫l到了?A.小明B.小強(qiáng)C.小紅 D.曹操上司:“你這是什么意思?”小明:“沒什么意思。意思意思。”上司:“你這就不夠意思了?!毙∶鳎骸靶∫馑?,小意思。”上司:“你這人真有意思?!毙∶鳎骸捌鋵?shí)也沒有別的意思?!鄙纤荆骸澳俏揖筒缓靡馑剂恕!毙∶鳎骸笆俏也缓靡馑??!闭?qǐng)問以上“意思”分別是什么意思?這些題目啊,就更加場(chǎng)景化,你必須還要了解中國的一些國情,才有可能能夠明白,這種題目,對(duì)老外來說簡(jiǎn)直就是夢(mèng)魘一般。更有甚者。比如中國的古文古詩,連我們自己都難都要專門的學(xué)習(xí)很久的時(shí)間才能學(xué)懂,比如這首施氏食獅史全是由一個(gè)音節(jié)組成,簡(jiǎn)直是喪心病狂。石室
7、詩士施氏,嗜獅,誓食十獅。氏時(shí)時(shí)適市視獅,十時(shí),適十獅適市,是時(shí),適施氏適市,施氏視是十獅,拭矢試,使是十獅逝世,適石室,石室濕,氏使侍拭石室,石室拭,始食是十獅尸,始識(shí)是十獅尸,實(shí)十石獅尸,試釋是事。所以說,人尚且如此,何況機(jī)器呢?但是沒辦法,這個(gè)自然語言理解的需求實(shí)在是太大了,雖然任務(wù)艱巨,學(xué)者們還是嘗試解決這個(gè)問題。詞法分析我們現(xiàn)在就來看一下,我們?nèi)斯ぶ悄茴I(lǐng)域是如何嘗試實(shí)現(xiàn)自然語言理解的。首先我們知道,任何一門語言都是由詞構(gòu)成的。英語里面是單詞,單詞下面還有詞根,中文的詞可以拆成字,其實(shí)可以對(duì)應(yīng)英語的詞根。所以這個(gè)詞的理解就是語言理解的第一步。我們把它叫做詞法分析。詞法分析的主要目的是找
8、出詞匯的各個(gè)詞素,從中獲得語言學(xué)信息。在英語等語言中,找出句子中的一個(gè)個(gè)詞匯是一件很容易的事情,因?yàn)樵~與詞之間是由空格來分隔的。但是要找出各個(gè)詞素就復(fù)雜得多。如:importable,它可以是im-port-able或import-able。這是因?yàn)閕m, port和import都是詞素。而在漢語中要找出一個(gè)個(gè)詞素則是再容易不過的事情,因?yàn)闈h語中的每個(gè)字就是一個(gè)詞素。但是要切分出各個(gè)詞就遠(yuǎn)不是那么容易。如:“我們研究所有東西”,可以是“我們研究所有東西”也可以是“我們研究所有東西”。詞法分析的另外一個(gè)任務(wù)就是,英文中有很多詞語有不同的形態(tài),比如動(dòng)詞有不同的時(shí)態(tài)和第三人稱等等,名詞有單復(fù)數(shù)等等,
9、我們?nèi)绻堰@些不同形態(tài)都放到詞庫里面的話,這個(gè)會(huì)大大增加搜索的難度,所以通常我們都是通過詞法分析,就不同形態(tài)的單詞對(duì)應(yīng)到它原來的形態(tài)中去。如:He catches two butterflies這里的catches 和butterflies 就要對(duì)應(yīng)到它們的原型 catch 和butterfly上面去這就是我們所說的詞法分析。句法分析我們要理解一個(gè)句子啊,用詞法分析還是遠(yuǎn)遠(yuǎn)不夠的,所以我們還要用到句法分析怎樣進(jìn)行句法分析呢?句話分析主要是句法分析是對(duì)句子和短語結(jié)構(gòu)進(jìn)行分析。句法分析主要作用有:1)分析句子或短語結(jié)構(gòu),確定構(gòu)成句子的各個(gè)詞、短語之間的關(guān)系以及各自在句子中的作用等,并將這些關(guān)系表達(dá)
10、為層次關(guān)系。2)規(guī)范句法結(jié)構(gòu),在分析句子的過程中,把分析句子各成分間關(guān)系的推導(dǎo)過程用樹圖表達(dá),使這種圖成為句法分析樹。這里大家應(yīng)該都知道什么是樹,這是離散數(shù)學(xué)中的圖論中的一個(gè)概念,在我們計(jì)算機(jī)的數(shù)據(jù)結(jié)構(gòu)中經(jīng)常會(huì)用到這種樹形結(jié)構(gòu)。所以,這里我們看到,我們要計(jì)算機(jī)來理解一個(gè)句子,就要先講這個(gè)句子轉(zhuǎn)化為一個(gè)樹的結(jié)構(gòu),這其實(shí)就是要將一個(gè)語文問題轉(zhuǎn)化為一個(gè)數(shù)學(xué)問題。我們知道計(jì)算機(jī)是非常擅長(zhǎng)求解數(shù)學(xué)問題的,所以,只要我們將一個(gè)問題能夠從數(shù)學(xué)的層面理解它,那么這個(gè)問題就非常好用計(jì)算機(jī)來求解了。但是難就難在我們啊,很難從數(shù)學(xué)層面去理解一些問題。就比如你說這個(gè)語言問題啊,如果有個(gè)公式可以求解的話,那么我們計(jì)算機(jī)
11、理解語言也就沒有潛在的困難了,比如我每個(gè)詞語都能夠由一個(gè)數(shù)學(xué)公式來表達(dá),那么計(jì)算機(jī)來理解一個(gè)數(shù)學(xué)公式就容易多了。所以我們還是要嘗試把我們的語言,結(jié)構(gòu)化,模塊化,定義化,并使詞語和句子之間的關(guān)系越明確越好,所以我們需要這個(gè)句法分析。句法分析是由專門設(shè)計(jì)的分析器進(jìn)行的,其分析過程就是構(gòu)造句法樹的過程,將每個(gè)輸入的合法語句轉(zhuǎn)換為一棵句法分析樹。這里什么叫合法語句呢?就像我們平常說的一些比較規(guī)范的話,或者我們書本上的很多句子都是合法語句,但口語中就不一定,比如說我們說句子的合法結(jié)構(gòu)是主謂賓,但我們口語中經(jīng)常會(huì)出現(xiàn)賓主謂一個(gè)句子是由各種不同的句子成分組成的。這些成分可以是單詞、詞組或從句。句子成分還可以
12、按其作用分為主語、謂語、賓語、賓語補(bǔ)語、定語、狀語、表語等。這種關(guān)系可用一棵樹來表示,如對(duì)句子:He wrotea book.可用圖示的樹形結(jié)構(gòu)來表示我們看一下,它用圖來表示啊,就是這樣子的,首先它是一個(gè)句子,我們認(rèn)為任何一個(gè)句子啊,都至少有主語和謂語把,然后謂語又分為動(dòng)詞和賓語,然后分成這種結(jié)構(gòu)以后,我們將這個(gè)句子中的的每個(gè)單詞都對(duì)應(yīng)到這個(gè)樹的每個(gè)葉子上去,如果在中文中,也是一樣,他寫了一本書,他對(duì)應(yīng)主語,寫了對(duì)應(yīng)動(dòng)詞,一本書對(duì)應(yīng)賓語。當(dāng)然,我們還有一些更加復(fù)雜的句子結(jié)構(gòu),可以看這個(gè)圖。這個(gè)圖中啊,增加了例如終結(jié)符,冠詞等等新的分支,這樣的樹結(jié)構(gòu)就能夠?qū)?yīng)更加復(fù)雜的句子。句法分析中,除了這種
13、叫樹結(jié)構(gòu)的分析法以外還有一種也不得不介紹的,叫轉(zhuǎn)移網(wǎng)絡(luò),這個(gè)轉(zhuǎn)移網(wǎng)絡(luò),和我們之前介紹的那個(gè)有限狀態(tài)機(jī),又有點(diǎn)相似了。它本質(zhì)上啊也是一個(gè)有限狀態(tài)機(jī)。它也是一種圖結(jié)構(gòu),我們這里又加深了一種計(jì)算機(jī)特別喜歡圖結(jié)構(gòu)的印象對(duì)不對(duì)。那么什么是轉(zhuǎn)移網(wǎng)絡(luò)呢,我們簡(jiǎn)單的說一下,擴(kuò)充轉(zhuǎn)移網(wǎng)路啊,就是把句子輸入到類似這個(gè)圖的一個(gè)網(wǎng)絡(luò)中去,我們看到這個(gè)圖有6個(gè)圓圈.它就代表我們?cè)诶斫饩渥又刑幱诘?6個(gè)狀態(tài)這個(gè)轉(zhuǎn)移網(wǎng)絡(luò)怎么來理解句子呢?比如我們說有這樣一句待理解的話,The small black ducks swallow flies我們這個(gè)轉(zhuǎn)移網(wǎng)絡(luò),要從第一個(gè)單詞開始一個(gè)一個(gè)處理。那么我們看到a,b上分別有一個(gè)箭頭,
14、說明句子可以從a,b兩個(gè)位置輸入,Det是冠詞的意思,那么如果這個(gè)句子是由冠詞開始的,那么就從a輸入,否則則從b輸入,比如有些句子像 JACK loves Rose就應(yīng)該是從b節(jié)點(diǎn)輸入。然后這個(gè)句子每通過一條邊,則處理完一個(gè)單詞,比如說這句話有6個(gè)單詞,那么它就要走六條邊。我們看一下,它的狀態(tài)轉(zhuǎn)移就如圖所示它首先從a狀態(tài)進(jìn)入,然后經(jīng)過a到b這條弧,處理了the 這個(gè)單詞,然后在通過b節(jié)點(diǎn)上有一個(gè)到自己的弧,上面寫著adj也就是形容詞,這個(gè)句子走了兩次這條弧,分別處理完了small和black 這兩個(gè)形容詞,才走出b狀態(tài),因?yàn)閐ucks是一個(gè)名字,然后走到c狀態(tài),依次這樣處理完6個(gè)單詞以后,最后
15、走到終結(jié)狀態(tài)。這個(gè)狀態(tài)轉(zhuǎn)移網(wǎng)絡(luò)啊,對(duì)比這個(gè)樹結(jié)構(gòu)來處理句子,有一個(gè)比較明顯的優(yōu)點(diǎn),就是一個(gè)句子中,像某個(gè)名字前面的形容詞,可能很多個(gè),比如我們介紹一些領(lǐng)導(dǎo)人的時(shí)候,前面的稱謂,可能很多。看過冰與火的同學(xué)應(yīng)該知道,里面龍女丹妮莉絲,每次出場(chǎng)的時(shí)候都有一大串的前綴,比如龍之母,大草原的卡麗熙,先民的女王等等等等,反正每次都說一大串,如果我們用這個(gè)樹結(jié)構(gòu)去處理這種句子啊,我們就要設(shè)計(jì)很多很多種樹的結(jié)構(gòu)來匹配不同結(jié)構(gòu)的句子,而用了轉(zhuǎn)移網(wǎng)絡(luò)以后不管一個(gè)名詞前面加多少個(gè)形容詞,我們用一個(gè)自己到自己的這種弧就可以解決了,所以說,我們可以用一個(gè)轉(zhuǎn)移網(wǎng)絡(luò)來處理不同結(jié)構(gòu)的句子。這節(jié)課的最后啊,我們?cè)賮碇v一下自然語
16、言理解中的一個(gè)關(guān)鍵部分的發(fā)展,就是說啊,我們講這個(gè)自然語言理解,就不得不講這個(gè)語料庫。語是語言的語,料是材料的料,庫是倉庫的庫。說的通俗點(diǎn),就像我們廚師需要食譜一樣,對(duì)每種食材都要有性質(zhì)的了解,比如這個(gè)胡椒,比較麻,是配料,這個(gè)生姜,比較辣等等。說的技術(shù)一點(diǎn),比如說我們中醫(yī)配藥,他需要一個(gè)藥譜,每一種藥材,都有自己的特性。同樣的,我們想讓計(jì)算機(jī)了解人類的語言,那就要給它一個(gè)像詞典或字典一樣的東西,比如我們這個(gè)語料庫,字典是什么,就是用人類語言去解釋另一些人類語言,而語料庫就可以理解為我們給計(jì)算機(jī)的一個(gè)字典,語料庫中記錄的就是用機(jī)器語言去解釋人類語言。當(dāng)然,其實(shí)語料庫也是可以被人使用的,它同時(shí)也
17、兼具了一些字典和詞典的功能。語料庫還有一個(gè)重要的特點(diǎn),那就是,語料庫中存放的是在語言的實(shí)際使用中真實(shí)出現(xiàn)過的語言材料;這是語料庫最重要的一點(diǎn),沒有結(jié)合語料庫之前啊,計(jì)算機(jī)的自然語言理解其實(shí)是非常的機(jī)械的,只會(huì)說一些非常非常呆板的話語,一聽就不是真人。現(xiàn)在我們很多人機(jī)對(duì)話軟件中可以說出來一些非??谡Z話的句子,比如會(huì)說“你別開玩笑了”,來表示否定,這種就是用到真實(shí)的語料庫,其實(shí)那些話,都不是它想出來的,而是有真人,在相同的環(huán)境下,說過同樣的話。但是真實(shí)語言,也不是就一股腦的全都放進(jìn)語料庫中去了,我們還需要對(duì)其進(jìn)行一定的加工。然后我們具體來看一下語料庫有些什么樣的功能?1、首先,我們說,我們?cè)趺锤嬖V
18、一些關(guān)于人類語言的,計(jì)算機(jī)又很好理解的東西呢?我們首先想到的就是數(shù)據(jù),這個(gè)語料庫啊,首先統(tǒng)計(jì)了一些數(shù)據(jù),比如說一個(gè)字它有很多種意思,每種意思它出現(xiàn)的頻率是多少?這個(gè)對(duì)于計(jì)算機(jī)來說是非常有用的,我們理解一句話中某個(gè)詞或者字的時(shí)候啊,如果沒有其他的信息,我們就按這個(gè)字或者詞最長(zhǎng)見的意思去理解,對(duì)不對(duì)。語料庫還對(duì)一些詞語進(jìn)行了詞性的標(biāo)注,比如形容詞,動(dòng)詞等等。2、其次啊,語料庫中記錄了很多詞與詞,或者字與字之間的關(guān)系,有一些特定的詞語它們通常都會(huì)一起出現(xiàn),比如饕餮,比如,非.不可,如果.那么,之間的常用的一些用法,如果你僅僅是告訴計(jì)算機(jī)每個(gè)字或者每個(gè)詞的意思,那么它理解起來可能會(huì)非常的生硬。這種也可以說是幫助計(jì)算機(jī)結(jié)合上下
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026河南鄭州市管城回族區(qū)招聘公益性崗位人員74人考試備考題庫及答案解析
- 2026年蚌埠經(jīng)濟(jì)技術(shù)職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性測(cè)試備考題庫及答案詳細(xì)解析
- 2026年忻州職業(yè)技術(shù)學(xué)院?jiǎn)握芯C合素質(zhì)考試模擬試題含詳細(xì)答案解析
- 2026年廣東嶺南職業(yè)技術(shù)學(xué)院?jiǎn)握芯C合素質(zhì)筆試備考題庫含詳細(xì)答案解析
- 2026年南開大學(xué)濱海學(xué)院?jiǎn)握芯C合素質(zhì)筆試參考題庫含詳細(xì)答案解析
- 2026年江西婺源茶業(yè)職業(yè)學(xué)院?jiǎn)握新殬I(yè)技能考試模擬試題含詳細(xì)答案解析
- 2026上半年云南事業(yè)單位聯(lián)考曲靖市馬龍區(qū)遴選3人 (含遴選計(jì)劃)參考考試試題及答案解析
- 2026年陜西能源職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能考試參考題庫含詳細(xì)答案解析
- 2026年內(nèi)蒙古科技職業(yè)學(xué)院?jiǎn)握芯C合素質(zhì)考試參考題庫含詳細(xì)答案解析
- 2026年重慶工程職業(yè)技術(shù)學(xué)院?jiǎn)握芯C合素質(zhì)考試參考題庫含詳細(xì)答案解析
- 飲片物料管理培訓(xùn)
- 校園保安消防培訓(xùn)大綱
- 2025年及未來5年中國正辛硫醇行業(yè)市場(chǎng)全景監(jiān)測(cè)及投資戰(zhàn)略咨詢報(bào)告
- DB4403-T 377-2023 民宿消防安全管理規(guī)范
- 危險(xiǎn)化學(xué)品運(yùn)輸安全手冊(cè)
- GB/T 46146-2025家具五金件鉸鏈及其部件的強(qiáng)度和耐久性繞垂直軸轉(zhuǎn)動(dòng)的鉸鏈
- 粵教花城版音樂 鋼琴獨(dú)奏《雪橇》聽評(píng)課記錄
- 管樁供貨保障方案(3篇)
- 名著導(dǎo)讀傅雷家書
- DB36∕T 2027-2024 普通高等學(xué)校營(yíng)養(yǎng)健康食堂建設(shè)規(guī)范
- 新一代大學(xué)英語(第二版)綜合教程1(智慧版) 課件 B1U1 iProduce
評(píng)論
0/150
提交評(píng)論