基于格局理論的多模態(tài)語言檔案數(shù)據(jù)庫建設(shè)研究_第1頁
基于格局理論的多模態(tài)語言檔案數(shù)據(jù)庫建設(shè)研究_第2頁
基于格局理論的多模態(tài)語言檔案數(shù)據(jù)庫建設(shè)研究_第3頁
基于格局理論的多模態(tài)語言檔案數(shù)據(jù)庫建設(shè)研究_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

基于格局理論的多模態(tài)語言檔案數(shù)據(jù)庫建設(shè)研究基于格局理論的多模態(tài)語言檔案數(shù)據(jù)庫建設(shè)研究

自20世紀(jì)90年代以來,蒙古語、哈薩克語、--語等多種少數(shù)民族語言檔案數(shù)據(jù)庫陸續(xù)建設(shè)成功。20世紀(jì)初,安多藏語、云南各少數(shù)民族語言運(yùn)用新技術(shù),擁有了自己的有聲語言數(shù)據(jù)庫。2022年,“浙江方言語音檔案建設(shè)項(xiàng)目〞開始建設(shè),包含了68個(gè)方言點(diǎn),波及語音、詞匯、語法及說唱、歌謠、戲曲等內(nèi)容,同時(shí)還錄制了局部音視頻材料。通過這種方式,一定程度上改變了口口相傳或文字記載等保存方言的傳統(tǒng)形式,對保留和搶救民族語言資源具有重要意義。從整體上看,目前我國語言檔案數(shù)據(jù)庫建設(shè)尚處于探索階段,面對大數(shù)據(jù)以及“互聯(lián)網(wǎng)+〞的挑戰(zhàn),如何實(shí)現(xiàn)對語言檔案的有效管理將成為檔案學(xué)研究的熱點(diǎn)。其中,本文所涉語言檔案數(shù)據(jù)庫指的是以錄音、錄像等多種電子媒體錄制民族語言資源有聲語料,以高保真的質(zhì)量為目的,收集研究樣本而建立的數(shù)據(jù)庫,它可以原生態(tài)地保存現(xiàn)階段有關(guān)語言的語音、詞匯、語法及篇章等面貌。

一、基于格局理論的多模態(tài)語言檔案數(shù)據(jù)庫的提出

以往的語言檔案和數(shù)據(jù)庫研究,通常都是從詞匯、語音或者語法的某個(gè)方面入手,短少相互之間的聯(lián)系,導(dǎo)致材料不足整體性和相關(guān)性。另外,在研究范式上,大多數(shù)語言檔案數(shù)據(jù)庫僅依靠文字、錄音等,各種信息之間的匹配度和精準(zhǔn)度一直受到質(zhì)疑。具體而言,現(xiàn)有的各種語言檔案庫,如丁邦新等開發(fā)的“漢藏同源詞研究系統(tǒng)〞,收錄了漢藏語系122種語言和12種漢語方言的1500余條詞匯;中國科學(xué)院多民族語言資源數(shù)據(jù)庫,建立了漢語、藏語、蒙語和維語的平行語料庫和形態(tài)庫,目前收錄了781篇文章的文本信息;上海語言資源有聲數(shù)據(jù)庫僅列舉了上海不同區(qū)域的幾十個(gè)單音字。這些語言檔案庫均在不同程度上存在短少語音原始情景信息〔如無法直觀用圖像展示兩個(gè)音的差別〕、系統(tǒng)搜索功能單一〔大多僅用于搜索漢語普通話對應(yīng)的方言詞或民族詞〕、資源非共享等缺陷。在技術(shù)層面上,檔案聲音的音質(zhì)也不夠理想,錄像不夠清晰,數(shù)據(jù)清晰度和保真度較低。

針對上述問題,筆者提出從格局理論的角度出發(fā),建立多模態(tài)語言檔案數(shù)據(jù)庫。其中,格局理論提倡用科學(xué)實(shí)驗(yàn)的辦法對語言進(jìn)行研究,用計(jì)算機(jī)軟件將原本口口相傳的內(nèi)容轉(zhuǎn)變成可視圖像,構(gòu)建出一種語言或方言的格局。即把語音學(xué)和音系學(xué)聯(lián)系在一起,用于聲調(diào)、元音、輔音、語調(diào)、韻律、聽感等多個(gè)方面的研究,能夠從這些維度全方位地保留語音的原始情景信息,提升數(shù)據(jù)的完整性。多模態(tài)研究那么是通過多種技術(shù)伎倆采集人們使用語言過程中所呈現(xiàn)的各種類型的多模態(tài)數(shù)據(jù),開掘蘊(yùn)含在音頻、視頻、圖像等各種媒介中的各種信號(hào)、數(shù)據(jù),從而多維度地解讀人們言語交際的意義及其產(chǎn)生機(jī)制,有效進(jìn)行語言檔案的采集和愛護(hù)。在此根底上的格局理論下的多模態(tài)語言是一種融合了多種符號(hào)模態(tài)進(jìn)行交際的話語,除了傳統(tǒng)的文本之外,它還包括口頭語言、圖像、體態(tài)語、音調(diào)、音樂等形式,具有復(fù)合性和動(dòng)態(tài)性的特點(diǎn),能夠全方位地展現(xiàn)語音的特點(diǎn)。與常見的詞匯、語法等傳統(tǒng)文本語料庫相比,多模態(tài)語言檔案數(shù)據(jù)庫的語料采集、轉(zhuǎn)寫、切分、標(biāo)注以及建庫均不相同。它采集的所有語料必須是高保真、非壓縮的語音信號(hào),這樣才能完成后期語音實(shí)驗(yàn),數(shù)據(jù)的準(zhǔn)確性可以得到保證。也可以采用高速攝像頭、呼吸帶等最新研究儀器,進(jìn)行跨學(xué)科研究,關(guān)注發(fā)聲態(tài)、韻律等特征。最近也有專家嘗試用Terason超聲儀、電磁發(fā)音記錄儀〔EMA〕等采集更多復(fù)合信息。綜上,本研究以格局理論為指導(dǎo),參照國際語言檔案數(shù)據(jù)庫的規(guī)范,采用新型的生理及聲學(xué)觀測辦法,收集多模態(tài)的語言數(shù)據(jù),采用最新搜索技術(shù)〔包含文本和聲音搜索,還有二三次搜索〕,從而建設(shè)了一個(gè)動(dòng)態(tài)的、數(shù)字信息化的語言檔案數(shù)據(jù)庫。目標(biāo)是將數(shù)據(jù)中包含的性別、年齡、表情等信息綜合處理,提高信息處理的速度和準(zhǔn)確度,為信息資源建設(shè)效勞,實(shí)現(xiàn)資源共享。

二、基于格局理論的多模態(tài)語言檔案數(shù)據(jù)庫的構(gòu)建

多模態(tài)語言檔案數(shù)據(jù)庫的建設(shè)并不是簡單地錄音、攝像保留,而是一個(gè)系統(tǒng)的、多維度的立體建設(shè)過程,從最開始確實(shí)定調(diào)查材料,經(jīng)過數(shù)據(jù)采集、分析,到最后的建成使用,中間有多個(gè)過程。如圖1所示。在構(gòu)建多模態(tài)語言檔案數(shù)據(jù)庫的過程中,本文針對現(xiàn)有語言檔案資源庫存在的系統(tǒng)搜索功能單一、資源非共享等問題,特別強(qiáng)調(diào)各個(gè)系統(tǒng)及子系統(tǒng)檔案數(shù)據(jù)庫之間的交互性。這里,筆者主要以畬話為例進(jìn)行闡述。畬話是浙江畬族大眾普遍使用的一種語言,他們主要分布在麗水、溫州等地。其中,景寧是我國唯一的畬族自治縣,現(xiàn)有畬族人口約1.45萬人。在前期田野調(diào)查時(shí)我們發(fā)現(xiàn),越來越多的畬族年輕人已經(jīng)不會(huì)說畬話了,可見建立畬話語言檔案數(shù)據(jù)庫迫在眉睫。

〔一〕調(diào)查材料設(shè)計(jì)

這是建設(shè)語言檔案數(shù)據(jù)庫的第一步。在這個(gè)過程中,需要注意的是語言檔案數(shù)據(jù)庫是否具有代表性,其體現(xiàn)在分析得出的結(jié)果能否概括這種語言的整體或指定局部的特征,進(jìn)而歸納出語音格局。在參考其他學(xué)者音系研究的根底上,筆者所在課題組制定了錄音的字表、詞表、句表和語篇。原那么是盡量選取畬話中使用的自然語言作為調(diào)查材料,主要包含使用頻率較高的常用字詞、具有畬話特征的字詞、具有代表性的語音結(jié)構(gòu)的字詞,每一局部都要經(jīng)過精心設(shè)計(jì)。最終的語料文本由下列局部構(gòu)成:9個(gè)單元音、20個(gè)輔音、6個(gè)聲調(diào)。

1.在設(shè)計(jì)字表的時(shí)候,分為元音、輔音、聲調(diào)三個(gè)局部,根據(jù)錄音要求分別制定。如針對每個(gè)聲調(diào),所用發(fā)音字表設(shè)計(jì)了包括六個(gè)聲調(diào)在內(nèi)的單音字6組,其中每組包含同一聲調(diào)的單音例字10個(gè)。這樣能夠保證用盡量少的語料覆蓋全部的聲調(diào)和語音,進(jìn)而使數(shù)據(jù)庫的冗余度較小。相較而言,詞表的設(shè)計(jì)相對復(fù)雜,我們主要設(shè)計(jì)了雙音節(jié)詞,研究畬話中的連讀變調(diào)現(xiàn)象。6個(gè)聲調(diào),構(gòu)成了36種組合方式,每種組合方式有6個(gè)詞語,共得到196個(gè)語料。2.句子和語篇設(shè)計(jì)包括朗讀局部和敘述局部。朗讀局部主要包含經(jīng)過處理的畬族民間故事、詩歌等。語篇設(shè)計(jì)盡量做到《、韻、調(diào)搭配的全面性,同時(shí)考慮不同的語調(diào)、韻律、音段等。為了使語料包括不同的韻律結(jié)構(gòu)單位,設(shè)計(jì)的句子包括畬話的多種句類、句型、句式。敘述局部確定了一些常見話題,主要有個(gè)人經(jīng)歷、家庭情況、情景描述等,構(gòu)成了鮮活的“口述檔案〞。這一局部不指定文本,記錄發(fā)音人單獨(dú)敘述或與他人交談時(shí)的數(shù)據(jù),因此自然度較高,收集到了一些特殊的語音現(xiàn)象,如情緒、心理變化對語調(diào)的影響、口語化的停頓與呼吸模式等。

〔二〕建立發(fā)音人的信息檔案庫

為了保證研究結(jié)果的科學(xué)性,我們在選擇發(fā)音人前,確定了相關(guān)規(guī)范:一是世代生活在景寧當(dāng)?shù)氐漠屪宕蟊?,母語為畬話,沒有長時(shí)間外出經(jīng)歷,家庭成員均為畬族。二是均為右利手,聽力和發(fā)音器官均正常。三是發(fā)音當(dāng)日身體健康,無影響錄音和錄像質(zhì)量的疾病。四是認(rèn)識(shí)語料中的漢字,但無語言學(xué)背景知識(shí)。經(jīng)過篩選,筆者所在課題組選取了不同年齡段〔20-60歲〕的5名男性和5名女性,作為儲(chǔ)藏發(fā)音人。

〔三〕語言檔案采集

語料采集是語言檔案庫建設(shè)的關(guān)鍵。其采集過程包括實(shí)驗(yàn)系統(tǒng)的配置、實(shí)驗(yàn)地點(diǎn)的選取、預(yù)實(shí)驗(yàn)的實(shí)施及問題處理、實(shí)驗(yàn)后期數(shù)據(jù)鑒別等。傳統(tǒng)的田野調(diào)查多項(xiàng)選擇取在安靜的普通房間內(nèi),用錄音筆等方式錄音,對錄音質(zhì)量的控制并不嚴(yán)格,效果也差強(qiáng)人意。為此,為了保證語音樣本的準(zhǔn)確性,解決數(shù)據(jù)失真的問題,筆者所在課題組通過與景寧電視臺(tái)合作,使用技術(shù)最新的錄音棚進(jìn)行錄音,聲卡采用SounddeviceUSBPre2,話筒采用頭戴式指向性話筒AKGC520,極大地控制了噪音。此外,我們還采用了高速攝像頭、呼吸帶等作為采集系統(tǒng),采集發(fā)音時(shí)面部嘴唇和表情、呼吸韻律節(jié)奏等信息。這樣,便于語言檔案的采集、管理和開發(fā),能夠使數(shù)據(jù)到達(dá)高保真、高清晰的多模態(tài)效果。

〔四〕語言檔案管理

為了能夠集成化管理語料,我們設(shè)計(jì)了一系列的語音文件命名規(guī)那么。每個(gè)文件的名稱由性別〔男M、女F〕、年齡〔老年E、中年M、青年Y〕、錄音時(shí)間〔年、月、日〕、類型〔字A、詞B、句C、段落D〕、發(fā)音人編號(hào)〔001、002……〕等組成,如編號(hào)“MY20220123A〞的文件,想要敘述的是發(fā)音人是一位男性,青年人年齡段,錄音時(shí)間是2022年1月23日,單字音,編號(hào)是002。這樣,錄制的每一個(gè)文件都有自己的名稱,調(diào)取和保留較為方便,有利于信息處理。

〔五〕語言檔案分析

大規(guī)模的錄音采樣完成后,需要對數(shù)據(jù)進(jìn)行處理,以提高數(shù)據(jù)庫質(zhì)量。每次錄音完畢后,都由畬話母語者檢驗(yàn)錄音文件是否正確,進(jìn)行檢查和補(bǔ)錄。在技術(shù)上,需要處理噪聲,如過長的靜音段、咳嗽聲等。之后將錄音導(dǎo)入到南開大學(xué)研發(fā)的電腦語音分析系統(tǒng)“桌上語音工作室〞的軟件中,進(jìn)行測算和統(tǒng)計(jì)作圖。以聲調(diào)為例,需要得出發(fā)音字的基頻圖,調(diào)整曲線然后進(jìn)行統(tǒng)計(jì),將數(shù)據(jù)參加聲調(diào)格局,最后用語音分析軟件畫出聲調(diào)格局圖,如圖2所示。其結(jié)果主要用于語音辨認(rèn)、語音合成等。

三、多模態(tài)語言檔案數(shù)據(jù)庫的根本結(jié)構(gòu)及主要功能

多模態(tài)語言檔案數(shù)據(jù)庫主要由三個(gè)子數(shù)據(jù)庫組成,即語音子數(shù)據(jù)庫,圖像、視頻子數(shù)據(jù)庫以及文本子數(shù)據(jù)庫。

1.語音子檔案庫用于寄存畬話的語音信息及其屬性、鏈接等。語音信息主要指字、詞、句、段落的發(fā)音,也包括連讀變調(diào)以后的發(fā)音。語音特征信息包含了音系特征、字音特征和語調(diào)特征等。通過比擬,可以較好地看到畬話與其他語言或方言之間的聯(lián)系與區(qū)別。語音數(shù)據(jù)庫主要包括字音庫、詞音庫、句音庫和語篇音庫等。

語音子檔案庫主要用來檢索,目前可以提供文本〔包括漢字、國際音標(biāo)、漢語拼音等〕的檢索方式。同時(shí),以畬話的語音為檢索條件,可以迅速找出調(diào)類、調(diào)型、變調(diào)、韻律等語音特征,有效實(shí)現(xiàn)普通話與畬話之間的雙向匹配。通過控制搜索條件,點(diǎn)擊語音庫里的字、詞、句、段落,便可以聽到不同發(fā)音人的原生態(tài)發(fā)音信息。逐步采用智能化檢索功能,與用戶進(jìn)行交互。檢索結(jié)果可以進(jìn)行二、三次檢索。

2.圖像、視頻子檔案庫用于寄存與語音信息相匹配的圖像、視頻信息。它是一個(gè)集成化的系統(tǒng),用戶點(diǎn)擊語音信息時(shí),旁邊就會(huì)出現(xiàn)發(fā)音人發(fā)音時(shí)的臉部、體態(tài)圖像與視頻等。而這些基于現(xiàn)代信息技術(shù)對方言的原始記錄語言檔案,能夠原汁原味地呈現(xiàn)方言的語言內(nèi)涵,防止在保留過程中出現(xiàn)失真的情況,最大限度地實(shí)現(xiàn)對語言檔案的整理、開發(fā)、利用和愛護(hù)。

3.文本子檔案庫主要用于寄存畬話的字、詞、句、段落等文本信息及其屬性、鏈接等。具體包括字庫、詞匯庫、句庫、段落庫等。對各局部的語音材料進(jìn)行文本轉(zhuǎn)寫,與語音數(shù)據(jù)庫同步呈現(xiàn)在屏幕上,實(shí)現(xiàn)三個(gè)子數(shù)據(jù)庫數(shù)據(jù)的平

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論