版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
-45-緒論研究背景及意義隨著互聯(lián)網(wǎng)、人工智能等的相關技術的不斷成熟與發(fā)展,大數(shù)據(jù)的腳步已經(jīng)逐步滲透到我們生活的方方面面,大數(shù)據(jù)是集數(shù)據(jù)量大、數(shù)據(jù)內容豐富、類型多樣于一體的數(shù)據(jù)集合。我國面向2030年的《新一代人工智能發(fā)展規(guī)劃》指出:經(jīng)過60多年的演進,特別是在移動互聯(lián)網(wǎng)、大數(shù)據(jù)、超級計算、傳感網(wǎng)、腦科學等新理論新技術以及經(jīng)濟社會發(fā)展強烈需求的共同驅動下,人工智能加速發(fā)展,呈現(xiàn)出深度學習、跨界融合、人機協(xié)同、群智開放、自主操控等新特征ADDINEN.CITE<EndNote><Cite><Author>曾毅</Author><RecNum>30</RecNum><DisplayText><styleface="superscript">[1]</style></DisplayText><record><rec-number>30</rec-number><foreign-keys><keyapp="EN"db-id="vssw5pwd225adfexdd4pxven5apar2appzta"timestamp="1584456336">30</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>曾毅</author><author>劉成林</author><author>譚鐵牛</author></authors></contributors><titles><title>類腦智能研究的回顧與展望</title><secondary-title>計算機學報</secondary-title></titles><periodical><full-title>計算機學報</full-title></periodical><pages>214-224</pages><volume>v.39;No.397</volume><number>01</number><dates></dates><urls></urls></record></Cite></EndNote>[1]。2019年的第一個工作日,阿里巴巴達摩院就發(fā)布了“2019十大科技趨勢”,其認為人工智能(ArtificialIntelligence,AI)仍然是科技界最熱的方向,今年將開啟人類與AI全面合作的新起點。十大科技趨勢之中有遍及老百姓生產生活的,也有國家戰(zhàn)略發(fā)展的,涵蓋了智能城市、AI芯片、自動駕駛、語音AI在特定領域通過圖靈測試等內容。從國家戰(zhàn)略到科技熱點都印證了AI技術已經(jīng)成為人類社會未來的重要發(fā)展方向。隨著海量數(shù)據(jù)、強大計算能力和先進模型的發(fā)展,人工智能的腳步已經(jīng)從符號主義跨越到了連接主義,再到現(xiàn)在我們踏進的認知科學領域ADDINEN.CITE<EndNote><Cite><Author>Miyazaki</Author><RecNum>31</RecNum><DisplayText><styleface="superscript">[2]</style></DisplayText><record><rec-number>31</rec-number><foreign-keys><keyapp="EN"db-id="vssw5pwd225adfexdd4pxven5apar2appzta"timestamp="1584456604">31</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Miyazaki,Koichi</author><author>Toda,Tomoki</author><author>Hayashi,Tomoki</author><author>Takeda,Kazuya</author></authors></contributors><titles><title>Environmentalsoundprocessinganditsapplications</title><secondary-title>IEEJTransactionsonElectricalandElectronicEngineering</secondary-title></titles><periodical><full-title>IEEJTransactionsonElectricalandElectronicEngineering</full-title></periodical><pages>340-351</pages><volume>14</volume><number>3</number><dates></dates><urls></urls></record></Cite></EndNote>[2]。目前,AI不再局限于感知、認知、控制等功能,而是要像人一樣對信息進行理解,其中場景理解(SceneUnderstanding)是作為AI領域最值得探討的問題。人類對客觀世界的各種感知是大腦與多個感官綜合作用的結果,若將計算機視覺、聽覺、觸覺、嗅覺有機結合在一起,能夠有效幫助和提高計算機對于復雜多變室內外場景的理解,這其中視覺場景和聲學場景理解的應用更為廣泛。視覺場景理解在計算機視覺ADDINEN.CITE<EndNote><Cite><Author>Sun</Author><RecNum>33</RecNum><DisplayText><styleface="superscript">[3]</style></DisplayText><record><rec-number>33</rec-number><foreign-keys><keyapp="EN"db-id="vssw5pwd225adfexdd4pxven5apar2appzta"timestamp="1584456871">33</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Sun</author><author>Xiao</author><author>Liu</author><author>Zhenguang</author><author>Hu</author><author>Yuxing</author><author>Zhang</author><author>Luming</author><author>Zimmermann</author><author>Roger</author></authors></contributors><titles><title>Perceptualmulti-channelvisualfeaturefusionforscenecategorization</title></titles><dates></dates><urls></urls></record></Cite></EndNote>[3](ComputerVision,CV)理論基礎上獲得了不斷地發(fā)展與完善,是其應用領域中不可或缺并具有挑戰(zhàn)的技術ADDINEN.CITE<EndNote><Cite><Author>Stowell</Author><Year>2018</Year><RecNum>1</RecNum><DisplayText><styleface="superscript">[4]</style></DisplayText><record><rec-number>1</rec-number><foreign-keys><keyapp="EN"db-id="2tp055t0f90wfqe05fbvazso5r9r2frazz0s"timestamp="1584461425">1</key></foreign-keys><ref-typename="BookSection">5</ref-type><contributors><authors><author>Stowell,Dan</author></authors><secondary-authors><author>Virtanen,Tuomas</author><author>Plumbley,MarkD.</author><author>Ellis,Dan</author></secondary-authors></contributors><titles><title>ComputationalBioacousticSceneAnalysis</title><secondary-title>ComputationalAnalysisofSoundScenesandEvents</secondary-title></titles><pages>303-333</pages><dates><year>2018</year></dates><pub-location>Cham</pub-location><publisher>SpringerInternationalPublishing</publisher><isbn>978-3-319-63450-0</isbn><label>Stowell2018</label><urls><related-urls><url>/10.1007/978-3-319-63450-0_11</url></related-urls></urls><electronic-resource-num>10.1007/978-3-319-63450-0_11</electronic-resource-num></record></Cite></EndNote>[4]。但是由于視覺信息容易受視角、尺度、背景干擾和遮擋等因素的影響,所以為了提升計算機的場景理解能力,往往把聲學信息作為重要的補充內容,比如文獻ADDINEN.CITE<EndNote><Cite><Author>Grafe</Author><RecNum>2</RecNum><DisplayText><styleface="superscript">[5]</style></DisplayText><record><rec-number>2</rec-number><foreign-keys><keyapp="EN"db-id="2tp055t0f90wfqe05fbvazso5r9r2frazz0s"timestamp="1584461765">2</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Grafe,T.Ulmar</author></authors></contributors><titles><title>ThefunctionofcallalternationintheAfricanreedfrog(Hyperoliusmarmoratus):precisecalltimingpreventsauditorymasking</title><secondary-title>BehavioralEcology&Sociobiology</secondary-title></titles><periodical><full-title>BehavioralEcology&Sociobiology</full-title></periodical><pages>149-158</pages><volume>38</volume><number>3</number><dates></dates><urls></urls></record></Cite></EndNote>[5]中把聽覺皮層內的聽覺信息與視覺的亮度信息結合起來有助于場景的分析。聲學場景理解(AcousticSceneUnderstanding,ASU)是根據(jù)聲學的內容及結構,分析其中的真實含義而達到理解場景的目的,最終能有效準確的判斷場景及周邊環(huán)境的一項技術。CV和ASU的相輔相成,在現(xiàn)實中的無人駕駛領域已經(jīng)得到了很好的印證。場景分類是場景理解的關鍵環(huán)節(jié)ADDINEN.CITE<EndNote><Cite><Author>Jancovic</Author><Year>2015</Year><RecNum>3</RecNum><DisplayText><styleface="superscript">[6]</style></DisplayText><record><rec-number>3</rec-number><foreign-keys><keyapp="EN"db-id="2tp055t0f90wfqe05fbvazso5r9r2frazz0s"timestamp="1584461808">3</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Jancovic,Peter</author><author>Kokuer,Munevver</author></authors></contributors><titles><title>Acousticrecognitionofmultiplebirdspeciesbasedonpenalisedmaximumlikelihood</title><secondary-title>IEEESignalProcessingLetters</secondary-title></titles><periodical><full-title>IEEESignalProcessingLetters</full-title></periodical><dates><year>2015</year></dates><urls></urls></record></Cite></EndNote>[6],通過分類能幫助計算機在宏觀上準確理解各種復雜環(huán)節(jié)類型。聲學場景分類(AcousticSceneClassification,ASC)是人工智能領域重要的研究方向之一,其主要依據(jù)周邊聲音感知環(huán)境動態(tài),對機器做出進一步智能選擇有著非常重要的意義。ASC是計算機聽覺場景分析的特定任務,是對測試聲音的內容進行判斷,對聲學場景類別中的高層語義信息進行建模,最終,分類模型需要準確識別出一段聲音所屬的場景類別。國內外研究現(xiàn)狀和進展分析研究現(xiàn)狀現(xiàn)有聲學場景分類系統(tǒng)在結構上大致可分為特征模型和分類器模型兩個部分。目前,國內外的專家和學者針對聲學場景分類問題開展了一系列的研究工作,主要從特征和分類器兩部分不斷進行改進和優(yōu)化。在聲學場景分類系統(tǒng)中所使用的聲學信號種類繁多復雜,根據(jù)研究者的不同需求我們可以將其劃分為時域特征、頻域特征、時頻特征。聲音信號本身是一種隨著時間的變化而變化的信號,一般情況下,在信號本身的空間中分析就能得到有效的信息,但是為了更好更全面的展現(xiàn)出信號的本質特征,我們需要將它放在特定的空間中加以分析,來滿足我們的研究需求,去除無影響或者無用的信息,這樣便能更加容易發(fā)現(xiàn)研究對象之間的本質聯(lián)系。從理論上分析,要想讓一個音頻場景分類的準確率達到高標準,就要在音頻場景提取更多的聲學特征,而在我們的實際研究中,提取的特征若是多了,帶來的問題也就多了,不能說明分類正確率的高低直接是由特征多少而決定;這是因為特征矢量中存在大量無用特征或冗余特征,他們能間接的干擾到有效的音頻特征,進而直接影響場景分類的準確度,因此在特征提取后,我們還需要進行的是特征選擇ADDINEN.CITE<EndNote><Cite><Author>楊立東</Author><RecNum>4</RecNum><DisplayText><styleface="superscript">[7]</style></DisplayText><record><rec-number>4</rec-number><foreign-keys><keyapp="EN"db-id="2tp055t0f90wfqe05fbvazso5r9r2frazz0s"timestamp="1584461858">4</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>楊立東</author><author>王晶</author><author>謝湘</author><author>匡鏡明</author></authors></contributors><titles><title>基于張量分解模型的語音信號特征提取方法</title><secondary-title>北京理工大學學報</secondary-title></titles><periodical><full-title>北京理工大學學報</full-title></periodical><pages>75-79</pages><number>11</number><dates></dates><urls></urls></record></Cite></EndNote>[7]。傳統(tǒng)的特征選取的方法穩(wěn)定性較好,但是目前產生了一些新的技術,比如基于仿生學的蟻群優(yōu)化算法ADDINEN.CITE<EndNote><Cite><Author>顧樹生</Author><Year>1993</Year><RecNum>5</RecNum><DisplayText><styleface="superscript">[8]</style></DisplayText><record><rec-number>5</rec-number><foreign-keys><keyapp="EN"db-id="2tp055t0f90wfqe05fbvazso5r9r2frazz0s"timestamp="1584461896">5</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>顧樹生</author><author>趙玲</author><author>侯軍</author></authors></contributors><titles><title>一種基于奇異值分析的多變量系統(tǒng)設計方法</title><secondary-title>控制與決策</secondary-title></titles><periodical><full-title>控制與決策</full-title></periodical><dates><year>1993</year></dates><urls></urls></record></Cite></EndNote>[8],稀疏學習和多變量學習相結合的特征選擇算法ADDINEN.CITE<EndNote><Cite><Author>張軍委</Author><Year>2019</Year><RecNum>6</RecNum><DisplayText><styleface="superscript">[9]</style></DisplayText><record><rec-number>6</rec-number><foreign-keys><keyapp="EN"db-id="2tp055t0f90wfqe05fbvazso5r9r2frazz0s"timestamp="1584462015">6</key></foreign-keys><ref-typename="Thesis">32</ref-type><contributors><authors><author>張軍委</author></authors><tertiary-authors><author>常發(fā)亮,</author></tertiary-authors></contributors><titles><title>基于音頻融合特征的設備異常識別研究</title></titles><keywords><keyword>小波包分解</keyword><keyword>梅爾倒譜系數(shù)</keyword><keyword>融合特征</keyword><keyword>支持向量機</keyword><keyword>主成分分析</keyword></keywords><dates><year>2019</year></dates><publisher>山東大學</publisher><work-type>碩士</work-type><urls></urls><remote-database-provider>Cnki</remote-database-provider></record></Cite></EndNote>[9]。ASC性能還會受到分類器的影響,分類器能通過自己的學習功能來訓練數(shù)據(jù),使其音頻信號的本質屬性、高維特征以及內部信息顯現(xiàn)出來,從而完成分類。目前,絕大多數(shù)研究者使用的分類器是基于統(tǒng)計模型的,比如隱馬爾可夫模型(HiddenMarkovModdel,HMM)ADDINEN.CITE<EndNote><Cite><Author>Yang</Author><Year>2013</Year><RecNum>7</RecNum><DisplayText><styleface="superscript">[10]</style></DisplayText><record><rec-number>7</rec-number><foreign-keys><keyapp="EN"db-id="2tp055t0f90wfqe05fbvazso5r9r2frazz0s"timestamp="1584462106">7</key></foreign-keys><ref-typename="ConferenceProceedings">10</ref-type><contributors><authors><author>Yang,Lidong</author><author>Jing,Wang</author><author>Xiang,Xie</author><author>Kuang,Jingming</author></authors></contributors><titles><title>ApplicationofTuckerDecompositioninSpeechSignalFeatureExtraction</title><secondary-title>AsianLanguageProcessing(IALP),2013InternationalConferenceon</secondary-title></titles><dates><year>2013</year></dates><urls></urls></record></Cite></EndNote>[10]、高斯混合模型(GaussianMixtureModel,GMM)ADDINEN.CITE<EndNote><Cite><Author>劉亦芃</Author><Year>2019</Year><RecNum>8</RecNum><DisplayText><styleface="superscript">[11]</style></DisplayText><record><rec-number>8</rec-number><foreign-keys><keyapp="EN"db-id="2tp055t0f90wfqe05fbvazso5r9r2frazz0s"timestamp="1584462143">8</key></foreign-keys><ref-typename="Thesis">32</ref-type><contributors><authors><author>劉亦芃</author></authors></contributors><titles><title>一種關于深度學習網(wǎng)絡結構的改進策略</title></titles><dates><year>2019</year></dates><publisher>吉林大學</publisher><urls></urls></record></Cite></EndNote>[11]、支持向量機(SupportVectorMachine,SVM)ADDINEN.CITE<EndNote><Cite><Author>Magarinos</Author><Year>2016</Year><RecNum>9</RecNum><DisplayText><styleface="superscript">[12]</style></DisplayText><record><rec-number>9</rec-number><foreign-keys><keyapp="EN"db-id="2tp055t0f90wfqe05fbvazso5r9r2frazz0s"timestamp="1584462273">9</key></foreign-keys><ref-typename="ConferenceProceedings">10</ref-type><contributors><authors><author>Magarinos,Carmen</author><author>Erro,Daniel</author><author>Banga,EduardoR.</author></authors></contributors><titles><title>Language-independentacousticcloningofHTSvoices:Apreliminarystudy</title><secondary-title>2016IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing(ICASSP)</secondary-title></titles><dates><year>2016</year></dates><urls></urls></record></Cite></EndNote>[12]、人工神經(jīng)網(wǎng)絡(ArtificialNeuralNetwork,ANN)ADDINEN.CITE<EndNote><Cite><Author>Waldekar</Author><RecNum>10</RecNum><DisplayText><styleface="superscript">[13]</style></DisplayText><record><rec-number>10</rec-number><foreign-keys><keyapp="EN"db-id="2tp055t0f90wfqe05fbvazso5r9r2frazz0s"timestamp="1584462333">10</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Waldekar,Shefali</author><author>Saha,Goutam</author></authors></contributors><titles><title>Classificationofaudiosceneswithnovelfeaturesinafusedsystemframework</title><secondary-title>DigitalSignalProcessing</secondary-title></titles><periodical><full-title>DigitalSignalProcessing</full-title></periodical><pages>S1051200418300046</pages><dates></dates><urls></urls></record></Cite></EndNote>[13]。SVM和ANN被廣大研究者持續(xù)改進,融入了一些新的技術,尤其是SVM結合深度學習ADDINEN.CITE<EndNote><Cite><Author>Singh</Author><Year>2013</Year><RecNum>11</RecNum><DisplayText><styleface="superscript">[14]</style></DisplayText><record><rec-number>11</rec-number><foreign-keys><keyapp="EN"db-id="2tp055t0f90wfqe05fbvazso5r9r2frazz0s"timestamp="1584462416">11</key></foreign-keys><ref-typename="ConferenceProceedings">10</ref-type><contributors><authors><author>Singh,OmPrakash</author><author>Haris,BC</author><author>Sinha,Rohit</author></authors></contributors><titles><title>Languageidentificationusingsparserepresentation:AcomparisonbetweenGMMsupervectorandi-vectorbasedapproaches</title><secondary-title>IndiaConference(INDICON),2013AnnualIEEE</secondary-title></titles><dates><year>2013</year></dates><urls></urls></record></Cite></EndNote>[14]技術之后,在大數(shù)據(jù)分析、圖像處理以及音頻識別與分析等領域取得了突破性的進展。此外,近期還出現(xiàn)了很多基于優(yōu)化思想的分類器,例如基于粒子群優(yōu)化算法ADDINEN.CITE<EndNote><Cite><Author>Adavanne</Author><RecNum>12</RecNum><DisplayText><styleface="superscript">[15]</style></DisplayText><record><rec-number>12</rec-number><foreign-keys><keyapp="EN"db-id="2tp055t0f90wfqe05fbvazso5r9r2frazz0s"timestamp="1584462468">12</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Adavanne,Sharath</author><author>Parascandolo,Giambattista</author><author>Pertil?,Pasi</author><author>Heittola,Toni</author><author>Virtanen,Tuomas</author></authors></contributors><titles><title>SoundEventDetectioninMultichannelAudioUsingSpatialandHarmonicFeatures</title></titles><dates></dates><urls></urls></record></Cite></EndNote>[15]、利用解決凸優(yōu)化問題的低秩矩陣ADDINEN.CITE<EndNote><Cite><Author>Lecun</Author><Year>2015</Year><RecNum>13</RecNum><DisplayText><styleface="superscript">[16]</style></DisplayText><record><rec-number>13</rec-number><foreign-keys><keyapp="EN"db-id="2tp055t0f90wfqe05fbvazso5r9r2frazz0s"timestamp="1584462544">13</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Lecun,Y</author><author>Bengio,Y</author><author>Hinton,G</author></authors></contributors><titles><title>Deeplearning</title></titles><pages>436</pages><volume>521</volume><number>7553</number><dates><year>2015</year></dates><urls></urls></record></Cite></EndNote>[16]填充思想完成分類的等。應用進展音頻分類技術是近年來比較流行的一項語音分類技術,具有非常廣泛的應用前景:1)作為音頻信息研究的主要內容之一,可以為瀏覽器的檢索、視頻的監(jiān)控以及音頻文檔的分析研究提供高質量的幫助。2)音頻分類還可以應用到在公共場所的音頻監(jiān)控中,將接收到的音頻信息進行準確的分類,并且通過視頻的參照,可以對場景進行合理的分析,相較于單一的視頻監(jiān)控,音頻監(jiān)控有著不受物體遮擋的影響及保護個人隱私的有點ADDINEN.CITE<EndNote><Cite><Author>Sherine</Author><RecNum>14</RecNum><DisplayText><styleface="superscript">[17]</style></DisplayText><record><rec-number>14</rec-number><foreign-keys><keyapp="EN"db-id="2tp055t0f90wfqe05fbvazso5r9r2frazz0s"timestamp="1584462582">14</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Sherine</author><author>Antoun</author></authors></contributors><titles><title>Biologicallyinspiredperceptionforroboticsinhostileenvironments</title></titles><dates></dates><urls></urls></record></Cite></EndNote>[17]。3)音頻分類還可應用在智能終端上,可以幫助老年人或者有聽力障礙的人聽清楚一些特定的場景,比如警報信號、門鈴等,進而輔佐人們進行正確的判別。4)音頻事件分類技術還可以應用于情境的感知在一些特定的環(huán)境中,通過對音頻事件的分類來感知周圍所處的環(huán)境是一項重要的應用。例如,在教室里,通過對鍵盤聲、講話聲、翻書的聲音、關門聲等聲學事件的分類檢測可以了解課堂的上課進度,把握課堂的進展狀態(tài)等信息。通過這些音頻事件分類的信息,可以對老師今后對課堂的把控有很大的提高,使學生上課能夠更加積極主動,更好的融入課堂。還可以將基于音頻事件分類的情感感知技術應用于機器人,這樣就能使機器人能夠更加智能的感知周圍的環(huán)境,進而可以更好的執(zhí)行任務。5)此外,音頻事件分類技術還可以廣泛地用于城市規(guī)劃ADDINEN.CITE<EndNote><Cite><Author>Zhao</Author><Year>2015</Year><RecNum>15</RecNum><DisplayText><styleface="superscript">[18]</style></DisplayText><record><rec-number>15</rec-number><foreign-keys><keyapp="EN"db-id="2tp055t0f90wfqe05fbvazso5r9r2frazz0s"timestamp="1584462628">15</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Zhao,Miaoyun</author><author>Jiao,Licheng</author><author>Ma,Wenping</author><author>Liu,Hongying</author><author>Yang,Shuyuan</author></authors></contributors><titles><title>ClassificationandSaliencyDetectionbySemi-SupervisedLow-RankRepresentation</title><secondary-title>PatternRecognition</secondary-title></titles><periodical><full-title>PatternRecognition</full-title></periodical><pages>281-294</pages><volume>51</volume><number>C</number><dates><year>2015</year></dates><urls></urls></record></Cite></EndNote>[18]、智能家居ADDINEN.CITE<EndNote><Cite><Author>Zahorik</Author><Year>2005</Year><RecNum>16</RecNum><DisplayText><styleface="superscript">[19]</style></DisplayText><record><rec-number>16</rec-number><foreign-keys><keyapp="EN"db-id="2tp055t0f90wfqe05fbvazso5r9r2frazz0s"timestamp="1584462670">16</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Zahorik,Pavel</author><author>Brungart,DouglasS.</author><author>Bronkhorst,AdelbertW.</author></authors></contributors><titles><title>AuditoryDistancePerceptioninHumans:ASummaryofPastandPresentResearch</title><secondary-title>ActaAcusticaUnitedwithAcustica</secondary-title></titles><periodical><full-title>ActaAcusticaUnitedwithAcustica</full-title></periodical><pages>409-420</pages><volume>91</volume><number>3</number><dates><year>2005</year></dates><urls></urls></record></Cite></EndNote>[19]及生態(tài)聲學ADDINEN.CITE<EndNote><Cite><Author>王慶華</Author><RecNum>17</RecNum><DisplayText><styleface="superscript">[20]</style></DisplayText><record><rec-number>17</rec-number><foreign-keys><keyapp="EN"db-id="2tp055t0f90wfqe05fbvazso5r9r2frazz0s"timestamp="1584462718">17</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>王慶華</author></authors></contributors><titles><title>淺析數(shù)字音頻的原理和理論應用</title><secondary-title>通訊世界</secondary-title></titles><periodical><full-title>通訊世界</full-title></periodical><pages>81-82</pages><number>16</number><dates></dates><urls></urls></record></Cite></EndNote>[20]等各個領域。6)音頻場景識別從一段音頻信息中提取出屬于其環(huán)境類別的有用的語義信息,這有助于促進大數(shù)據(jù)智能設施的研發(fā)以及一些新功能的完善及擴展,使得計算機能夠更好的認知世界。例如,通過從音頻流信號中獲取有關當前所屬環(huán)境的類別信息可以幫助移動設備轉換工作模式,也有助于手機app根據(jù)當下的環(huán)境類別推薦相關的個性化的信息。論文的主要內容聲音作為我們日常生活中重要的信息來源已經(jīng)被越來越多的人用各種各樣的方式存儲和傳遞。我們生活在各種各樣的聲音之中,故存儲聲音的方式也不盡相同?,F(xiàn)代科技的發(fā)展已經(jīng)使音頻分類完全可以應用到我們的日常生活中了ADDINEN.CITE<EndNote><Cite><Author>朱學芳</Author><Year>1998</Year><RecNum>18</RecNum><DisplayText><styleface="superscript">[21]</style></DisplayText><record><rec-number>18</rec-number><foreign-keys><keyapp="EN"db-id="2tp055t0f90wfqe05fbvazso5r9r2frazz0s"timestamp="1584462750">18</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>朱學芳</author><author>徐建平</author></authors></contributors><titles><title>計算機語音信號處理與語音識別系統(tǒng)</title><secondary-title>南京郵電大學學報(自然科學版)</secondary-title></titles><periodical><full-title>南京郵電大學學報(自然科學版)</full-title></periodical><pages>113-119</pages><number>z1</number><dates><year>1998</year></dates><urls></urls></record></Cite></EndNote>[21],而音頻信息的種類繁多使得我們管理起來會越來越難,所以音頻分類應運而生。用機器和編程方法自主的進行音頻信息的分類和識別ADDINEN.CITE<EndNote><Cite><Author>周新星</Author><RecNum>19</RecNum><DisplayText><styleface="superscript">[22]</style></DisplayText><record><rec-number>19</rec-number><foreign-keys><keyapp="EN"db-id="2tp055t0f90wfqe05fbvazso5r9r2frazz0s"timestamp="1584462781">19</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>周新星</author><author>王典洪</author></authors></contributors><titles><title>窗函數(shù)用于頻譜分析的研究</title><secondary-title>微計算機信息</secondary-title></titles><periodical><full-title>微計算機信息</full-title></periodical><pages>180+191-192</pages><number>36</number><dates></dates><urls></urls></record></Cite></EndNote>[22],從而極大的減少了人工的工作。本課題主要研究的是在特定的音頻場景下分類的方法以及如何提高音頻分類的正確率。音頻分類的方法很多,我們常用的傳統(tǒng)方法有神經(jīng)網(wǎng)絡、最小距離法、支持向量機、隱馬爾可夫模型、決策樹等。近年來,機器學習在智能學習各方面得到廣泛的應用,尤其是在視頻音頻領域發(fā)達的今天。找尋最佳的測量方法,以及計算方式。最終,將其應用到實際生活中。在特定的音頻場景下實現(xiàn)正確的分類,選取最優(yōu)的分類方式,提高分類準確率,并進行實際的測試。論文組織結構本論文一共分為五章,主要內容分布如下:第一章由音頻分類的研究背景及意義入手,表明研究音頻分類的現(xiàn)實意義和作用。第二章引見了音頻場景分類系統(tǒng)的基本情況。主要包括音頻的常用特征的提取,重點介紹本文所用到的音頻特征MFCC,并且主要介紹了本文所用到的分類器SVM,為下文實驗中所用到的音頻分類確定相應的技術手段做好鋪墊。第三章介紹了音頻信號的特征提取。主要包括了音頻特征和常用音頻特征的提取與處理。第四章介紹了張量的相關原理。主要包括張量的基本概念、張量的相關運算、張量的Tucker分解以及張量的CP分解。第五章介紹本文的實驗及相關的結果分析。本文中的實驗是通過特定的音頻場景,通過張量分析對場景進行提取MFCC特征,將提取的特征集輸入到SVM分類器中進行分類,得出是否可以正確分類以及正確率的高低,并與傳統(tǒng)的特征提取的方法得到的正確率進行對比,觀察本實驗的方法得到的正確率是否有所提高。音頻場景分類系統(tǒng)介紹音頻系統(tǒng)結構簡介本章主要內容為設計基于MFCC特征及SVM分類器的音頻場景分類系統(tǒng)。MFCC作為我們學習中使用最為廣泛的重要特征,有著良好的區(qū)分性能。且在很多研究中表明在SVM作為分類器與MFCC等性能良好的特征配合時,有著更為出色的性能。此外,對比于目前使用最為廣泛的深度學習算法,SVM模型以高效便捷的優(yōu)勢而深受研究者的喜愛,當系統(tǒng)設計完成時,就能很快得到訓練的結果。因此我們選擇SVM作為本文實現(xiàn)音頻分類的基線系統(tǒng)。分類系統(tǒng)主要包括五個部分,分別為音頻數(shù)據(jù)集、特征提取與處理、系統(tǒng)訓練、系統(tǒng)測試、系統(tǒng)評估。整個系統(tǒng)結構如圖2.1所示:系統(tǒng)測試集系統(tǒng)訓練音頻數(shù)據(jù)系統(tǒng)測試集系統(tǒng)訓練音頻數(shù)據(jù)集特征提取與處理集音頻數(shù)據(jù)集系統(tǒng)評估集系統(tǒng)評估集圖2.1分類系統(tǒng)結構圖音頻分類相關內容要想達到以及高精度的音頻分類,在提取信號這方面上要做足文章。提取高效的信號特征是分類器能否更好完成任務的關鍵,故而特征參數(shù)是否合適直接影響到分類性能的高低。音頻信號的表示方式多種多樣,哪一種“最佳”取決于應用以及處理機器。近年來,特征提取和分類器的選擇時許多音頻信號處理的關鍵之處,我們經(jīng)常使用的特征有時域特征和頻域特征、倒譜特征、頻帶能量特征ADDINEN.CITE<EndNote><Cite><Author>Wallach</Author><Year>1940</Year><RecNum>20</RecNum><DisplayText><styleface="superscript">[23]</style></DisplayText><record><rec-number>20</rec-number><foreign-keys><keyapp="EN"db-id="2tp055t0f90wfqe05fbvazso5r9r2frazz0s"timestamp="1584462822">20</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Wallach,H.</author></authors></contributors><titles><title>Theroleofheadmovementsandvestibularandvisualcuesinsoundlocalization</title></titles><pages>339-368</pages><volume>27</volume><number>27</number><dates><year>1940</year></dates><urls></urls></record></Cite></EndNote>[23]、發(fā)生特征、線性預測系數(shù)等。本章節(jié)主要概述了常用的音頻場景分類中普遍運用到的音頻特征,之后再對本文中主要使用到的主要特征MFCC進行進一步的闡述以及提取該特征用到的相關方法。下一章將主要講述的是音頻特征的一些具體內容。應用場景及優(yōu)勢音頻場景分類,是一個具有廣義的概念,目前已經(jīng)應用到我們實際生活中的方方面面,例如,在一個餐廳中我們可以根據(jù)所有的聲音來判別這個餐廳是否處于擁擠的狀態(tài)或者可以判斷出顧客的吃飯環(huán)境是不是很好等。對比與傳統(tǒng)的攝像頭,可能會存在死角以及拍攝不清楚的問題,利用音頻技術可以很號的彌補上述方法帶來的問題,同時也能免去視頻所帶來的高昂的費用ADDINEN.CITE<EndNote><Cite><Author>郭建濤</Author><Year>2011</Year><RecNum>21</RecNum><DisplayText><styleface="superscript">[24]</style></DisplayText><record><rec-number>21</rec-number><foreign-keys><keyapp="EN"db-id="2tp055t0f90wfqe05fbvazso5r9r2frazz0s"timestamp="1584462866">21</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>郭建濤</author><author>劉友安</author><author>王林</author></authors></contributors><titles><title>基于窗函數(shù)設計的跳頻信號時頻分析</title><secondary-title>計算機應用</secondary-title></titles><periodical><full-title>計算機應用</full-title></periodical><pages>2333-2335</pages><volume>31</volume><number>09</number><dates><year>2011</year></dates><urls></urls></record></Cite></EndNote>[24]。在之前的研究者中有很多人都制作出了不受環(huán)境影響的一些視頻裝置,并且能夠減少很多人力的付出,還能進行全方位無死角的拍攝,但是這些裝置都由很高的成本,對于研究者來說很不方便,而且大部分的城市服務系統(tǒng),生活監(jiān)測裝置還都是運用的是傳統(tǒng)的視頻裝置,一般的傳統(tǒng)的視頻裝置在夜晚基本上不能發(fā)揮出積極的作用,這樣就使得我們的生產生活以及進一步的研究變得很不方便,因此我們在這里會想到用音頻領域的技術運用到這些視頻監(jiān)測不能解決的問題上來,并且我們知道視頻監(jiān)測的重點其實還是在于人,因為如果人在沒有發(fā)現(xiàn)的情況視頻監(jiān)控到了也無濟于事,觀看視頻的人打盹不在的情況下也會影響監(jiān)測,忙點的問題是視頻永遠無法解決的。而音頻技術可以在聽到異響后發(fā)出報警,這樣就能更好的防控特殊情況的發(fā)生。此外,在軍事領域中,音頻分類也可以很巧妙的應用在其中,當接收端傳來異響的時候,可以進行全方位的預警,且接受設備所需的能量更小,同時也能節(jié)約很多的資源來干別的事情。軍用飛機因其型號的不同會產生不同的聲音,有些隱形的戰(zhàn)機能夠躲避雷達的追蹤,進行無人無追蹤的勘測,但是任何飛機都會產生噪音,我們通過收集這些戰(zhàn)機的聲音,進而采集提取它的音頻特征來判別飛機的位置,這樣的裝置只需要一個采集聲音的設備和一個接受聲音的終端,體積小,能耗小,不易被別人發(fā)現(xiàn)。任何飛機都逃不過我們的追蹤,這個同樣能夠應用在地面車輛的監(jiān)測方面,對于森林的防護,在草叢或水里也能完全作用,這樣的預警作用是完全能夠做好積極防御的ADDINEN.CITE<EndNote><Cite><RecNum>22</RecNum><DisplayText><styleface="superscript">[25]</style></DisplayText><record><rec-number>22</rec-number><foreign-keys><keyapp="EN"db-id="2tp055t0f90wfqe05fbvazso5r9r2frazz0s"timestamp="1584462902">22</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors></contributors><titles><title>EffectoftracerareearthelementEronhighpureAl</title><secondary-title>中國有色金屬學報(英文版)</secondary-title></titles><periodical><full-title>中國有色金屬學報(英文版)</full-title></periodical><pages>1035-1039</pages><number>5</number><dates></dates><urls></urls></record></Cite></EndNote>[25]。在本文,音頻分類技術將應用于城市聲音分類的實驗中,我們生活的城市中無時無刻都充斥著各種各樣的噪音,現(xiàn)在我們生活的環(huán)境中,產生負能量最多的是就是聲音污染和光污染,要想解決聲音污染這一實質性的問題,靠視頻監(jiān)控是遠遠不夠的,我們要進行的是首先要分辨出城市環(huán)境中的噪音的來源以及噪音的主要產生方式,人力查巡這一費時費力的已經(jīng)越來越難滿足我們的需求,城市道路復雜,各種各樣的聲音不斷的充斥在我們的耳邊,只有通過自動化的監(jiān)測才能更好的了解城市聲音的來源,這樣我們的研究就變得更加方便快捷。特征提取對于一段音頻數(shù)據(jù),如果不加處理,直接將語音輸入到處理的軟件中,顯然著是不合理的,因此我們要將這段數(shù)據(jù)進行一系列的處理,其中最重要的就是特征提取,特征提取所要選取的特征就是要滿足這段音頻的所有信息,簡單的講就是這段音頻壓縮了,壓縮之后一些有特征的信號能夠很好的辨別出這個音頻的獨特性,這樣就能正確的進行分類,這里我們只作一個大體的闡述,下一章我們將重點介紹音頻信號的特征提取及處理。2.2.3分類器的訓練分類器就是將已知類別的信息自動劃分到特定的類別當中,主要在收索引擎中和自動分類的情況中應用廣泛。分類器是當今只能領域的一個重要的分支,分類器的實質是一個數(shù)學模型,不同的模型有不同的優(yōu)點,傳統(tǒng)機器學習模型大多已經(jīng)成熟,且在研究中也應用較為廣泛,分類器主要包括:神經(jīng)網(wǎng)絡(BPNeuralNetwork,NN)、支持向量機(SupportVectorMachine,SVM)、貝葉斯分類器(BayesClassifier,BC)和決策樹分類器(DecisionTreeClassifier,DTC)等ADDINEN.CITE<EndNote><Cite><Author>Wightman</Author><Year>1997</Year><RecNum>23</RecNum><DisplayText><styleface="superscript">[26]</style></DisplayText><record><rec-number>23</rec-number><foreign-keys><keyapp="EN"db-id="2tp055t0f90wfqe05fbvazso5r9r2frazz0s"timestamp="1584462951">23</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Wightman,FredericL.</author><author>Kistler,DorisJ.</author></authors></contributors><titles><title>Monauralsoundlocalizationrevisited</title><secondary-title>JournaloftheAcousticalSocietyofAmerica</secondary-title></titles><periodical><full-title>JournaloftheAcousticalSocietyofAmerica</full-title></periodical><pages>1050-1063</pages><volume>101</volume><number>2</number><dates><year>1997</year></dates><urls></urls></record></Cite></EndNote>[26]。SVM模型音頻分類的常用的訓練方法中機器學習的方法是比較成熟的,具體方法有最小距離法、神經(jīng)網(wǎng)絡、支持向量機、決策樹法、隱馬爾可夫模型等等。在本文中,我們用到的分類方法是支持向量機。支持向量機是Vapnik等人提出的基于結構風險最小化原理(StructuralRiskMinimizationPrinciple)的一種分類[27]。該方法初解決的問題是二分類的問題,它的思路是在一個特征構成的樣本空間中找尋一個可以分類的超平面,這個超平面能夠完全區(qū)分出分別屬于正、反平面的樣本點,并且取得最大邊緣(兩類樣本點平面的最小距離),它的本質就是將無法完全展示信息的低維空間映射到高維空間中,通過核函數(shù)建立關系進行映射ADDINEN.CITE<EndNote><Cite><Author>Blauert</Author><Year>2001</Year><RecNum>24</RecNum><DisplayText><styleface="superscript">[27]</style></DisplayText><record><rec-number>24</rec-number><foreign-keys><keyapp="EN"db-id="2tp055t0f90wfqe05fbvazso5r9r2frazz0s"timestamp="1584463285">24</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Blauert,Jens</author></authors></contributors><titles><title>CommunicationAcoustics</title><secondary-title>TheJournaloftheAcousticalSocietyofAmerica</secondary-title></titles><periodical><full-title>TheJournaloftheAcousticalSocietyofAmerica</full-title></periodical><pages>2432-2432</pages><volume>115</volume><number>5</number><dates><year>2001</year></dates><urls></urls></record></Cite></EndNote>[27],而且所有的運算只需要在高維空間中進行即可,無需在低維空間上計算。SVM二分類問題支持向量機初始的使用對象是基于統(tǒng)計學中求解二分類問題中的最優(yōu)解,是二分類中最具代表性的方法,是研究者深受喜歡的一種機器學習的方法,由于技術的缺失,很長時間內只能被用作二分類,逐漸的被衍生成也能解決多分類的問題。它所采用的方法為結構風險最小化的思想,這種方法對于樣本的大小并無特定的要求,無論樣本的多少都能夠有很好的分類效果,因此為了做好對比實驗,一般都會選擇其方法。要想用SVM進行多分類就需要多個支持向量機進行兩兩組合,多分類的問題就迎刃而解了,最終分類的結果會以投票的形式ADDINEN.CITE<EndNote><Cite><Author>張斌</Author><RecNum>25</RecNum><Display
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年南京鐵道職業(yè)技術學院馬克思主義基本原理概論期末考試模擬題帶答案解析(必刷)
- 2024年青陽縣招教考試備考題庫及答案解析(奪冠)
- 2025年蘭州交通大學馬克思主義基本原理概論期末考試模擬題附答案解析
- 2024年邢臺醫(yī)學院馬克思主義基本原理概論期末考試題及答案解析(必刷)
- 2025年蕪湖縣幼兒園教師招教考試備考題庫帶答案解析
- 2025年可克達拉職業(yè)技術學院馬克思主義基本原理概論期末考試模擬題帶答案解析(奪冠)
- 2024年黎城縣幼兒園教師招教考試備考題庫帶答案解析(奪冠)
- 2025年四川工商職業(yè)技術學院單招職業(yè)技能測試題庫帶答案解析
- 2026年九江職業(yè)技術學院單招職業(yè)傾向性考試題庫帶答案解析
- 2025年浦北縣幼兒園教師招教考試備考題庫帶答案解析(奪冠)
- 2025年CCAA國家注冊審核員考試(有機產品認證基礎)復習題及答案一
- 軍隊自行采購管理辦法
- 2025年廉政知識測試題庫(含答案)
- 脊柱內鏡手術機器人系統(tǒng)設計與精準位置控制研究
- 【基于PLC的地鐵屏蔽門控制系統(tǒng)設計8900字(論文)】
- (高清版)DG∕TJ 08-9-2023 建筑抗震設計標準
- 《特種設備74號令宣貫材料》知識培訓
- 波形護欄施工質量控制方案
- 2024年重慶市中考英語試卷真題B卷(含標準答案及解析)+聽力音頻
- 系統(tǒng)性紅斑狼瘡的飲食護理
- 電氣試驗報告模板
評論
0/150
提交評論