融媒體對AI虛擬主播技術方案

上傳人：緣*** IP屬地：河北上傳時間：2025-07-09 格式：PDF 頁數(shù)：14 大?。?.70MB 積分：12 舉報 版權申訴

已閱讀5頁，還剩9頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權，請進行舉報或認領

文檔簡介

融媒體對Al虛擬主播項目

方案建議書

一、項目概況

1.項目名稱：融媒體對AI虛擬主播項目

2.背景：

a）目前，隨著自媒體人的快速崛起以及一些短視頻平臺的掘起，網(wǎng)絡流量正在從文字

向視頻加速聚集。一些視頻平臺能夠為用戶提供更豐富的展現(xiàn)方式，但以真人來進

行的主播由于受到主播自身等條件的限制，其表現(xiàn)形式單一，影響觀眾體驗。為此,

業(yè)界出現(xiàn)了以虛擬形象代替真人的視頻產(chǎn)品，即虛擬主播,顧名思議，所述虛擬主

播是通過虛擬形象向用戶展現(xiàn)相關視頻內(nèi)容，比如，由一個虛擬形象來主導一檔視

頻欄目、播報新聞等。但這類產(chǎn)品中的虛擬形象通常為動畫制作的角色，不僅制作

周期長，而且視覺效果欠佳。

b）當前的主流媒體在信息流化、智能化、自媒體化、視頻化方面缺之有力的產(chǎn)品，對

于滿足用戶日益增長的信息需求進展較慢,且各級媒體內(nèi)容資源缺乏有效整合，在

爭搶移動互聯(lián)網(wǎng)傳播陣地方面處于不利地位，急待建設和打造一個將自媒體和傳統(tǒng)

平臺相結合的、與時代和用戶需求相匹配的、能為用戶提供精準資訊服務，對各級

主流媒體有效整合的智能新媒體移動平臺。

c）人工智能技術給傳媒業(yè)帶來了一場全新的變革。AI虛擬主播與“媒體大腦"皆為

人工智能技術所帶來的傳媒技術創(chuàng)新，技術領域的重大突破必然為傳統(tǒng)的新聞報

道帶來轉型升級。AI虛擬主播的核心是將人工智能技術引入新聞生產(chǎn)與報道中，

運用人臉識別、人臉建模、語音合成、智能傳感器及深度學習等多項前沿技術。

3.平臺核心需求討論：

AI虛擬仿真人編輯系統(tǒng)：利用預先構建的語音合成模型得到對應所述輸入文本的語音序列，

利用預先構建的生物狀態(tài)合成模型得到對應所述輸入文本的虛擬主播圖像序列，所述生物狀

態(tài)合成模型與所述語音合成模型是基于同一時長模型構建的;同步疊加所述語音序列及所述

虛擬主播圖像序列，得到虛擬主播音視頻數(shù)據(jù)，利用語音合成、深度學習、圖像處理等多項

人工智能技術，實現(xiàn)了動態(tài)換臉功能；利用語音合成、人臉建模、唇型預測、圖像處理等多

項人工智能技術，實現(xiàn)了文本到視頻的自動播報輸出，實時高效，精準口型，畫質(zhì)清晰。

AI智能語音合成系統(tǒng)：支持中英文、多語種、方言等眾多不同風格的男聲、女聲、童聲音

庫，在音頻內(nèi)容生產(chǎn)流程中實現(xiàn)了在文本編輯基礎上的音頻一鍵合成，能夠大大提高編輯記

者的工作效率，解放生產(chǎn)力。

數(shù)據(jù)系統(tǒng)：通過采集獲取音頻、視頻、文木、圖片、模型等相關數(shù)據(jù)集合進行預處理、聚合、

清洗、轉換等操作，實現(xiàn)數(shù)據(jù)有序高效結構化存儲。

平臺整體架構

現(xiàn)在新一代A.I.虛擬主播平臺，自主研發(fā)，運用了最新的A.L虛擬形象技術，結合語音識別、

語義理解、語音合成、虛擬形象驅動等A.I.核心技術，通過手機APP、大屏一體機等終端展

現(xiàn)形式，實現(xiàn)用戶與虛擬客服之間的“面對面”互動交流、業(yè)務咨詢、智能問答、服務導覽。

平臺整體架構如下圖：

各層應用說明：

>數(shù)據(jù)層：底層支撐，數(shù)據(jù)的采集、處理、存儲，知識圖譜構建與計算，資源的整理和模

板的定義，采用分布式的方法實現(xiàn)數(shù)據(jù)的高效支撐。

>服務層：基于數(shù)據(jù)處理層的基礎進行認識智能和感知智能，對數(shù)據(jù)進行深層的處理和運

用，實現(xiàn)智能化建模，自動化生成。

>服務層：實現(xiàn)數(shù)據(jù)、場景，內(nèi)容、應用、交互的可視化。

業(yè)務邏輯圖

無論是直接輸入播報文本還是輸入主播錄音音頻相芯科技提供的虛擬主播方案都可以快速

對內(nèi)容進行語音處理，并基于自研的語音動畫合成技術，合成虛擬主播播報視頻

虛微土播

業(yè)務流程圖

流程文字說明圖

業(yè)務流程圖

四、平臺主要功能模塊

跟據(jù)核心需求內(nèi)容，平臺主要分成三部分：AI虛擬仿真人編輯系統(tǒng)、AI智能語音合成系統(tǒng)、

數(shù)據(jù)系統(tǒng)。

2D型k*30人卷日藍就榻于東姚

AJ戲?說海仇媒

Al虛擬仿真人嫡輯系統(tǒng)

書=7越俊人審《5!

A.l.虛擬主播平臺生9次三合曲1%

謂盲府AI智能語吉合成浜統(tǒng)

良國?蛹

?合成?3

調(diào)育生成

語?合成

平臺功能模塊圖

(-)AI虛擬仿真人編輯系統(tǒng)

AI虛擬仿真人的制作流程可以分為幾類：

>2D正面人頭像圖片轉3D模型;

>或利用視頻采集方式AI從仿真人的模型采集訓練庫里學習；

>然后實現(xiàn)自動化建模AI仿生人的智能語音回答交流；

>根據(jù)客戶需求，進行形象租用或靈活定制，支持2D/3D;

2DMAl￡Mit?

集?tt*外段?????jn

3MM9?Ml設“?謝T<?牘*出?愛曙則

矽多特1軌IQ多大豳裂①6心普Q彩*4

系統(tǒng)提供主要以下功能：

1）2D圖片轉3D人物自動建模子系統(tǒng)

2）AI語音語調(diào)訓練

3）主播編輯子系統(tǒng)

＞選擇預設8個主播

＞選擇國際語言

＞選擇語音融合

（二）AI智能語音合成系統(tǒng)

傳統(tǒng)廣播節(jié)目大都需要通過播音員或主持人運用有聲語言來傳遞信息。播音員或主持人

是廣播媒介傳播活動中有著不可或缺的環(huán)節(jié)。當人工智能產(chǎn)品具備了識稿、備稿、有節(jié)奏的

發(fā)聲及擬人形象后，可以通過語音識別和模擬技術制作仿真?zhèn)€性化虛擬主播，對不同場景、

不同內(nèi)容的要求，提供不同的虛擬聲音，實現(xiàn)媲美真人的語音合成效果，滿足用戶對主播

的定制需求。

我公司自主研發(fā)了一套AI語音自動翻譯以及語義識別功能技術成果，生產(chǎn)了一套高效

率的中文語音文本智能編輯系統(tǒng)，顛覆了非線性編輯。在音頻內(nèi)容生產(chǎn)流程中實現(xiàn)了在文本

編輯基礎上的音頻一鍵合成，能夠大大提高編輯記者的工作效率，解放生產(chǎn)力。

使用該系統(tǒng)，音頻編輯不再需要逐字逐句地進行音頻監(jiān)聽而是通過音頻一鍵轉寫文字，

直接在文稿編輯窗里進行文字剪輯，再通過文稿時間戳子系統(tǒng)在文字窗口和對應的音頻窗

口位同時打上剪輯標記，交由人工智能對整篇文字進行語義識別，在剪輯點位以及語義的轉

換點自動進行降噪、延時和淡入淡出等語音信號技術處理。這樣處理后的初稿大量減輕了

編輯人員在語音翻譯和信號處理上的工作量，讓編輯能夠集中精力處理關鍵點位，提高音

頻作品的美感和可聽性。

基于AI的中文語音文本智能編輯系統(tǒng)工作流程

在傳統(tǒng)的音頻編輯系統(tǒng)中，當受訪者說錯了某個字或者某個詞，采訪音頻中也沒有相應

的詞語或者相同意思的句子替代時，很多時候只能選擇放棄這部分同期聲；如果同期聲

所要表達的內(nèi)容確實不能舍棄，只能采用由記者轉述的方式來代替，這使得作品的情景感

大打折扣；由專業(yè)音頻制作人員后期合成，不但成本高，而且操作有違新聞的真實性原則。

為了解決這一問題，經(jīng)過反復實踐，探知采用人工智能的維特比優(yōu)化算法以及梅爾頻率倒譜

系數(shù)(Mel-FrequencyCepstralCoefficients,簡稱MFCC)技術，可以提取原受訪者

人聲特征，建立最新的中文音頻文本同步編輯系統(tǒng)。利用聲紋識別技術來合成語音，模擬原

受訪者的語氣和語感，以達到逼真的效果。

（三）數(shù)據(jù)系統(tǒng)

通過采集獲取音頻、視頻、文本、圖片、模型等相關數(shù)據(jù)集合進行預處理、聚合、清洗、轉

換等操作，實現(xiàn)數(shù)據(jù)結構化存儲，建立不同的數(shù)據(jù)庫，如模型數(shù)據(jù)庫、視頻庫、圖片庫、語

音庫、文本庫等。支撐平臺其他系統(tǒng)模塊的數(shù)據(jù)應用和可視化。

AI建模系統(tǒng)的人臉模型數(shù)據(jù)庫

?ex

MBSroe

數(shù)據(jù)處理流程

五、產(chǎn)品優(yōu)勢

1.多種情緒

同時具有2D/3D虛擬形象，可定制真人形象，也可打造3D虛擬形象，支持半身和全

身。

2.聲音定制

領先的語音合成技術，自然流暢的聲音體驗,為形象定制專屬的個性化語音庫。

3.表情生成

人工智能技術自動預測表情、實時處理唇形，表情真實，自然生動。

4.多語言播報

支持中、英、日、韓、泰、越等多國語言，虛擬主播國際范十足。

5.實時合成

一鍵快速將文稿內(nèi)容轉換成虛擬主播視頻,實現(xiàn)虛擬形象對文字內(nèi)容的實時自動播報。

6.A.I.編輯集成系統(tǒng)

A.L虛擬主播系統(tǒng)，同時支持音頻、視頻實時快速導出，滿足客戶各種場景的內(nèi)容自動

化生產(chǎn)。

個多種怙結加聲音定制?表怙生成

可定制M人影領先的送音自成茂術.自外流利的■音像人工智能茂術自動覆利表

r也可打迤3D豆撅把我支持聿身和至就.力寶a宅格與力的個怪化澎*寫.形.表情?獎.白網(wǎng)生動.

@多語言播報

A實時合成而A.I.系統(tǒng)

支鱷中、英.日.不、色號參司語四一施快速將文稿內(nèi)容薄漫成宦無王港視發(fā).AI在器主屆軍￡15時支律音筑

人人文庫> 全部分類> 教育資料 > 輔導培訓

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

融媒體對AI虛擬主播技術方案

文檔簡介

溫馨提示

最新文檔

評論

融媒體對AI虛擬主播技術方案

文檔簡介

溫馨提示

最新文檔

評論

相關文檔