版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1廣播電視和網(wǎng)絡(luò)視聽收視大數(shù)據(jù)清洗規(guī)范本文件規(guī)定了廣播電視和網(wǎng)絡(luò)視聽收視大數(shù)據(jù)的清洗流程和清洗規(guī)則。本文件適用于有線電視、衛(wèi)星直播、IPTV、OITTV、互聯(lián)網(wǎng)視聽等收視數(shù)據(jù)的清洗。2規(guī)范性引用文件下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對(duì)應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T2260—2007中華人民共和國行政區(qū)劃代碼3術(shù)語和定義下列術(shù)語和定義適用于本文件。大數(shù)據(jù)清洗bigdatacleaning對(duì)原始數(shù)據(jù)進(jìn)行處理和轉(zhuǎn)換,以去除無效、不完整、重復(fù)或不一致的數(shù)據(jù),提高數(shù)據(jù)的質(zhì)量和準(zhǔn)確行為記錄behaviorrecord描述用戶收視行為的相關(guān)信息,包含與該行為相關(guān)的所有數(shù)據(jù)。描述用戶收視行為記錄中某一特征的數(shù)據(jù)項(xiàng)。單次播放標(biāo)識(shí)singlepiayidentifier標(biāo)識(shí)用戶單次啟動(dòng)播放器后,一個(gè)內(nèi)容對(duì)應(yīng)所有收視行為的唯一性編碼。下列縮略語適用于本文件。ID用戶終端的唯一編碼(Identifier)IPTY互聯(lián)網(wǎng)協(xié)議電視(InternetProtocolTelevision)OTTTV互聯(lián)網(wǎng)電視(OverTheTopTV)UTF-88位Unicode字符集轉(zhuǎn)換格式(UnicodeTransfornationFornat-8bitUnicode)收視大數(shù)據(jù)清洗流程包含規(guī)范性清洗、有效性清洗、完整性清洗、唯一性清洗、合理性清洗5個(gè)規(guī)則,見圖1。其中,規(guī)范性清洗用于規(guī)范數(shù)據(jù)格式,有效性清洗用于檢驗(yàn)并剔除無效數(shù)據(jù),完整性清洗4對(duì)于屬于同一用戶的兩條或多條行為記錄,如果所有字段完全一致,應(yīng)保留其中一條,剔除其余行為記錄。6.4.2重疊行為記錄處理對(duì)于存在時(shí)間重疊(不含開始時(shí)間、結(jié)束時(shí)間完全一致的情況)且屬于同一用戶的兩條行為記錄:——如屬于同一頻道或內(nèi)容,應(yīng)將兩條行為記錄合并為一條。取第一條行為記錄(即兩條行為記錄中開始時(shí)間較早的)的開始時(shí)間作為開始時(shí)間,第二條行為記錄(即兩條行為記錄中結(jié)束時(shí)間較晚的)的結(jié)束時(shí)間作為結(jié)束時(shí)間:——如屬于不同內(nèi)容且開始時(shí)間不一致,應(yīng)剔除第一條行為記錄的時(shí)間重疊部分:——如屬于不同內(nèi)容且開始時(shí)間一致,應(yīng)保留行為記錄中結(jié)束時(shí)間較晚的,剔除其余記錄。6.5合理性清洗規(guī)則應(yīng)剔除在特定時(shí)間點(diǎn)開始的異常行為記錄,如批量重啟或采集故障等原因產(chǎn)生的行為記錄。5頻道編號(hào)A.1電視頻道編號(hào)(不含付費(fèi)電視頻道)對(duì)于電視頻道(不含付費(fèi)電視頻道),其頻道編號(hào)為10位,構(gòu)成形式為:7位播出機(jī)構(gòu)許可證編號(hào)+3位播出機(jī)構(gòu)內(nèi)頻道序號(hào),見圖A.1。播出機(jī)構(gòu)許可證編號(hào)見《地級(jí)以上播出機(jī)構(gòu)及頻道頻率名錄》《縣級(jí)廣播電視播出機(jī)構(gòu)名錄》。22圖A.1電視頻道(不含付費(fèi)電視頻道)編號(hào)構(gòu)成形式電視頻道(不含付費(fèi)電視頻道)編碼說明如下:a)第1位:機(jī)構(gòu)性質(zhì),1廣播,2電視,3廣播電視,4教育:b)第2位:機(jī)構(gòu)級(jí)別,1中央,2省,3地市,4縣:c)第3~4位:省編號(hào),如:00中央、01北京、02天津:e)第8~10位:頻道序號(hào),根據(jù)《地級(jí)以上播出機(jī)構(gòu)及頻道頻率名錄》《縣級(jí)廣播電視播出機(jī)構(gòu)名錄》“節(jié)目設(shè)置”中的頻道依次進(jìn)行排序。示例2:廣東廣播電視臺(tái)珠江頻道的頻道編號(hào)為321900A.2付費(fèi)電視頻道編號(hào)對(duì)于付費(fèi)電視頻道,其頻道編號(hào)為8位,為行政主管部門頒發(fā)的該頻道許可證編號(hào),構(gòu)成形式見圖圖A.2付費(fèi)電視頻道編號(hào)構(gòu)成形式付費(fèi)電視頻道編碼的說明如下:a)第1~2位:付費(fèi)電視頻道簡(jiǎn)稱,固定為PT;b)第3位:播出覆蓋范圍,0省內(nèi)覆蓋。1全國覆蓋;c)第4~5位:省編號(hào),如:00中央、01北京、02天津;7[1]GY/T350.2-2021網(wǎng)絡(luò)視聽收視大數(shù)據(jù)技術(shù)規(guī)范第2部分:數(shù)據(jù)元素集[2]GY/T361—2022電視播出節(jié)目信息即時(shí)傳輸技術(shù)規(guī)范[3]GD/J074-2018電視收視數(shù)據(jù)元素集規(guī)范[4]GD/J075-2018
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 三視圖小學(xué)生題目及答案
- 養(yǎng)老院老人生活照顧人員行為規(guī)范制度
- 養(yǎng)老院老人緊急救援人員福利待遇制度
- 養(yǎng)老院老人健康監(jiān)測(cè)報(bào)告制度
- 養(yǎng)老院工作人員職責(zé)分工制度
- 大專入門考試題目及答案
- 辦公室消防安全管理制度
- 鐵路四確認(rèn)制度
- 小藝考初試考哪些題目及答案
- 電商平臺(tái)支付流程設(shè)計(jì)原則
- 2025年鑄造原理考試試題及答案
- 2025全國注冊(cè)監(jiān)理工程師繼續(xù)教育必考題庫和答案
- 衣柜全屋定制設(shè)計(jì)方案
- ESG理論與實(shí)務(wù) 課件 第一章 ESG概述
- 食堂餐廳維修項(xiàng)目方案(3篇)
- 醫(yī)用手術(shù)器械講解
- 冰芯氣泡古大氣重建-洞察及研究
- DB37∕T 5031-2015 SMC玻璃鋼檢查井應(yīng)用技術(shù)規(guī)程
- 口腔腫瘤手術(shù)配合方案
- 新疆金川礦業(yè)有限公司堆浸場(chǎng)擴(kuò)建技改項(xiàng)目環(huán)評(píng)報(bào)告
- 2025至2030年中國武漢餐飲行業(yè)市場(chǎng)現(xiàn)狀調(diào)查及發(fā)展趨向研判報(bào)告
評(píng)論
0/150
提交評(píng)論