2023年常見的內(nèi)容治理問題有哪些?來看看這篇經(jīng)驗(yàn)分享_第1頁
2023年常見的內(nèi)容治理問題有哪些?來看看這篇經(jīng)驗(yàn)分享_第2頁
2023年常見的內(nèi)容治理問題有哪些?來看看這篇經(jīng)驗(yàn)分享_第3頁
2023年常見的內(nèi)容治理問題有哪些?來看看這篇經(jīng)驗(yàn)分享_第4頁
2023年常見的內(nèi)容治理問題有哪些?來看看這篇經(jīng)驗(yàn)分享_第5頁
已閱讀5頁,還剩7頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

常見的內(nèi)容治理問題有哪些?來看看這篇經(jīng)驗(yàn)分享寫這篇文章最可怕的就是涉及公司機(jī)密信息,反復(fù)檢查了好幾遍所舉案例。

寫這篇文章的目的,首先,這并不會(huì)涉及到公司機(jī)密。其次,我們治理過的這些問題大部分屬于內(nèi)容行業(yè)共存的問題,但對于不同公司的風(fēng)控人人員不肯定能夠關(guān)注全面。

所以準(zhǔn)備脫敏寫出來,風(fēng)控人員可以查漏補(bǔ)缺,盼望能夠?qū)?nèi)容行業(yè)產(chǎn)生一點(diǎn)關(guān)心,共同使行業(yè)更好。

在工作中,我負(fù)責(zé)公司社區(qū)生態(tài)治理,主要包括干掉壞內(nèi)容、干掉壞用戶、提升內(nèi)容質(zhì)量、提升用戶體驗(yàn)。這篇主要說干掉了哪些壞內(nèi)容、干掉了哪些壞用戶。

本文從以下幾個(gè)方面綻開來說:

治理內(nèi)容平安問題;治理內(nèi)容質(zhì)量問題;從用戶角度做治理;懲罰方式;治理閱歷。一、治理內(nèi)容平安問題

干掉壞內(nèi)容包括兩部分,一部分是業(yè)務(wù)型內(nèi)容,即業(yè)務(wù)不需要的這部分內(nèi)容,一部分是平安型內(nèi)容,即監(jiān)管部門讓刪除的內(nèi)容。

治理過的平安內(nèi)容許多,例如涉黃、危害青少年、引導(dǎo)錯(cuò)誤的價(jià)值觀、負(fù)面輿情等,這些是監(jiān)管部門明確要求不能存在的(這幾個(gè)好舉例,其他治理過的涉及平安的內(nèi)容不肯定適合舉例)。

二、治理內(nèi)容質(zhì)量問題

對于質(zhì)量型內(nèi)容,監(jiān)管部門不會(huì)來要求刪除,但平臺不盼望這類型內(nèi)容存在,例如有用戶5月份在多條帖子下大量評論“新年歡樂”,這個(gè)對業(yè)務(wù)來說,屬于低質(zhì)評論,需要治理的對象,下面將綻開說我們主要治理過的問題。

1.重復(fù)/改寫/抄襲

由于生產(chǎn)有嘉獎(jiǎng),用戶生產(chǎn)有成本,所以部分用戶有動(dòng)機(jī)將已經(jīng)生產(chǎn)的優(yōu)質(zhì)內(nèi)容復(fù)制,然后重新發(fā)布以便快速獲得嘉獎(jiǎng)。

為避開內(nèi)容同質(zhì)化,及平臺花錢買到低質(zhì)內(nèi)容,所以會(huì)治理這類型內(nèi)容。

從內(nèi)容形式上劃分可劃分為重復(fù)圖片、重復(fù)文本(也有重復(fù)視頻,但治理方式識別方式類似重復(fù)圖片,所以未單獨(dú)劃分)。

1)重復(fù)圖片

需要治理重復(fù)圖片是由于用戶消費(fèi)一段圖文內(nèi)容時(shí),會(huì)優(yōu)先看到圖片,若圖片相同,用戶會(huì)默認(rèn)為文本也相同,進(jìn)而認(rèn)為內(nèi)容同質(zhì)化。

若相同圖片消失次數(shù)較少,則可通過算法打散分發(fā),不讓同一個(gè)用戶在短時(shí)間內(nèi)看到相同圖片內(nèi)容即可。但若相同圖片消失次數(shù)較大,則較難由分發(fā)打散,且部分分發(fā)場景是timeline,算法不參加分發(fā)。

使用的識別形式包括兩種,一種是計(jì)算圖片md5,使用肯定相等,一種是相像圖模型識別。識別之后再結(jié)合一些策略,當(dāng)相像度達(dá)到肯定值,且相像或重復(fù)次數(shù)達(dá)到肯定量,且由≥肯定uid數(shù)量發(fā)布時(shí),則會(huì)對之后進(jìn)行發(fā)布的內(nèi)容進(jìn)行一些處理。

在這條通用策略之下,還會(huì)配置一些特別策略,例如針對某些場景/uid/md5執(zhí)行不同策略等。

2)重復(fù)文本

針對重復(fù)文本是和用戶不斷對抗的過程。

①用戶發(fā)布重復(fù)內(nèi)容,平臺開發(fā)重復(fù)模型,且將重復(fù)度≥肯定值的內(nèi)容判定為重復(fù)內(nèi)容。注:治理重復(fù)內(nèi)容本質(zhì)是盼望當(dāng)前線上不給用戶展現(xiàn)重復(fù)內(nèi)容,所以對比內(nèi)容庫僅為線上內(nèi)容。

②用戶對抗,用戶將之前發(fā)布的內(nèi)容刪除后重新發(fā)布,平臺將對比內(nèi)容庫增加已刪除內(nèi)容。

③用戶對抗,用戶通過刪除一頭一尾、替換部分文本、替換數(shù)字、更換不影響語義的標(biāo)點(diǎn)符號/無意義字符、刪掉部分內(nèi)容、替換同義詞、固定模板等方式,生產(chǎn)人工能快速推斷為重復(fù),但重復(fù)模型無法識別的內(nèi)容。平臺迭代重復(fù)模型,通過梳理用戶改寫的類型,迭代模型,使模型能夠識別出這些類型的重復(fù)內(nèi)容。

④用戶對抗,用戶通過隨便摘抄一段菜譜、名人語錄、歌詞、電影臺詞等,平臺通過制定審核規(guī)章,由人工推斷。

⑤用戶通過其他無法預(yù)知的方式生產(chǎn)重復(fù)內(nèi)容,平臺通過產(chǎn)品功能優(yōu)化來解決。例如:

要生產(chǎn)重復(fù)內(nèi)容,則會(huì)從一個(gè)地方復(fù)制然后在另一個(gè)地方粘貼,則可在粘貼提示、粘貼限制等產(chǎn)品功能上優(yōu)化;生產(chǎn)重復(fù)內(nèi)容的用戶有個(gè)共性,發(fā)帖量較大,則可對單位時(shí)間發(fā)帖上限做限制;有粘貼行為的用戶較也許率為重復(fù)內(nèi)容生產(chǎn)者,則可通過粘貼行為拎出用戶做離線數(shù)據(jù)分析,從用戶維度進(jìn)行處理;也可對新進(jìn)行用戶教育、新手引導(dǎo)、優(yōu)質(zhì)內(nèi)容引導(dǎo)等。注:以上僅為極簡的策略,在實(shí)際應(yīng)用場景上還有許多細(xì)節(jié)限制,例如重復(fù)文本的推斷僅針對字?jǐn)?shù)≥肯定值的內(nèi)容才執(zhí)行;例如評論場景和帖子場景會(huì)差異化的配置;例如重復(fù)模型迭代需要不斷發(fā)覺并梳理重復(fù)違規(guī)類型。

2.虛假信息

對于任何平臺都會(huì)存在虛假信息,這些虛假信息來自用戶主動(dòng)或不自知的生產(chǎn)。虛假信息雖然占比較低,但對用戶的影響很大??赡苁怯绊懹脩敉茢?、可能是了解到錯(cuò)誤信息、可能是進(jìn)入到一個(gè)錯(cuò)誤行業(yè)、可能是被騙錢財(cái)?shù)?,幾乎每一個(gè)都會(huì)對用戶造成較大負(fù)面影響。

不管平臺是盼望用戶能夠更信任平臺,還是從平臺擔(dān)當(dāng)著肯定社會(huì)責(zé)任角度來說,都需要治理虛假信息。

要治理虛假信息,第一個(gè)問題肯定會(huì)問:什么是虛假信息?

并不能說讓模型推斷,模型覺得是虛假的就是虛假。也不能讓審核人員自己推斷,他覺得是虛假就是虛假,那可能會(huì)消失審核人員A覺得是虛假信息,但審核人員B覺得不是虛假信息。

但也沒方法給虛假信息一個(gè)統(tǒng)一的定義,假如能給出,那肯定是去掉了許多細(xì)節(jié),是不具有可執(zhí)行性的一個(gè)定義。

所以只能看大量case、以及看用戶反饋、用戶舉報(bào)信息、審核反饋等,收集大量可能是虛假的信息。再自己推斷其中屬于虛假的信息,再劃分不同場景,依據(jù)每一個(gè)場景制定不同的標(biāo)準(zhǔn),定義清晰什么叫做虛假信息。

舉例我們制定過的幾個(gè)細(xì)分場景下的虛假信息的定義。

①外賣員、快遞員等,曬收入截圖,月收入超過肯定值,或日收入超過肯定值,則定義為虛假信息。從行業(yè)數(shù)據(jù)來看,能達(dá)到這個(gè)數(shù)值的用戶不到0.5%,相對虛假信息帶來的危害,平臺寧愿接受這部分誤傷的存在。

②男性,發(fā)布女性照片,并且表達(dá)意思為想相親,假如有大哥覺得合適可聯(lián)系我,則定義為虛假信息??山Y(jié)合用戶認(rèn)證信息、機(jī)器識別照片及文本語義來推斷。

③用戶在肯定周期內(nèi)過渡頻繁的在內(nèi)容中更換職業(yè),例如昨天的發(fā)帖說自己是理發(fā)師,今日說自己是電焊工,明天說自己是廚師,則推斷為虛假信息。由于正常用戶不會(huì)在這么短的周期內(nèi)這么頻繁的更換職業(yè),在我們內(nèi)部稱這類型用戶為“百變小櫻”。

此類用戶目的大多為吸引用戶聯(lián)系自己,以便進(jìn)行下一步詐騙。我們也會(huì)制定相應(yīng)的策略來識別,在肯定周期內(nèi)用戶發(fā)帖的身份大于等于肯定值,則會(huì)送人審,結(jié)合這個(gè)用戶的其他信息來推斷是否屬于百變小櫻(由于這個(gè)策略存在相對較高的誤傷,所以不能機(jī)器識別后直接處理)。

通過對虛假信息定義的閱歷,可形成以下四個(gè)步驟來定義治理問題的標(biāo)準(zhǔn)化流程。

步驟一:通過各種渠道掃瞄大量樣本,渠道包括自己掃瞄、用戶反饋、用戶舉報(bào)、審核反饋等。步驟二:針對樣本做特征分析。步驟三:總結(jié)歸納。步驟四:細(xì)分場景制定標(biāo)準(zhǔn)。3.話題不相關(guān)

話題不相關(guān)是指,內(nèi)容行業(yè)為了掌握生產(chǎn)方向,往往會(huì)產(chǎn)生話題,讓用戶基于話題進(jìn)行生產(chǎn)相關(guān)內(nèi)容。

但用戶在生產(chǎn)內(nèi)容時(shí),可能由于生產(chǎn)成本過高,或無力量生產(chǎn)相關(guān)話題的內(nèi)容,或其他緣由,會(huì)主動(dòng)去生產(chǎn)和話題不相關(guān)的內(nèi)容。

對于用戶消費(fèi)聚合內(nèi)容來說,這就屬于垃圾內(nèi)容,例如在一個(gè)聊AIGC的話題下包含一篇聊母豬的產(chǎn)后護(hù)理的優(yōu)質(zhì)文章,對于用戶來說是不需要的,在這個(gè)場景下屬于垃圾內(nèi)容。

對于識別和話題不相關(guān)的內(nèi)容,開發(fā)了話題相關(guān)度模型,依據(jù)相關(guān)度凹凸來打算給創(chuàng)多少嘉獎(jiǎng),及打算內(nèi)容應(yīng)用場景。

模型主要識別兩個(gè)方面。

一類是與話題不相關(guān),例如將話題復(fù)制一遍、內(nèi)容和話題完全不相關(guān)、答非所問、內(nèi)容完全無意義、同一領(lǐng)域但完全沒回答問題等。舉例:

話題:快遞派送前如何錄入系統(tǒng)?內(nèi)容:快遞派送前如何錄入系統(tǒng)?他們都在一各家一各減的少嗎?少馬國系統(tǒng)所以說相對來說還是比較麻煩的,只不過是少公路系統(tǒng),這樣的話基本上不會(huì)有酒駕的問題,我覺得還算是很不錯(cuò)的吧另一類雖然與話題相關(guān),但脫離話題的限定條件,例如話題限定了行業(yè)、需包含收入水平、限定了場景,但內(nèi)容并不包含相關(guān)信息。舉例:

話題:由于做焊工工作,你得了什么職業(yè)?。績?nèi)容:沒從事過焊工,不過倒是有職業(yè)病,比如筋膜炎等。4.水帖

來自百科的定義,水帖:水帖是貼吧、論壇或bbs中一種對于主題不重要的、無意義的帖子的統(tǒng)稱。

對于社區(qū)來說,內(nèi)容中充斥著水帖,會(huì)降低整個(gè)社區(qū)內(nèi)容質(zhì)量,成熟社區(qū)都會(huì)治理水帖。

在詳細(xì)治理過程中就需要生態(tài)治理產(chǎn)品去發(fā)覺水帖并總結(jié)歸納類型、思索是否需要治理、治理到什么程度、以什么工具治理、賜予什么懲罰等。

下面舉例一些制定過的策略、規(guī)章,以及使用過的識別模型。

①純文本,且字?jǐn)?shù)小于等于肯定值

通過分析歷史數(shù)據(jù)發(fā)覺,當(dāng)用戶發(fā)帖小于等于肯定值,且不帶圖片時(shí),對于我們平臺,這條內(nèi)容基本不具有消費(fèi)價(jià)值,就會(huì)以一種用戶無感知的不分發(fā)的形式處理。

舉例:啦啦啦、夕陽無限好、美妙的一天、湖州你好

②僅包含標(biāo)點(diǎn)符號、數(shù)字、emoji等

③部分uid在部分場景發(fā)帖/評論

用戶每次違規(guī)都會(huì)有記錄,也會(huì)扣相應(yīng)的分?jǐn)?shù),當(dāng)某些類型的違規(guī)在肯定周期內(nèi)達(dá)到肯定次數(shù),或肯定周期內(nèi)的扣分?jǐn)?shù)達(dá)到肯定值,則會(huì)對用戶進(jìn)行懲罰,即階梯懲罰。

舉例,用戶在7天內(nèi)發(fā)布水帖次數(shù)≥10次,則會(huì)將用戶在激勵(lì)場景的發(fā)帖或評論全部不賜予嘉獎(jiǎng)(注,這并非系統(tǒng)完整規(guī)律,也并非真實(shí)數(shù)字)。

④命中水帖治理詞庫

⑤多賬號多設(shè)備

若用戶同一個(gè)設(shè)備上肯定周期內(nèi)登錄過多個(gè)uid,或一個(gè)uid在多個(gè)設(shè)備上登錄過,分析這些用戶的歷史數(shù)據(jù),發(fā)覺較大量的存在無法識別的水帖(由于平臺策略是有限的,用戶違規(guī)方法是無限的,當(dāng)用戶了解平臺策略之后,會(huì)用各種方法逃過策略)。

所以會(huì)制定一條策略,當(dāng)用戶觸發(fā)「多賬號多設(shè)備」時(shí),則會(huì)將他內(nèi)容送入更嚴(yán)的模型,例如一般用戶對于低質(zhì)模型,達(dá)到0.9才懲罰,對于「多賬號多設(shè)備」用戶的內(nèi)容,則達(dá)到0.8就會(huì)懲罰。

⑥文本中包含某些關(guān)鍵詞,且文本字?jǐn)?shù)≤肯定值

在評論場景,當(dāng)把全部水帖內(nèi)容拉出來看時(shí)會(huì)發(fā)覺,水帖內(nèi)容也會(huì)有一些共性,例如字?jǐn)?shù)相對較短,雖然長尾很分散,但也會(huì)有一些頭部的高頻詞匯,例如紅紅火火恍恍惚惚、哈哈哈、支持一下、感謝共享、快樂每一天、打個(gè)卡、你好、感謝、加油等內(nèi)容。

對于一些短文本,這些詞為主要內(nèi)容,則可理解為水帖。假如是一段100字評論,里面包含這些詞,則不能認(rèn)為這是水帖內(nèi)容。假如不限制字?jǐn)?shù)或比例,則會(huì)很簡單消失誤傷。

但這對不同平臺的處理嚴(yán)格程度不同,我們平臺會(huì)選擇治理,其他平臺可能會(huì)選擇不治理。治理是由于寧愿用戶少看到評論,也不愿讓用戶看到低質(zhì)評論,以及避開帶來連鎖反應(yīng),其他用戶跟著學(xué)。

⑦非新年期間評論包含「新年歡樂」

這是在我剛開頭做風(fēng)控時(shí)做過的一條特別失敗的策略。

背景信息,分析歷史數(shù)據(jù)發(fā)覺,五月份有部分用戶在評論區(qū)大量發(fā)布「新年歡樂」相關(guān)評論,雖在設(shè)備、IP、賬號、注冊信息、登錄信息等均無關(guān)聯(lián)性,但從發(fā)布的內(nèi)容及發(fā)布內(nèi)容時(shí)間來看,基本可確認(rèn)是屬于同一個(gè)人或團(tuán)伙在操作。

且發(fā)類似文本的賬號在不斷新增,所以沒從賬號或設(shè)備維度進(jìn)行治理,而是僅從內(nèi)容維度出了策略,策略規(guī)律:在非新年期間評論新年歡樂及其變形的文本做自見處理(僅自己可見)。

這條策略失敗的點(diǎn)在于,只能解決了當(dāng)前存在的這個(gè)特定問題,未考慮這類問題在將來如何有一個(gè)通用的解決方案。例如用戶將「新年歡樂」變?yōu)椤钢星餁g樂」或「背包好看」就失效了,且用戶的變形成本極低。

例如可以計(jì)算單個(gè)用戶周期內(nèi)詞頻,肯定頻率可直接處理,肯定頻率可送人審。也可以計(jì)算全局周期內(nèi)詞頻,對于環(huán)比變化過大的詞可給人工預(yù)警提示等。

⑧低質(zhì)模型

低質(zhì)模型識別包含語句通順度、虛詞、感嘆詞、亂打字、文本無實(shí)際意義等規(guī)律,以及一些既定策略會(huì)融合進(jìn)模型。

雖然許多策略可融合進(jìn)模型,但由于策略的可解釋性強(qiáng),易調(diào)整等優(yōu)點(diǎn),還是會(huì)讓一些策略單獨(dú)存在,不融合進(jìn)模型。

以上一些案例幾乎都是從內(nèi)容維度來識別,進(jìn)而從內(nèi)容維度進(jìn)行治理,但在工作中還有較大一部分是從內(nèi)容維度識別,然后從用戶維度進(jìn)行治理,以及從用戶維度識別,從用戶維度治理,從用戶維度進(jìn)行治理將在下一章綻開說。

以上所舉例都是發(fā)覺了某些問題,然后進(jìn)行治理,但如何去發(fā)覺這些問題的,在這篇文章中有具體說:《風(fēng)控:上線一條規(guī)章/策略的完整流程》。

5.聯(lián)系方式

所說聯(lián)系方式包括圖片/視頻/音頻/文本中包含手機(jī)號、微信號、、網(wǎng)址、二維碼等聯(lián)系方式,以及以上內(nèi)容的變形。例如空格隔開、中英文、拼音、手寫、中文音異、電話通話截圖、半打馬賽克、形異、文本頭像結(jié)合、拍攝名片/拍攝二維碼/海報(bào)/宣揚(yáng)單/紙條/手寫聯(lián)系方式、手寫并簡潔計(jì)算,以及誘導(dǎo)聯(lián)系方式等。

我們不允許發(fā)布聯(lián)系方式,由于社區(qū)場景不需要聯(lián)系方式。并且經(jīng)分析歷史數(shù)據(jù)發(fā)覺,當(dāng)消失聯(lián)系方式時(shí),比較也許率會(huì)同時(shí)消失詐騙、刷鉆引流、廣告、逃單、隱私平安、線下風(fēng)險(xiǎn)、騷擾、賬號交易等,帶來危害比較嚴(yán)峻,且簡單漏識別,所以可從杜絕聯(lián)系方式角度降低詐騙、刷鉆引流、廣告等問題。

針對這些問題也會(huì)建設(shè)對應(yīng)策略來識別。舉例部分策略:

文本中數(shù)字或字母連續(xù)≥肯定值,則認(rèn)為這是連續(xù)方式;檢測電話、號、微信號、網(wǎng)址、二維碼;檢測數(shù)字+分段聯(lián)系方式;檢測變形聯(lián)系方式;檢測多昵稱拼接聯(lián)系方式;檢測多條回復(fù)拼接聯(lián)系方式;檢測含數(shù)字變形的聯(lián)系方式;檢測內(nèi)容包含惡意引流文本且檢測包含聯(lián)系方式;以及制定人工審核規(guī)章等;……一些案例:

點(diǎn)擊[http:/xxxxxxxx]查看表情看到你的留言了,佳沃k16rvvf7為我,A嗯6嗯0嗯5嗯9嗯3嗯9嗯8嗯妖霧氣嗚嗚妖吧妖霧三氣加v?yan七二四三九xx五想了解詢問我吧:壹肆柒xx伍零柒柒柒捌!?。。六七4420五xx久請連起來152號823室791廳66聊1??7??6??9??3??1??9??8??8??3????一三八0??一四七0??二八三欒城房源出租,三室精裝拎包入住??捶侩娫?80-3xx1-3401蘇星招美團(tuán)騎手,微信電話同步188..43812xx6中山市上門回收空調(diào)冰箱洗衣機(jī)紙皮等上門回收范圍中山市小欖東鳳東升古鎮(zhèn)橫欄需要回收舊電器和廢品的伴侶們可以私聊本人寶師傅①③⑥②O③⑧②②⑨各種廣告牌,安裝,設(shè)計(jì),制造,電話199。0161。xx27本人有一輛電動(dòng)車三輪車轉(zhuǎn)讓,有需要做各種小吃可以聯(lián)系我178?44xx?0758感謝讓每個(gè)家庭擁有一個(gè)懂健康的人,管理家人健康,遠(yuǎn)離各種疾病。一起學(xué)習(xí)溝通健康學(xué)問。18三,1五七,64四二昌黎上風(fēng)上水六加一電梯洋房二樓106平帶大下房,電話一,八。三!三五,(七;八。九/(五@9同微信,有意者聯(lián)系我喬家溝租個(gè)房子最好是獨(dú)院讓養(yǎng)貓養(yǎng)狗有的?176…~3616……xx19花都北門輕紡城自己的房子出租,一室一廳一廚一衛(wèi),需要的聯(lián)系,微信同號1八七六九零零三xx三6.廣告

絕大多數(shù)平臺都不允許,或者至少是不盼望平臺內(nèi)布滿用戶發(fā)布的廣告,只是不同平臺的處理方式不一樣。伴侶圈可能是折疊,小紅書可能是不給流量,其他平臺可能是無法審核通過。這些廣告由于大量重復(fù)、低質(zhì)、以及無法驗(yàn)證真假、影響公司其他業(yè)務(wù)、污染信息流等問題,平臺通常會(huì)選擇治理廣告。

對廣告的治理和虛假信息的治理類似,沒方法對「廣告」有一個(gè)統(tǒng)一的定義,所以得梳理case,在各個(gè)細(xì)分場景制定規(guī)章。

舉例一些制定過的策略;對廣告文本的檢測;對出租求租信息檢測、對聘請求職信息檢測;對屏蔽詞庫檢測、對刷鉆吸粉詞庫檢測、廣告法詞庫檢測;“連、起、來”開頭結(jié)尾黑產(chǎn)檢測;過引流模型;營銷反作弊數(shù)據(jù)檢測;以及制定相關(guān)的人審規(guī)章;……上面舉例的是一些識別廣告的策略,但從廣告特性上來說,用戶發(fā)布廣告絕大部分是盼望能夠與自己聯(lián)系,所以詳細(xì)在治理時(shí)大部分是從聯(lián)系方式、私聊角度來治理,會(huì)更高效。或者依據(jù)多條策略的結(jié)果結(jié)合來打算懲罰方式。

以下兩個(gè)案例為引流模型識別出來的內(nèi)容。

帶一些新人,看個(gè)人銀行額度賺錢,一天一萬+感愛好私聊詳談。押車借款利息低,額度高。注:還有許多類型內(nèi)容也屬于廣告,但會(huì)被劃分到更細(xì)的分類里面,例如「副業(yè)」類、「醫(yī)美」類。

7.不文明用語

對于不文明用語,在不同平臺的接受程度不同,我們平臺會(huì)治理辱罵及不文明用語,盼望給生產(chǎn)者及消費(fèi)者帶來一個(gè)更文明和諧的生態(tài)環(huán)境。

治理方式主要是辱罵詞檢測、辱罵模型檢測,以及人工審核。對于詞庫網(wǎng)上可找到公開詞庫,以及平臺自己不斷完善。對于辱罵模型,屬于中臺工具,業(yè)務(wù)只是應(yīng)用,模型詳細(xì)規(guī)律未有機(jī)會(huì)具體了解。對于人工審核規(guī)章,則會(huì)結(jié)合上下文本推斷。

8.其他類

有許多細(xì)分分類被治理過,除了前面綻開說的七種,還包括這些。

街拍視頻、網(wǎng)紅無意義擺拍等無消費(fèi)價(jià)值的視頻,對其他平臺可能屬于優(yōu)質(zhì)內(nèi)容,但對我們業(yè)務(wù)定位來說,則不需要這類型內(nèi)容;低俗類、軟色情類;重復(fù)領(lǐng)養(yǎng)、贈(zèng)送、配對;視頻帶水印,由于盼望用戶發(fā)布原創(chuàng)視頻,而不是從抖快等平臺盜視頻來發(fā)布;個(gè)人隱私,例如涉及完整的各類證件號、爆料某人,并且涉及家庭住址電話號碼等隱私信息;詐騙類,這其實(shí)也是一個(gè)大類,下面還可以劃分許多細(xì)分場景進(jìn)行治理,例如信用卡類詐騙、創(chuàng)業(yè)合伙類詐騙、相親類詐騙、理財(cái)類詐騙、東南亞聘請類詐騙、菠菜類詐騙;……9.治理中一些常用工具(模型力量)

重復(fù)模型、相像圖模型、低質(zhì)模型、網(wǎng)賺模型、涉黃模型、低俗模型、引流模型、辱罵模型、涉政算法等。

識別香煙、變形聯(lián)系方式、政治人物、明星、美女圖、emoji、血腥、暴恐、蠟燭、刀具、識別人體各個(gè)部位,包括腿/胸/肩/背/臀等。

業(yè)務(wù)進(jìn)行治理時(shí),大多數(shù)力量會(huì)應(yīng)用中臺力量,部分時(shí)候由于中臺無法供應(yīng)共性化力量或時(shí)間緊急等緣由,業(yè)務(wù)會(huì)自己開發(fā)模型。

三、從用戶角度做治理

我的工作是內(nèi)容治理,但許多狀況下內(nèi)容不易識別,會(huì)考慮從用戶角度來做內(nèi)容治理,從作弊動(dòng)機(jī)動(dòng)身。

對于我們業(yè)務(wù),用戶作弊動(dòng)機(jī)主要分為兩類,一類是發(fā)廣告,一類是通過做任務(wù)進(jìn)而獲得收益。

對于發(fā)廣告動(dòng)機(jī)的用戶,從內(nèi)容角度特性明顯,例如高頻發(fā)布重復(fù)內(nèi)容、都帶聯(lián)系方式、主要從非賺錢入口發(fā)布等,比較好治理,涉及到用戶相關(guān)只有用戶在短期內(nèi)多次發(fā)布廣告,然后拉黑用戶。

對于通過做任務(wù)獲得收益,用戶會(huì)有一個(gè)完整的作弊流程,如下圖:

正常用戶的流程:注冊→登錄→發(fā)帖/評論→獲得收益→提現(xiàn)。作弊用戶的流程:注冊→登錄→發(fā)帖/評論→多設(shè)備多賬號/相互評論/互刷流量/發(fā)重復(fù)圖等→低質(zhì)內(nèi)容→獲得收益→轉(zhuǎn)移金額→提現(xiàn)。作弊用戶的流程中每一個(gè)環(huán)節(jié)均有多種可作弊空間,例如:

①注冊/登錄,可能會(huì)涉及

惡意注冊、批量注冊、設(shè)備指紋黑名單、黑卡賬號、機(jī)器登錄、貓池、root、hook、篡改設(shè)備、安裝黑產(chǎn)工具模擬點(diǎn)擊App、篡改ua、安裝改機(jī)app、安裝云控App、短時(shí)關(guān)聯(lián)用戶過多、參數(shù)格式錯(cuò)誤、參數(shù)間不匹配、設(shè)備硬件信息不匹配等。

注:這些信息均為網(wǎng)絡(luò)公開可了解到的信息,不涉及公司機(jī)密,不代表我們公司全都用了這些,也并不代表我們公司只用了這些信息。

②發(fā)帖/評論,可能會(huì)涉及

發(fā)帖后刪除、短時(shí)間互動(dòng)量超過肯定值、以各種方式生產(chǎn)平臺不易識別的違規(guī)內(nèi)容、同一個(gè)人擁有多個(gè)賬號多個(gè)設(shè)備發(fā)帖、使用相同圖片等。

③獲得收益,可能會(huì)涉及

僅從在某些激勵(lì)場景發(fā)帖、僅給某些用戶互動(dòng)、互動(dòng)量主要來自某些用戶、互動(dòng)量主要來自某些渠道、掃瞄及被掃瞄數(shù)據(jù)特別,包括渠道/時(shí)間/用戶/用戶等級特別等問題。

④轉(zhuǎn)移金額,可能會(huì)涉及

由于平臺限制提現(xiàn)必需綁定微信,所以用戶會(huì)將多個(gè)賬號獲得的金額轉(zhuǎn)移到一個(gè)賬號上,然后進(jìn)行提現(xiàn)。

轉(zhuǎn)移金額特別,包括單次轉(zhuǎn)移金額、累計(jì)轉(zhuǎn)移金額、轉(zhuǎn)移金額對象、金額來源占比等的特別。

上面提到的某些行為可能會(huì)貫穿用戶生命周期全流程,例如機(jī)器模擬點(diǎn)擊,所以在接入策略時(shí)也需要在各個(gè)需要驗(yàn)證的場景均接入。

由上面可知,黑灰產(chǎn)可能會(huì)在各個(gè)環(huán)節(jié)作弊,一個(gè)完整的風(fēng)控方案也應(yīng)當(dāng)是全流程各個(gè)環(huán)節(jié)進(jìn)行防控。

舉例可參考的策略:

用戶有機(jī)器注冊、篡改設(shè)備、模擬點(diǎn)擊等行為時(shí)打上一個(gè)標(biāo)簽,但并不直接處理,會(huì)在用戶后續(xù)有其他行為時(shí)在結(jié)合這些標(biāo)簽打算是否需要處理;對獲得嘉獎(jiǎng)后刪帖的用戶拉入肯定周期的嘉獎(jiǎng)黑名單,例如用戶獲得嘉獎(jiǎng)后,將內(nèi)容刪掉,則此用戶在接下來幾天不行獲得嘉獎(jiǎng);觸發(fā)違規(guī)做任務(wù)用戶,限制做任務(wù);設(shè)置發(fā)帖上限,在肯定周期內(nèi)僅可發(fā)肯定量的帖,超過則提示臨時(shí)不能再發(fā)布;針對多賬號、多設(shè)備以更嚴(yán)的策略識別其內(nèi)容;識別為互評、刷流量不賜予嘉獎(jiǎng);降低金額轉(zhuǎn)移上限,用戶作弊會(huì)有作弊成本,降低轉(zhuǎn)移上限可提升用戶作弊成本,保持收益≤作弊成本,用戶會(huì)主動(dòng)放棄作弊。注:這個(gè)上限設(shè)置也需要掌握對正常用戶的誤傷;分析金額轉(zhuǎn)移數(shù)據(jù),針對收入來源特別、收入總金額特別、收入與等級不匹配等用戶,再結(jié)合其內(nèi)容及觸發(fā)機(jī)器模擬操作/改機(jī)等相關(guān)標(biāo)簽離線處置用戶。四、懲罰方式

在治理中,對內(nèi)容、對人,都會(huì)有許多處理方式,例如常見的通過、拉黑、刪除等。

1.對內(nèi)容

對內(nèi)容處理方式相對較簡潔,例如,包括通過、不通過、自見(僅自己可見)、沉貼(去個(gè)人主頁能觀察,但不分發(fā))、降權(quán)分發(fā)、僅在部分場景分發(fā)、加精選、置頂?shù)榷伎捎美斫鉃閷?nèi)容的處理方式。

2.對用戶

對用戶的要相對簡單些,但常見的可以根據(jù)以下這樣來劃分。

1)標(biāo)記

僅做標(biāo)記,不直接懲罰,例如機(jī)器登錄,在登錄時(shí)推斷為機(jī)器登錄,會(huì)依舊讓用戶進(jìn)行后續(xù)動(dòng)作,可結(jié)合后續(xù)動(dòng)作再打算是否處置。這樣好處是避開誤傷、環(huán)節(jié)更長黑灰產(chǎn)也更難摸清平臺的策略,以便削減變形對抗。

2)挑戰(zhàn)

策略、模型都有肯定誤傷,為了降低對誤傷用戶的損害,對觸發(fā)某些策略,則可讓用戶輸入驗(yàn)證碼、滑塊等方式做挑戰(zhàn),挑戰(zhàn)勝利則可以連續(xù)使用,挑戰(zhàn)失敗,則連續(xù)限制。

3)懲罰

階梯懲罰,每次內(nèi)容違規(guī)會(huì)對用戶扣分,在肯定周期內(nèi)分?jǐn)?shù)達(dá)到肯定值時(shí),會(huì)消失相應(yīng)功能限制。舉例,用戶在評論區(qū)發(fā)一條辱罵文本,則可以扣1分,但不懲罰用戶,假如在3天內(nèi)發(fā)了10條,扣了10分,就可限制用戶3天不允許評論。

黑白灰名單,最簡潔的理解就是將用戶拉黑,但是從限制主體、限制功能、限制時(shí)間上會(huì)有許多組合。

主體,可以是賬號、手機(jī)號、設(shè)備、身份證、銀行卡、微信等。

時(shí)間,可以是24h、3天、1個(gè)月、1年、永久等。

功能,可以是限制登錄、注冊、綁定、發(fā)布、點(diǎn)贊、查看、精選等。

組合起來舉一個(gè)例子就是,限制某個(gè)賬號在3天內(nèi)不能登錄,這就可理解為被拉入黑名單了。

注:黑白灰名單的組合假如做到足夠細(xì)致,幾乎可以有無限種組合,但需在滿意業(yè)務(wù)需求,和易用性之前做好平衡。據(jù)說淘寶有數(shù)百種懲罰方式。

柔性觸發(fā),即讓用戶做挑戰(zhàn)。

用戶教育,對于屢教不改的用戶,平臺可能會(huì)拉入黑名單,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論