(一)、社區反垃圾化之文字重複率檢測

(一)、社區反垃圾化之文字重複率檢測

序言:app

隨着用戶量的增加和內容化過渡化增加,總會有一些不壞好意的人在你的產品或者應用中留下一些垃圾,這些垃圾並非傳統意義的垃圾,而是指互聯網上的垃圾文本、垃圾郵件、垃圾圖片、垃圾媒體信息等,這些東西就像漂浮在水中的垃圾同樣,一步步的破壞着產品的水質,因而於產生了反垃圾系統(進行敏感、垃圾信息的過濾系統。主要有:垃圾郵件攔截、微博廣告過濾、彈幕、直播等場景),本博客將會一步步的實現一個簡單的反垃圾系統雛形.測試

1.反垃圾流程
要進行反垃圾,首先咱們須要進行了解一下基本反垃圾流程.
imagespa

2.反垃圾內容檢測code

當咱們從服務端獲取到用戶發送過的內容後,咱們須要對其甄別是否爲垃圾內容,而後決定是否放行該內容.blog

場景A:某BBS論壇評論區常常有用戶灌水,場景內容以下:圖片

A:今天寫夠15個字、哈哈哈哈哈哈哈哈哈哈哈哈哈.
B:帥哥加我v 帥哥加我v 帥哥加我v 帥哥加我v 帥哥加我v 帥哥加我v

防禦分析:在目前這段文本中,含有大量的重複內容信息,達到整串文本的50%,咱們能夠經過字符重複率來進行判斷是否爲低質量或垃圾內容.字符串

3.技術實現get

1.拆解文本爲字符串
2.分析字符所佔比率博客

下面經過PHP代碼獲取實現了一個文字重複次數直播

function getStrRepeatRate($str)
{
    $strArr    = mb_str_split($str);
    return array_count_values($strArr);
}

測試文本A:今天寫夠15個字、哈哈哈哈哈哈哈哈哈哈哈哈哈

效果以下:
image

在以上21個字符中,其中「哈」字出現了13次,佔全文比率:61%,咱們還能夠去複合字符重複最多的三個字來進行計算,佔到全文的必定比率,即可以認定爲低質量內容或垃圾系統.

尾:
雖然會存在必定誤傷,但內容的鑑定每每仍是一套組合拳,只有結合起來才能發揮最大的威力,本篇敘述的就暫且這麼多啦.Happy Coding!

image

相關文章
相關標籤/搜索