百度谷歌算法怎麼識別僞原創大揭祕

首先我寫的這篇文章徹底源自本人長期觀察總結,若是有何不妥請指正。畢竟我研究SEO也有一段時間,雖說SEO的最高境界是忘記SEO,可是SEO技術也仍是很是有趣的,我研究SEO技術純粹是我的興趣,寫這篇文章也是給各位站長作一個很好的參考。
一、搜索引擎會自動過濾「的,了,呢,啊,兒」之類的重複率很是之高的對排名無幫助的習慣性常語。
二、這裏要談的是爲何有時候在轉換近義詞時會無效,下面就算是我我的的經驗總結了。既然市場上有一堆僞原創工具可以將詞語僞原創好比:將「電腦」僞原創爲「計算機」,那麼有什麼理由不相信強大的搜索引擎不會僞原創?因此確定的,搜索引擎必定會近義詞僞原創,當搜索引擎遇到「電腦」和「計算機」時,會將他們自動轉換這裏姑且假設爲A,因此不少狀況下的近義詞僞原創不收錄的緣由。
三、這裏要談爲何有時候不只近義詞轉換了而且打亂句子與段落依然無效。當搜索引擎過濾掉無用詞,並將各種近義詞轉化爲A,B,C,D後開始提取出這個頁面最關鍵的幾個詞語A,C,E(這裏舉個例子,實際可能提取的關鍵字不是ACE三個而是1個到幾十個都是說不定的)。而且將這些詞進行指紋記錄。這樣也就是說,近義詞轉換過的而且段落打亂過的文章和原文對於搜索引擎來講是會認爲是類似度很高的。
四、幾段更深層次解釋爲何幾篇文章段落重組的文章依然可能會被搜索引擎識別出。首先既然百度可以生成指紋天然也能解碼指紋,段落重組的文章不過是重要關鍵字的增長或者減小,這樣好比有兩篇文章第一篇重要關鍵字是ABC,而第二篇是AB,那麼搜索引擎就可能利用本身一個內部類似識別的算法,若是相差的百分數在某個值如下就放出文章而且給予權重,若是相差的百分數高於某個值那麼就會判斷爲重複文章從而不放出快照,也不給予權重。這也就是爲何幾篇文章段落重組的文章依然可能會被搜索引擎識別出的緣由。
五、我要解釋下爲何有些僞原創文章仍然能夠被收錄的很好。我上面的推理只是對於百度識別僞原創算法的大體框架,實際上谷歌百度對於識別僞原創的工做要更加龐大而且複雜的多,谷歌一年就會改變兩百次算法足以看出算法的複雜性,爲何某些僞原創的文章依然能夠被收錄的很好--會有兩個緣由:
1)網站自身權重高,哪怕不爲原創照搬別人的文章仍是百分之百會被收錄給予權重。
2)搜索引擎絕對不可能完美到過濾全部僞原創,這是不可能的,就好像人工智能的圖靈永遠沒法完美到擁有人類的情緒同樣。
我的建議:
1)各位作垃圾站羣的朋友們注意了,大家在能夠撈一筆的時候就盡情撈一筆吧。可是也但願大家可以考慮下從此是否是有別的方向能夠作?若是百度一會兒更改某些算法使得判斷僞原創更智能,哪怕是一些細小的變更也可能就是大家的滅頂之災吧。另外今年穀歌也對垃圾站宣戰了,呵呵大家本身看着辦吧。
2)好消息:各位老老實實寫原創的站長們,大家絕對選對路了,BUT同時也注意下本身的版權問題哦。算法

相關文章
相關標籤/搜索