PC端目前有三類四種知乎搜索的方法:算法
(注:手機端微信內支持知乎搜索。)微信
第一類天然是知乎網頁內部直接搜索(zhihu.com)工具
第一類是:搜狗知乎搜索(https://zhihu.sogou.com/)大數據
第二類是:主流搜索引擎的站點內搜索。搜索引擎
一是百度:如搜索框:姬無命 site:zhihu.com人工智能
百度能夠不用輸「site:XX.com」搜索框下邊就是搜索工具。谷歌沒有單列出搜索工具,須要添上。spa
二是谷歌:如搜索框:姬無命 site:zhihu.comblog
如下對4種方式進行對比,關鍵詞是「姬無命」排序
百度搜索:索引
搜索結果多達76頁,按每頁10個條目計那就是760個搜索結果。基本是涉及到完整的「姬無命」的回答都出現了一次。
谷歌搜索結果:
共28頁的1760條結果
知乎內部搜索結果:
不顯示條目數,目測應當是最多的。
能夠看得出知乎自己搜索與搜狗知乎搜索結果並不重合。
評價搜索的好壞包括兩個問題:搜索結果和結果排序。這兩問題都屬於搜索算法。
最終結論:谷歌站內搜索≈百度站內搜索>搜狗知乎搜索>知乎內部搜索。
一次搜索流程主要包括 Query 解析、召回、排序幾個階段。
用戶輸入 Query 以後,首先要進行 Query 解析,生成查詢 Query Tree 和語義表示向量。以後進入多隊列的召回模塊,召回階段從召回方式上說能夠分爲倒排召回和向量召回,在這一環節會篩選出前400的文檔進入到排序階段。排序階段又分爲精排和重排序兩個環節,精排階段經過模型對多召回源的文檔進行統一打分,以後將 Top16的文檔送入重排序模型進行位置的微調,最終呈現給用戶。
以上每個階段都是很重要的,算法的好壞決定了最終你閱讀到搜索內容的相關程度和滿意度。
搜索是技術方向輻射至關廣的一個複雜系統,其技術門檻之高,在衆多的互聯網產品中能與搜索比肩的是少之又少。要想玩轉這套系統,擁有一批最優秀且懂搜索的工程師和研究員是必不可少的。想解決的話,知乎可能須要5個熟練工幹大半年。在我看來,這種團隊配置做爲站內搜索差很少能解決大部分基礎問題,即達到不被「處處」抱怨。但若是要求再高一點點,能稍」智能」地處理用戶查詢,那麼這種團隊配置恐怕仍是望成莫及。
固然搜索也毫不僅僅是一我的力問題,支撐搜索的人工智能技術正在」經驗主義」(以統計學爲表明)的道路上享受着大數據(特別是用戶行爲數據)的紅利。
從一個特定站點出發,即便是一個格調高、深受用戶喜好的站點,其可以接觸到的數據不管是用戶羣體行爲數據仍是全網的信息資源都是十分有限的。
用戶對於全網通用搜索和站內搜索的指望的差異僅在於搜索範圍從全網變爲這個特定站點,但搜索用戶天生的」懶惰」、表達含糊以及對搜索結果智能的期待從未改變過。並且因爲用戶對他所喜好的站點的瞭解、熟悉程度遠遠超出其對全網的瞭解,因此用戶對搜索服務所存在的各類問題更爲敏感,從而也有更高的要求。
正是這種數據侷限所帶來的技術水平侷限與用戶需求之間的矛盾,使得原生站內搜索註定就是一件不太可能成功的路。
爲何知乎站內搜索沒有通用搜索(例如百度、搜狗)的site查詢好用?
知乎搜索體驗不理想,存在多種問題,但這些問題毫不是知乎僅有的問題,也不只僅是人力投入的問題。
搜索一個異常複雜的系統,好的搜索體驗須要技術的沉澱與積累,須要海量數據特別是海量用戶行爲數據的支撐。
站內搜索就於其在搜索方向的積累、其能接觸到的數據,像知乎這樣面對高標準嚴要求的用戶,註定不易作到用戶滿意。
知乎官方搜索負責人也解釋過爲何沒有接入 SITE(通用引擎的站內搜索)
儘管線上問題不少,解決起來也不容易,但考慮從知乎搜索能到達的理想狀態,咱們仍然不甘心簡單接入一個 SITE 語法搭建的站內搜索了事。
一個重要緣由是,知乎搜索是貫穿整個知乎平臺的重要基礎功能。搜索對於整個產品的效率都有很大影響。
另一個重要的緣由是:知乎的內容不只僅是一個個網頁。知乎上用戶與內容之間豐富的互動信息能夠幫助搜索引擎識別哪些內容更爲重要,數據富集度和準確度遠遠高於[PageRank],同時,知乎的內容自然有人的屬性,而這應該被用來知足知乎特有的搜索需求。好比:
個性化-與你相關的內容能夠有更好的排序,你曾看過的、點過贊同反對的、關注過的話題裏的內容等,搜起來應該更容易。
社會化-你關注的圈子中用戶的贊同、反對、感謝和評論能夠更好的幫助你定位你找的內容。
通用引擎的站內搜索確實能簡單快速解決目前不少的搜索痛點問題。但對知乎來講它是沒有生命力,或者說提升空間很是有限的。咱們但願知乎上的內容能被更好的搜索,知乎獨有的用戶需求能被更好的知足,因此咱們並無選擇這個明顯更爲容易,也是一部分網友建議的方案。
關於 知乎內部 搜索的發展歷程,以下:
參考:
爲何知乎的搜索功能如此之爛? - 張前川的回答 - 知乎
https://www.zhihu.com/question/26617244/answer/70731152
爲何知乎的搜索功能如此之爛? - 許靜芳的回答 - 知乎
https://www.zhihu.com/question/26617244/answer/70802668
知乎搜索排序模型的演進
https://mp.weixin.qq.com/s/DZZ_BCiNw0EZg7V0KvhXVw
知乎搜索文本相關性與知識蒸餾
https://mp.weixin.qq.com/s/xgCtgEMRZ1VgzRZWjYIjTQ