jieba(傑巴)分詞的三種模式

jieba(結巴)是一個強大的分詞庫,完美支持中文分詞,作爲最好的Python中文分詞組件。搜索引擎

安裝:pip install jiebaspa

特色

支持三種分詞模式:code

  1.精確模式,試圖將句子最精確地切開,適合文本分析;索引

    import jieba

    strings = '今每天氣真好'
    seg = jieba.cut(strings,cut_all=False)
    print(','.join(seg))

        output :   今每天氣,真,好ip

     cut_all參數默認爲False,全部使用cut方法時默認爲精確模式string


  2.全模式,把句子中全部的能夠成詞的詞語都掃描出來,速度很是快,可是不能解決歧義;pip

    

      import jieba

    strings = '今每天氣真好'
    seg = jieba.cut(strings,cut_all=True)
    print(','.join(seg))

        output :   今天,今每天氣,每天,天氣,真好import


  3.搜索引擎模式,在精確模式的基礎上,對長詞再次切分,提升召回率,適合用於搜索引擎分詞。基礎

    

    import jieba

   strings = '今每天氣真好'
   seg = jieba.cut_for_search(strings)
   print(','.join(seg))

      output : 今天,每天,天氣,今每天氣,真,好搜索

相關文章
相關標籤/搜索