使用jieba所遇到的bug

1.在spark與結巴結合使用時,在主節點load一次字典,該字典只存在於spark的driver裏面,但是worker進程無法共享這段內存,會導致分詞時字典沒用上,解決方法,在每個mapPartitions函數裏添加jieba字典標識位(jieba.dt.initialized): if not jieba.dt.initialized: jieba.load_userdict('use
相關文章
相關標籤/搜索