《商業數據分析》讀書筆記(十)

10.呈現和挖掘文本 基本概念:構建易於挖掘數據呈現的重要性;爲了數據挖掘的文本呈現 主要技巧:詞袋呈現;TFIDF計算;N-grams;填充;命名的實體抽取;主題模型 爲什麼文本重要 爲什麼文本困難 呈現 詞袋 詞組頻率 測量稀疏性:逆向文件頻率 組合它們:TFIDF 例子:爵士音樂家 *IDF和熵的關係 詞袋之外 N-gram 序列 命名的實體抽取 主題模型 例子:挖掘新聞故事預測股票變動 任
相關文章
相關標籤/搜索