當我把政策中的關鍵詞提取出來以後,根據關鍵詞之間的關聯關係以及關鍵詞出現的頻率,繪製了一張星星點狀圖。而且將關鍵詞分紅了4個維度,即政策服務的領域、政策針對的對象、政策在企業發展方面的調整以及政策所採起的措施。用戶能夠選擇性的查看某一方面的關鍵詞以及關鍵詞之間的關聯關係。數據庫
可是遇到的問題是,關鍵詞太多了,每篇政策中大約有7個關鍵詞,現有的的政策共有6702篇,把關鍵詞加起來去重後有5000多條關鍵詞,要是把全部的關鍵詞都顯示出來,會很是亂,關聯的線條會很是多。
目前的作法是只顯示出現頻率最高的300個關鍵詞以及之間的關聯關係,可是通過仔細分析以後,發現並無太大意義,僅僅能夠看出來哪些詞在政策中出現頻率較高以及哪些詞一般一塊兒出現。對於政策的內容統計並不具備表明性。對於進一步的統計分析不具備可行性。事實上,那些更具備表明性以及現實意義的關鍵詞每每出現頻率並不高。
進一步,僅僅經過關鍵詞,很難猜想到政策中具體是如何描述的,經過關鍵詞之間的關聯關係也難以看出它們之間表明的意義。若是能夠從政策中把相關關鍵詞的關鍵句子提取出來,對這些句子按照內容進行聚類,就能夠分幾個層面去剖析一個關鍵詞了。
目前須要作的是:
1. 前臺須要可以展現少許清楚的,具備實際意義和表明性的,在全部文檔的關鍵詞中出現頻率可能並不算高的關鍵詞。
2. 可以查看關鍵詞背後,具體包含了哪幾個方面的內容,好比「科技成果轉化」,國家對「科技成果轉化」具體又有哪些要求,政策上有哪些變動,目前處於什麼狀態,須要經過關鍵詞背後的句子來作具體分析。
初步的計劃的是:
1. 關鍵詞之間關聯關係展現的政策範圍由用戶自定義,用戶能夠選擇哪一個時間區間內的,哪些部門下發的科技政策來作具體統計和展現,原則是區間儘量短,部門儘量不要太雜,如此便能展現高質量且有實際意義的關鍵詞關聯關係圖。
2. 在圖上,當用戶選擇某個具體的關鍵詞時,能夠顯示這段時期,這些部門發佈的政策中,此關鍵詞對應的描述性的句子,而且對這些句子進行分類和聚類,能夠從多個層面去剖析這個關鍵詞。
難點主要在於可維護性和可擴展性兩方面。如何在數據庫儘可能少的狀況下,更多的提供可選擇的條件進行查詢效果的展現?
數據庫中有來源分佈不均勻的政策文件,在進行相關分析的時候,須要對不一樣級別的政策設置不一樣的權重。關鍵詞還須要進一步優化。優化