2013.4.23 - KDD第五天

今天晚上郭宇航師兄從外面回來問我那天找他什麼事,而後咱們就開始討論KDD的第一個題目,其實第一個題目跟郭師兄的課題不太相關,原本想問他關於語義消 岐的那道題(第二道),不過第二題的內容我給忘了,而後咱們就開始討論第一道題,第一道題的內容說清楚了,而後師兄要看一下示例代碼,可是關鍵的地 方,SQL語句抽出來的特徵分別表明什麼被我忘記了,很是尷尬。討論的結果大概是這樣的:數據庫

  1. 能夠test驅動那種,可是別太過火,容易過擬合,當前榜上排前幾名都已靖97%的那幾個隊有可能就已通過擬合了,由於他們嘗試的次數太多。
  2. 能夠採用交叉驗證,留一塊訓練樣本用來測試,而後將測試的錯誤於標準答案對比,儘可能找到最有共性的錯誤,而後根據這個錯誤進行修改模型或者添加特徵。這個方法主意別過擬合。
  3. 能夠嘗試Bigram。
  4. 能夠嘗試構建本體,而後特徵分化,找上位詞,可是用關鍵字的話會比較稀疏,能夠嘗試一下。
  5. 能夠嘗試topic model,例如SVD LSA LSI。


還整理了一下咱們手裏如今都有哪些牌:測試

  1. 名稱
  2. 標題
  3. 關鍵字
  4. 機構
  5. 期刊/會議


後 來師兄提醒咱們,若是能使用外部數據的話,那麼參考文獻是很是強的特徵,另外師兄還說,若是不作成分類器,而是作成迴歸也不錯,畢竟最後答案不管正例反例 都要排序。迴歸的話個人理解就是按照相關度排序咱們只要統計一下相關讀界值就能夠了,小於這個界值的就算他不是這我的寫的,大於的就是,這樣自己就是排好 序的了。

而後晚上跟中秋進行了又一次探討,首先就是把晚上的SQL語句抽出來的特徵搞明白了,全部特徵大概是這樣的:排序

  1. 做者ID,外部鍵。
  2. 文章ID,外部鍵。
  3. 「該做者在該篇文章所在期刊上發表的論文總數」,固然這個做者在相同期刊發的數量越多說明他常常在這個期刊上發表文章,說明這個做者的這篇文章就頗有可能就是他本身寫的。
  4. 「該做者在該篇文章所在會議上發表的論文總數」,固然這個做者在相同期刊發的數量越多說明他常常在這個會議上發表文章,說明這個做者的這篇文章就頗有可能就是他本身寫的。
  5. 這個做者總共發了多少篇文章,一開始我看到這個特徵還有寫不解,可是中秋給我解釋說這個特徵仍是頗有道理的,這個雖然不能肯定這個文章個做者之間的關係,可是卻能夠肯定這個做者的存在性,或者說能肯定這條信息的肯定性,不過中秋說我還須要好好理解一下這個特徵的道理。
  6. 這個文章總共有多少個做者,道理同上。

然 後就是又讓中秋給我講了一下第二道題的意思,其實按照個人見解更應該說是共指問題,中秋說他對「消岐」這個詞也不是很理解,讓我去實驗室主頁或者哪一個地方 再調查一下。總的來講其實這題很顯然,就是數據庫中有三個高文老師(id不同),而後他們分別是中科院的,哈工大的,北大的。但事實上這都是同一我的, 你要作的就是對他們進行消岐。

最後中秋說有機會的話想讓我安排他們倆聊一下,由於他在想在topic model上面使勁,不過不是如今,還要再等等。。。

還有就是我說我SQL都不會,跟學長談得時候很尷尬,而後中秋說他把今天談的須要的資料包括SQL明天給我發到郵件裏面去。

其 他事情就是,今天晚上跟偉傑料了一下關於編譯器的事情,我說我想放棄,改爲遞歸降低分析直接作個Lisp的語法得了,實在不行我就用鄭茂和韓冰的那個。然 後偉傑的意思是如今放棄仍是太早了,畢竟下週的下週纔是DeadLine,還有不少掙扎的餘地,並且就算是遞歸降低仍是要寫First集的,偉傑對我很鼓 勵,認爲我必定能作出來。遞歸

相關文章
相關標籤/搜索