實驗室項目:1.實驗室方向面試
2.用兩分鐘介紹本身的項目,創新點在哪裏算法
我的項目: 1.本身實現的貝葉斯分類器,目的,怎麼作的數組
2.怎麼計算各個分類的先驗。(由於我使用的訓練預料是每一個分類10篇,沒有分類的先驗)指針
3 每一個主題有10篇文檔,假設有1W篇文檔,如何分到不一樣的主題中(我答的是計算與每一個文檔中其它文章的類似度,每一個doc用一個term數組來表示,數組中每位表示的是這個文檔中該單詞 出現的個數(過濾掉停用詞), 面試官提示會有漏掉的停用詞,我說用出現的次數除於TF, 面試官說這就是TF-IDF)調試
算法: 1.STL中set怎麼實現的,假設有「I like love」三個詞,如何存。每一個節點是直接指向這個單詞的指針嗎)文檔
2.假設有100W個單詞,如何存儲(我答的是trie樹,面試官問每一個節點會有不少子節點,每一個子節點是一個指針,佔用8個字節,如何節省空間,我說不知道,面試官提示雙數組trie樹)編譯
3.假設一個文檔,連續的K個詞,認爲是一個時間窗口,一個時間窗口的詞有關係,如何獲得全部的時間窗口。(當時記得有個算法,可是忘了,應該是k-shingle算法)變量
4. 不少單詞,如何計算單詞之間的類似度(或者對單詞進行分類)file
C++ : 1.程序有錯誤如何調試(回答打log,如何段錯誤,gdb調試core文件)引用
2.如何用gdb調試core文件,
3.如何想讓變量a=100的時候中斷,如何寫gdb代碼
4. Makefile文件,提示未定義的引用,是什麼緣由(我答的是使用C庫忘記加extern,其實應該是沒有在makefile指定編譯順序)
5. g++中-L,-I,-l的做用,有什麼區別。-l指定連接庫的時候,如何a庫依賴b庫,是否a庫必須放在b庫前面