爲作個程序員英語字典,我處理了StackOverflow和HackerNews10年5千萬條數據

有點標題黨,不過都說都真實的。英語技能對開發員人員相當重要。全部人都不喜歡背單詞,但更慘的是背住的單詞發現沒怎麼用,又慢慢地忘記了。原本計劃給本身作個開發人員經常使用單詞表,感受可能對其它人也有用,因此就發佈開源出來。 node

單詞列表託管在Github上,一共將近3000個。python

https://github.com/kkyon/Simple-IT-Englishgit

單詞主要來自:StackOverflow 和HackerNew、github

 

Word Source:

Source Newest Post Oldest Post Row Count Size
HackerNews comments 2015-10-13 08:44:02 UTC 2006-10-09 19:51:01 UTC 8399417 3.41 GB
HackerNews stories 2015-10-13 08:44:34 UTC 2006-10-09 18:21:51 UTC 1959809 402.71 MB
StackOverflow answers 2019-09-01 05:22:21.463 UTC 2008-08-01 13:16:49.127 UTC 27665009 22.27 GB
StackOverflow questions 2019-09-01 05:23:41.743 UTC 2008-08-03 21:38:52.623 UTC 18154493 28.13 GB
48.8 GB processed




1 . 大數據部分使用了Bigquery, 使用很是簡單。
技術棧是:大數據

2. NLP部分使用NLTK.spa

3. 最後使用python腳原本生成Markdown文件。 具體代碼在github上都有。 後面加個v2ex地址: 開發

相關文章
相關標籤/搜索