日誌:(CREATE BY WLC)
1:IEEE文章摘要爬取
①:運行Crawler目錄下的IEEE1024.php (16年10月24日)
②:運行根目錄下的IEEE1025.php(16年10月25日)
③:會議->http://ieeexplore.ieee.org/xpl/conhome.jsp?punumber=1000359
④:期刊->eg:IEEE Transactions on Image Processing http://ieeexplore.ieee.org/xpl/tocresult.jsp?isnumber=7331739&punumber=83 (past issue)
2:Springer文章摘要爬取
①:運行Crawler目錄下的Springer1025.php(16年10月25日)摘要變化較大
②:運行根目錄下的Springer1027.php(16年10月27日)php
3:ACM文章摘要爬取
①:運行Crawler目錄下的ACM1101.php(16年11月01日)
②:運行根目錄下的ACM1101.php(16年11月01日)
③:會議->http://dl.acm.org/proceedings.cfm
④:期刊->http://dl.acm.org/pub_series.cfm?id=J774 (table of content)
4: AAAI文章摘要爬取
①:運行根目錄下AAAI1104.php(16年11月9日)目錄連接獲取暫時省略
②:AAAI 16年份連接->http://www.aaai.org/Library/AAAI/aaai16contents.php,只替換連接中數字便可(16年11月9日)
③:AAAI會議彙總 ->http://www.aaai.org/Library/AAAI/aaai-library.php
5:SIAM文章摘要爬取
①:運行Crawler目錄下的SIAM1109.php(16年11月09日)
②:運行根目錄下的SIAM1109.php(16年11月09日)
③:期刊彙總->http://epubs.siam.org/loi/smjcat
6:ScienceDirect文章摘要爬取
①:運行Crawler目錄下的ScienceDirect1110.php(16年11月10日)目錄連接暫時省略
②:運行根目錄下的SIAM1110.php(16年11月10日)
③:期刊彙總->http://www.sciencedirect.com/science/journal/00043702/240
7: JMLR文章摘要爬取
①:運行Crawler目錄下的JMLR.php(16年11月11日)目錄連接暫時省略
②:運行根目錄下的SIAM1110.php(16年11月11日)
③:期刊->http://www.jmlr.org/papers/v17/
8: ①:修改數據庫finish字段1 -爬取完成 0 -待爬取 -1 -爬取過程出現問題
②:運行Crawler_YearAndLinks.php 得到會議、期刊 的年份、連接
③:運行Crawler_ConferenceAndJournal.php 獲取title 、author 、abstracts 、 links(2016/11/21)
注意點:
①:rsdb.sql數據庫中表paper_page_v2 中 finish 屬性中 1爲爬取完成的連接 0爲未爬取頁面 -1爲其餘狀況
②:index.php文件爲開發過程當中 *測試* springer爬取摘要
③:PHPJsonDecode.php文件爲 *測試* 模擬瀏覽器獲得HTML字符串(16年10月31日)
④:ACM(http://dl.acm.org/)對爬蟲的應對方案較爲完善,謹慎使用不然致使IP被暫時封掉
<用網站流量統計系統來改進實時反爬蟲系統 ><用時間窗口來改進實時反爬蟲系統 >(16年11月01日)
⑤:AAAI網站每年的AI會議在一個網頁上並無採用分頁,所以爬取的Array很是大開始致使內存溢出,後分批爬取取得效果較好(2016/11/9)
⑥:當獲取到大量文章題目、摘要、連接插入數據庫時,速度較慢,等待一小段時間檢測數據庫變化(2016/11/9)
⑦:遇到內存溢出問題首先應該是檢測php程序中沒有釋放的變量使用unset方法,再次就是修改ini文件的memory-limit=128M
默認128M能夠改大一些(2016/11/9)
spring