上個月用 go 語言寫的,超低性能的服務器,爬了一個晚上,兩百多萬條評論。當時簡單的分析了一下,後來就去忙考試了。最近又搞了搞,不過發現目前淘寶 ip 禁的比較嚴,已經不能用了,原本想發代碼的,如今就不發了。目前正在嘗試用代理 ip 解決。mysql
下面是簡單統計的數據。感受挺好玩兒的,好比說在我統計的幾種顏色中,購買黑色胸罩的比例居然佔百分之 40 ,還有 B 罩杯佔百分之 44 ,購買最多的型號是 75B 。git
讓女朋友作了一個簡單的展現頁面:http://nladuo.github.io/bra/github
不過感受最好玩的仍是評論了,有不少不少巨好玩兒的評論。數據庫(mysql)文件上傳百度雲了。我也不會分析數據,用了分詞的庫統計了一下發現出現多的詞中,最多也就提到「聚攏」什麼的,沒什麼更勁爆的東西了。sql
如今把數據貢獻出來,但願誰能搞出點有意思的東西出來。數據庫
連接: http://pan.baidu.com/s/1dDKmUyP 密碼: 26avjson
本身統計的結果:服務器
{ "basic": { "A": 522759, "B": 788989, "C": 330960, "D": 105859, "E": 29815, "F": 8892, "G": 1941, "H": 197, "whole": 1789437 }, "color": { "whole": 1127046, "橙色": 6216, "白色": 86558, "粉色": 102015, "紫色": 87117, "紅色": 192999, "綠色": 40261, "藍色": 142403, "黃色": 17923, "黑色": 451554 }, "detail": { "50D": 8, "50E": 21, "50F": 13, "55C": 38, "58D": 2, "60B": 2, "60C": 1, "63J": 1, "65A": 313, "65B": 519, "65C": 10, "65D": 1, "65E": 3, "65F": 3, "70A": 131106, "70B": 100451, "70C": 21934, "70D": 5357, "70E": 1769, "70F": 227, "70G": 84, "74A": 6, "75A": 210992, "75B": 309069, "75C": 85157, "75D": 20146, "75E": 5690, "75F": 1791, "75G": 292, "75H": 30, "75I": 4, "80A": 129422, "80B": 230519, "80C": 96942, "80D": 27112, "80E": 6699, "80F": 1899, "80G": 407, "80H": 40, "80I": 3, "80J": 1, "82B": 3, "85A": 45166, "85B": 124980, "85C": 85214, "85D": 27887, "85E": 7456, "85F": 2128, "85G": 355, "85H": 43, "85I": 5, "85J": 2, "90A": 5157, "90B": 18612, "90C": 31325, "90D": 16094, "90E": 4965, "90F": 1556, "90G": 323, "90H": 41, "90I": 4, "90J": 4, "95A": 597, "95B": 4834, "95C": 10339, "95D": 9252, "95E": 3212, "95F": 1275, "95G": 480, "95H": 43, "95I": 1, "whole": 1789437 } }
------2017年5月更新-------
代碼整理到了: https://github.com/nladuo/tao...性能