組內有三人去考證了,只剩下6人前端
組員 | 分工 | 貢獻比例 |
---|---|---|
王永福 | 先後端,爬蟲,博客主體 | 30% |
孫承愷 | 建模,算法設計,統籌 | 18% |
邱暢傑 | 爬蟲 | 15% |
徐祖豪 | 前端數據可視化 | 13% |
張凌昕 | 前端數據可視化,部分博客 | 11% |
丁樞桐 | 數據可視化,聚類算法 | 13% |
GitHub
python
environment.yml
並上傳至GitHub,你們能夠去看package.json
中有,能夠yarn install
直接安裝
根據題目要求,咱們須要爬取相關數據,根據對題目的分析,以及對美團和大衆點評、高德地圖的前期調研,咱們認爲能夠將前三個評測目標劃爲一組,數據一塊兒爬取,由於它們須要的字段比較類似(能夠見上面的數據截圖);第四個目標咱們在美團上找不到數據,大衆點評難以爬取,所以轉向高德POI搜索爬取。git
美團的數據主要從手機版網頁爬取(PC版網頁沒有經緯度且須要計算token),使用Chrome Developer Tools模擬手機訪問網頁抓取數據進行分析,發現Cookie
只須要設置ci
和uuid
便可爬取,其餘仿照抓取到的請求設置。
github
爬取時須要注意美團反爬技術很是硬,須要不斷更換IP和ID,不然沒一會就會白給,早上咱們已經白給好屢次了。咱們的爬蟲理論上具有獲取全部數據的能力,但因爲瘋狂白給,最後只獲取了少許數據用於製做demo。web
另外高德API雖然不反爬,可是API有調用配額限制,爬多了也會白給。建議多準備幾個Key算法
獲取到數據後,須要對數據進行預處理以進行展現,對於不一樣的評測目標,採起不一樣的方法編程
將美團爬取到的數據按銷量降序排列,按商圈聚類,而後根據全局排名,分階梯對每個商鋪賦權,再將商圈內的商鋪權值求和,排序,獲得最受歡迎的商圈。json
這個比較簡單,直接按人均消費所屬階層聚類,組內排序,第一關鍵字評分降序,第二關鍵字人均價格升序。後端
兩條路:api
clustering
中的代碼生成從高德地圖爬取的數據參照第一個評測目標類似的方法處理
主要採用了Vue框架來管理視圖路由,AntV進行可視化展現,展現效果可見截圖。地圖部分採用了高德地圖JS SDK
理論上不須要這部分,可是沒用網絡感受很low,爲了高級一點,也爲了可擴展性,用Flask加了個服務端,動態提供數據
跟數據可視化一塊兒作了,頁面上的東西基本都是有交互的,餅圖有Tooltip,點擊下面的圖例能夠取消顯示某一類,作到部分展現。地圖能夠旋轉,改變俯仰角,熱力圖是3D的
能夠在可視化上作一些炫酷或者高級的交互,好比說:
若是能爬到大量數據
作一整個推薦平臺,同時收集用戶數據
在此次現場編程中我主要負責的是前端這一塊,在寫餅圖的時候,我剛剛開始不是很懂G2,而且在挑選餅圖形式的時候,比較不知道挑選哪一個比較好
多看一些模板,而且有的模板上會給一些註釋,讓我更瞭解G2的一些使用方法,用起來更容易。在餅狀圖格式的挑選上,先是選了一個不是太好看的,後來又選了一個比較合適的。
短期的分析和設計很使人煩躁,api接口沒開放增長工做量
化繁爲簡
數據難以爬取,token算法未知
對於美團爬取手機版頁面,採用代理池
對於大衆點評,放棄