做者 | 白璵瀏覽器
對於運維工程師而言,若是要票選五大最抓狂運維支撐場景,花樣繁多的各類促銷活動必定榜上有名。每一個促銷季上線都是忐忑不安的不眠夜。大量內容更新、大量客戶涌入,大量數據讀寫,雖有着各類技術方案或工具服務保障着大促順利進行。但仍有可能收到譬如「商品圖片加載不出來」、「頁面打開緩慢」、「沒法完成訂單支付」等諸多各地用戶投訴。這些因爲用戶體驗與網站性能形成的用戶轉化低、業務增加緩慢等糟糕結果,最終都會讓運維工程師成爲「衆望所歸」的背鍋俠。網絡
「用戶體驗與網站性能」
針對「用戶體驗與網站性能」問題,咱們與衆多企業運維工程師以及獨立站長展開訪談,發現你們的觀點集中在如下方面:架構
一、「產品與用戶體驗之間的差距」帶來的性能與體驗問題
因爲互聯網紅利消退,產品功能與用戶體驗設計愈加內卷。產品功能邏輯設計與用戶使用時的理解存在差距,大量秒殺活動、推廣活動、UGC內容讓產品邏輯愈發複雜,哪怕提供了各類引導與說明文檔,用戶仍然須要時間理解並培養使用習慣。與此同時,爲了讓功能模塊進一步豐富,大量富媒體、第三方組件、客戶廣告不斷被添加進來,對外合做內容過多且不合理,加劇系統負載,拖累產品性能。既要、又要、還要,最終的代價就是不得不犧牲必定的網站性能與用戶體驗。併發
二、「錯綜複雜的網絡環境」帶來的性能與體驗問題
衆所周知,全國各地充斥着各類各樣一級、二級運營商,這大幅提高了全國網絡環境複雜度,因爲運營商基礎架構更新慢、突發性人爲問題多,形成會常常性的IDC故障,企業只能安撫用戶並躺平等待修復,而這些問題的排查耗時都只能聽天由命。與此同時,廣闊的地域分佈、零散的用戶分佈及個性化入網方式形成接入網絡複雜,企業對於用戶使用環境沒法有效估量。哪怕藉助普遍分佈的數據中心以及多線BGP接入,想要解決網絡環境問題仍舊捉襟見肘,這進一步加重了網絡環境的優化難度,讓真實用戶的實際使用體驗更加難以預測。運維
三、「差別明顯的PC端環境」差別帶來的性能與體驗問題
做爲世界上擁有最大網民規模的國家,我國這些海量用戶規模背後是巨大的用戶端硬件配置差別,可能有人使用着 i9-11900K+RTX3080 Ti 在 bilibili 上看 4K 高清直播視頻,也有人用着千禧年發佈的 Pentium 4 與集成顯卡在門戶網站瀏覽文字新聞。這形成不一樣瀏覽器版本、自身渲染機制、本地主機性能差別的不一樣羣體,存在譬如訪問異常、慢速、本地資源消耗等用戶體驗差別。面對這一情況,如何去了解廣大用戶實際體驗狀況,平衡或評估用戶端體驗差別,在其中進行取捨成了每一個網站運維與研發必須面對的難題。高併發
四、「追求迭代速度的後遺症」帶來的系統可用性保障問題
因爲互聯網競爭瘋狂內卷,產品在功能窗口期與精細調優這道選擇題上,不得不選擇性忽視產品架構與穩定性。架構不嚴謹、業務發展超越架構支撐能力形成系統負載過載、致使系統崩潰、響應超時等問題,形成這一問題的因素不少:工具
首先,業務迭代速度很是快,侵入式監控手段沒法在短期落地,但業務系統出現故障時須要快速感知;性能
其次,開發資源緊張或不配合,基礎設施相關監控又不能直接反應業務問題,應用監控實施成本過高。測試
最後,自身應用調用第三方API接口,第三方API接口的可用性沒法保障,出故障了沒法及時響應和處理。優化
拆解來看,咱們會以爲這些都是單點問題,但業務上量後出現連鎖反應,就會將這些問題疊加放大,直接影響用戶體驗。
五、「缺少用戶視角的監控手段」致使應對客訴比較被動
雖然產品功能在上線時會通過各類測試,運營團隊也持續關注用戶使用狀況。但對運維團隊而言,只有客戶投訴後才知道系統發生了問題,應對起來十分被動,甚至異常復現、定位問題可能就要花費一天時間,嚴重影響NPS;常見監控手段也大多從自身視角出發,沒法直觀反映用戶的問題。
實際場景中遇到的問題及緣由
那麼,面對這麼多的影響因素,咱們到底該如何以真實用戶視角去對本身網站進行測試,量化網站用戶體驗,定位網站性能瓶頸?這裏,咱們以電商行業營銷活動舉例。隨着競爭愈加激烈,雙11、618 等促銷活動成爲電商等泛交易行業的年度重要營銷活動。但大量用戶的短期涌入,會形成網站加載延遲,或業務服務卡頓等影響用戶體驗的問題。
具體問題包括:
-
上線前,沒法模擬真實用戶,測試峯值用戶高併發訪問時的產品實際體驗狀況。
-
對於用戶實際的瀏覽路徑路程沒有準確評估,沒法定位轉化瓶頸環節,不知道如何優化。
-
大促階段商品信息更新較頻繁,更新後常常收到各地用戶投訴「商品圖片加載不出來」、「頁面打開緩慢」等投訴。
-
同業競品活動性能狀況沒法獲取,無法瞭解競品營銷態勢變化。
在過往,以上問題都難以解決,具體難以解決的緣由包括:
-
雖然有任務牆等方式,但運維團隊沒法找到足夠多且符合實際需求的真實流量進行產品用戶體驗測試,採購相關流量又耗時又昂貴。
-
營銷大促廣泛產品上線窗口期十分緊迫,留給研發團隊的交付時間相對有限。想要加入相關侵入式探針來進行監測,既拖慢產品交付速度又可能影響產品穩定性。
-
運維團隊沒法主動測試相關,致使問題只能在實際用戶體驗過程當中發現,只能被動排障。但問題復現以及故障定位,可能就會拖住整個運維團隊,致使修復時間無限期拖長。
所以,運營團隊與運維團隊須要一個可以解決上述問題的產品或者解決方案。雲撥測做爲面向業務的非侵入式雲原生監測產品,成爲最佳的選擇。經過阿里雲遍及全球的服務網絡,模擬真實用戶行爲,全天候持續監測網站及其網絡、服務、API端口可用性與性能。實現頁面元素級、網絡請求級、網絡鏈路級細顆粒度問題定位。豐富的監測關聯項與分析模型,幫助企業及時發現與定位性能瓶頸與體驗暗點,壓降運營風險,提高服務體驗與效能。
雲撥測的特色
一、全球監測節點覆蓋
全球超過20萬LM,500餘個IDC終端監測節點,海內外400+運營商以及數十萬量級註冊會員,確保監測規模知足日益龐大的業務規模。
二、無需嵌碼,開箱即用
零侵入式監測,只需輸入URL並進行簡單配置便可,無需研發支持。數分鐘便可得到完整的網站性能數據分析報告。資源包&按量付費多種購買模式,知足運維測試需求。
三、面向業務,預置多種分析模型
監測週期精細至分鐘級別,7大類20餘項監測關聯參數設置、支持多種主流協議,爲站點和業務端口等提供7×24小時細顆粒度故障實時監測、告警及性能分析服務。以最終客戶視角,經過地域、運營商等多維度組合分析,下鑽分析單樣本詳情,利用豐富的指標體系與圖表類型,直觀定位問題、受影響範圍及其根因,壓降分析時間,提高運維效率。真正作到精細化監測。
四、智能告警,精準定位
針對首屏用時、總體性能、可用性實現實時告警,豐富的告警策略設置,與阿里雲告警中心深度集成,有效縮短MTTR。支持發現頁面元素級錯誤,問題歸因精準定位至單次網絡請求過程,提高問題定位效率。
客戶案例
以某電商企業的營銷大促舉例,該網站月活用戶數超百萬,用戶羣體主要分佈在全國三四五線城市,每一年網站運營維護支出費用超過 200 萬元。但因爲大促階段商品信息更新較頻繁,更新後常常收到各地用戶投訴「商品圖片加載不出來」、「頁面打開緩慢」,形成用戶轉化低,也致使運維團隊被投訴。
面對這一困境,咱們經過雲撥測產品完成解決這一問題並進一步優化網站性能,以便支撐業務大促。
一、壓力測試
在企業的營銷活動或新系統上線前,使用雲撥測選取全國不一樣城市運營商的監測點,設定瀏覽和網絡任務,即時獲取第一線的真實用戶訪問體驗數據,精準定位出現問題的頁面元素,幫助技術團隊及時修復問題。模擬峯值用戶高併發訪問,經過增長峯值壓力,觀察主要性能指標變化狀況,挖掘性能瓶頸。
二、用戶體驗優化
經過首屏監測以及即時監測功能能夠馬上進行問題驗證和故障復現,對網站性能進行評估與優化。並經過事務流分析,瞭解用戶真實體驗流程,優化瀏覽路徑,挖掘轉化瓶頸環節,提高轉化率。
三、競品分析迭代
藉助零侵入特性,收集分析同行業競品營銷活動性能狀況,瞭解競品營銷態勢變化以及應對方案,並針對進行鍼對性 IT 投入以及調優迭代,彌補營銷短板,穩固領先地位。
通過以上相關措施,網站性能大幅提升,用戶體驗相關量化指標提高 30% 以上,有效驅動業務增加。除上述場景外,雲撥測還可普遍應用於網絡接口、服務可用性監測、CDN 服務監控與選型、DNS 解析狀態、劫持分析等衆多場景。
爲了知足更多企業與獨立站長的撥測需求,雲撥測上線發佈不一樣規格的月資源包,並開展限時優惠活動。新購用戶將得到九折優惠。