本文根據孫燕老師在《2019DAMS中國數據智能管理峰會》現場演講內容整理而成。
講師介紹
孫燕,微博廣告基礎運維負責人,2009年入職新浪,任職10年間參與博客、圖片、視頻、微博平臺監控、微博廣告多個產品運維,致力于運維自動化、產品架構優化、服務治理、智能監控及以監控為依托的服務容災建設。
圖片來源于:DBAplus社群
前言
微博現在日活達到了2億,微博廣告是微博最重要且穩定的收入來源,沒有之一,所以微博廣告系統的穩定性是我們廣告運維所有工作中的重中之重。
微博廣告的運維主要負責資產管理、服務穩定性維護、故障應急處理以及成本控制等多個責任。
微博廣告運維發展經歷了如下階段:從早期小規模的手工運維到工具化運維,隨著服務器數量的發展,業務模型日漸發展,開發、運營、QA都參與到產品的生命周期中,我們現在也進入了自動化運維的階段,在新的虛擬化技術、算法技術的驅動下,我們也在朝著AIOps的方向努力。
圖片來源于:《2019DAMS中國數據智能管理峰會》PPT
在整個運維過程中,我們遇到了很多痛點,幸福的人生都是一樣的,不幸的人生各有各的不幸,各家的運維都各有各的痛點。
我們的服務器在3000臺以上,業務線及輔助資源各種各樣,產品迭代非常快,且依賴關系復雜,流量變更,切換損失不可接受。
在這種情況下,我們面臨資產管理困難、環境不統一、上線難度大、運維成本高的問題。
圖片來源于:《2019DAMS中國數據智能管理峰會》PPT
基于這些問題,微博廣告運維工作主要集中在以下四個方面:運維自動化平臺建設、彈性計算、智能監控、服務治理。
圖片來源于:《2019DAMS中國數據智能管理峰會》PPT
運維自動化
一個健全的自動化運維平臺必須要具備如下幾個功能:基礎監控、資源管理、事件集中分析、配置管理、批量運維工具、持續集成和發布。
圖片來源于:《2019DAMS中國數據智能管理峰會》PPT
基于這些功能和需求,我們廣告運維自主研發了Kunkka平臺(微博廣告運維自主研發的自動化運維平臺)、資產管理、自動化上線等運維平臺。
資產管理是基于公司CMDB(公司級別的資產管理系統)獲取到主機云服務器,針對微博廣告對資源的管理需求自建定制化的資產管理平臺;配置中心包括服務注冊、服務配置等功能;自動化上線涵蓋了開發在上線過程中所需要的節點和流程;自主終端是行業變化的功能實現,大家可以通過頁面完成文件或命令下發、日志審計等各種工作。
圖片來源于:《2019DAMS中國數據智能管理峰會》PPT
Kunkka基于主機和容器,通過Salt作為傳輸層進行命令下發,組件層包含開源軟件,操作層將命令頁面化,通過頁面進行日常工作和管理。
圖片來源于:《2019DAMS中國數據智能管理峰會》PPT
這樣的自動化運維平臺基本上滿足了運維的日常操作需求,在Kunkka平臺中還有自動擴縮容的功能,我們針對這個功能進行延伸。在自動擴所容的基礎上,根據時間段,流量進行動態判斷,自動決策的擴所容夠功能。