- Các nhiệm vụ chính:
- Giám sát liên tục các dịch vụ số (website, app, API) qua Grafana, Zabbix, Prometheus.
- Theo dõi chỉ số sức khỏe hệ thống: tốc độ tải trang, thời gian phản hồi, tỷ lệ lỗi, tình trạng server, dung lượng lưu trữ.
- Thiết lập và quản lý hệ thống cảnh báo (alerting) tự động để phát hiện sớm sự cố.
- Phân tích dữ liệu vận hành, đánh giá hiệu suất, xu hướng và dự báo rủi ro.
- Xây dựng báo cáo định kỳ (ngày/tuần/tháng) về vận hành, chất lượng dịch vụ, sự cố nổi bật và đề xuất cải tiến.
- Quản lý người dùng hệ thống: phân quyền, tạo/xóa/sửa tài khoản theo quy trình bảo mật.
- Quản lý nội dung qua CMS: cập nhật banner, tin khuyến mại, thông tin gói cước, đảm bảo tính chính xác.
- Thực hiện tác vụ vận hành hàng ngày theo checklist và quy trình.
- Điều phối sự cố: tiếp nhận cảnh báo, xác nhận, thông báo đến các đội kỹ thuật, cập nhật tình hình.
- Các nhiệm vụ khác:
- Lập báo cáo sự cố sau khi xử lý: nguyên nhân gốc rễ, tác động, biện pháp khắc phục.
- Phối hợp với các bộ phận theo dõi xử lý sự cố đến khi hoàn tất.
- Đề xuất cải tiến quy trình vận hành, giám sát và nâng cấp hệ thống.
- Các nhiệm vụ khác theo phân công của Quản lý bộ phận và lãnh đạo Ban
Quy định






