1. Triển khai và vận hành nền tảng Kubernetes
- Thiết kế, triển khai, vận hành các cluster Kubernetes ở môi trường on-prem và cloud.
- Quản trị namespace, RBAC, network policy, ingress, service mesh (Istio/Linkerd).
- Cài đặt và quản lý các add-on cốt lõi: CNI (Calico/Cilium), CSI, ingress controller, cert-manager.
- Quản lý vòng đời cluster: upgrade, scale, backup/restore (Velero), disaster recovery.
2. Vận hành hệ thống phân tán và tối ưu hiệu năng
- Triển khai và quản trị các thành phần phân tán: etcd, Redis, Kafka, distributed database.
- Theo dõi, tối ưu hiệu năng và tỷ lệ sử dụng tài nguyên (CPU/RAM/GPU) trên cluster.
- Phối hợp xử lý sự cố cluster theo SLA, viết post-mortem và cải tiến kiến trúc sau sự cố.
3. Công việc khác
- Tài liệu hoá kiến trúc cluster, quy trình vận hành (runbook), tiêu chuẩn cấu hình.
- Hỗ trợ các team triển khai workload, tổ chức đào tạo nội bộ về Kubernetes.
- Thực hiện các nhiệm vụ khác trong phạm vi chức năng theo phân công.
- Tốt nghiệp Đại học trở lên các ngành: Công nghệ thông tin, Khoa học máy tính, Mạng máy tính và truyền thông dữ liệu, Kỹ thuật máy tính, Hệ thống thông tin, Kỹ thuật phần mềm, Trí tuệ nhân tạo hoặc các ngành tương đương phù hợp với vị trí công việc.
- Tối thiểu 01 năm kinh nghiệm vận hành Kubernetes hoặc hệ thống phân tán quy mô production.
- Thành thạo:
- Linux server administration, networking (TCP/IP, DNS, load balancing)
- Docker và Kubernetes ở mức cluster admin (đọc kiến trúc, debug sự cố)
- YAML, Helm, Kustomize; quản trị workload đa môi trường
- Monitoring stack: Prometheus, Grafana, Alertmanager; Logging: ELK/Loki
- Tư duy hệ thống, có ý thức bảo mật, kỷ luật vận hành, sẵn sàng on-call.
- Kỹ năng mềm:
- Giao tiếp rõ ràng, phối hợp với team Dev/AI/Security/SRE.
- Chịu áp lực sự cố, tinh thần học hỏi và cải tiến quy trình.
- Chứng chỉ: CKA, CKAD, CKS.
- Kinh nghiệm GitOps (ArgoCD/Flux), service mesh (Istio, Linkerd), policy engine (OPA/Gatekeeper, Kyverno).
- IaC: Terraform, Ansible, Pulumi.
- Networking nâng cao: BGP, MetalLB, Calico/Cilium eBPF.
- Managed K8s: EKS / GKE / AKS / OpenShift.
- Biết dùng công cụ AI để:
+ Gợi ý cấu hình Kubernetes, debug sự cố cluster.
+ Sinh manifest, Helm chart, viết runbook tự động.
+ Có khả năng đánh giá/kiểm chứng output của AI.