Kỹ sư DataOps

Công ty VNPT AI

Số lượng: 1

Hà Nội

Hạn nộp: 31/12/2026

Lưu việc làm

Mô tả công việc

1. Xây dựng và vận hành pipeline dữ liệu

Phân tích yêu cầu dữ liệu, thiết kế kiến trúc data lake / data warehouse phục vụ AI và phân tích.
Phát triển pipeline ETL/ELT (batch và streaming) cho dữ liệu huấn luyện và inference của hệ thống AI.
Tối ưu hiệu năng pipeline, đảm bảo độ trễ, throughput và tính nhất quán dữ liệu.
Quản trị chất lượng dữ liệu (Data Quality), data lineage, data catalog, data contract.

2. Tích hợp, triển khai và vận hành

Tích hợp dữ liệu từ nhiều nguồn: RDBMS, NoSQL, API, message broker (Kafka), file/object storage.
Triển khai và vận hành nền tảng dữ liệu: Spark, Airflow, dbt, Trino/Presto trên môi trường on-prem/cloud.
Theo dõi, xử lý sự cố pipeline; đảm bảo SLA dữ liệu cho các bộ phận hạ nguồn.

3. Công việc khác

Tài liệu hoá quy trình dữ liệu, data dictionary, hướng dẫn sử dụng dataset cho team AI/Analytics.
Nghiên cứu công nghệ mới, chuẩn hoá quy trình phát triển và CI/CD cho data pipeline.
Thực hiện các nhiệm vụ khác trong phạm vi chức năng theo phân công.

Yêu cầu công việc

Tốt nghiệp Đại học trở lên các ngành: Công nghệ thông tin, Khoa học dữ liệu, Khoa học máy tính, Hệ thống thông tin, Kỹ thuật phần mềm, Toán-Tin, Trí tuệ nhân tạo hoặc các ngành tương đương phù hợp với vị trí công việc.
Tối thiểu 01 năm kinh nghiệm về Data Engineering / DataOps hoặc tương đương.
Thành thạo:

– SQL tốt (MySQL/PostgreSQL/Oracle), biết tối ưu query/index

– Python (pandas, PySpark), bash scripting

– Apache Spark (batch và structured streaming)

– Workflow orchestration: Airflow / Prefect / Dagster

Tư duy hệ thống, cẩn thận với dữ liệu, ý thức về data governance và bảo mật thông tin.
Kỹ năng mềm:

– Giao tiếp rõ ràng, phối hợp với BA, AI/ML Engineer, BI Analyst, DevOps.

– Chịu áp lực tiến độ, tinh thần học hỏi và cải tiến quy trình.

– Kinh nghiệm: dbt,Delta Lake hoặc Apache Iceberg.

– CI/CD cho data pipeline; Data Observability (Monte Carlo, Great Expectations, Soda).

– Triển khai trên Kubernetes (Spark on K8s, Argo Workflows); Helm.

– Cloud Storage và data services (S3, GCS, Azure Blob, Glue, Dataproc...).

– Biết dùng công cụ AI để:

+ Sinh code ETL/SQL, refactor và tối ưu pipeline.

+ Gợi ý rule profiling/validation, viết data dictionary tự động.

+ Có khả năng đánh giá/kiểm chứng output của AI.

Phúc lợi

Công việc liên quan

Công ty VNPT AI