Trở lại

Kỹ sư DataOps

Công ty VNPT AI
Số lượng: 1
Hà Nội
Hạn nộp: 31/12/2026
Lưu việc làm
Chia sẻ
Mô tả công việc

1. Xây dựng và vận hành pipeline dữ liệu

  • Phân tích yêu cầu dữ liệu, thiết kế kiến trúc data lake / data warehouse phục vụ AI và phân tích.
  • Phát triển pipeline ETL/ELT (batch và streaming) cho dữ liệu huấn luyện và inference của hệ thống AI.
  • Tối ưu hiệu năng pipeline, đảm bảo độ trễ, throughput và tính nhất quán dữ liệu.
  • Quản trị chất lượng dữ liệu (Data Quality), data lineage, data catalog, data contract.

2. Tích hợp, triển khai và vận hành

  • Tích hợp dữ liệu từ nhiều nguồn: RDBMS, NoSQL, API, message broker (Kafka), file/object storage.
  • Triển khai và vận hành nền tảng dữ liệu: Spark, Airflow, dbt, Trino/Presto trên môi trường on-prem/cloud.
  • Theo dõi, xử lý sự cố pipeline; đảm bảo SLA dữ liệu cho các bộ phận hạ nguồn.

3. Công việc khác

  • Tài liệu hoá quy trình dữ liệu, data dictionary, hướng dẫn sử dụng dataset cho team AI/Analytics.
  • Nghiên cứu công nghệ mới, chuẩn hoá quy trình phát triển và CI/CD cho data pipeline.
  • Thực hiện các nhiệm vụ khác trong phạm vi chức năng theo phân công.
Yêu cầu công việc
  • Tốt nghiệp Đại học trở lên các ngành: Công nghệ thông tin, Khoa học dữ liệu, Khoa học máy tính, Hệ thống thông tin, Kỹ thuật phần mềm, Toán-Tin, Trí tuệ nhân tạo hoặc các ngành tương đương phù hợp với vị trí công việc.
  • Tối thiểu 01 năm kinh nghiệm về Data Engineering / DataOps hoặc tương đương.
  • Thành thạo:

  SQL tốt (MySQL/PostgreSQL/Oracle), biết tối ưu query/index

  Python (pandas, PySpark), bash scripting

  Apache Spark (batch và structured streaming)

  Workflow orchestration: Airflow / Prefect / Dagster

  • Tư duy hệ thống, cẩn thận với dữ liệu, ý thức về data governance và bảo mật thông tin.
  •  Kỹ năng mềm:

  Giao tiếp rõ ràng, phối hợp với BA, AI/ML Engineer, BI Analyst, DevOps.

  Chịu áp lực tiến độ, tinh thần học hỏi và cải tiến quy trình.

  • Ưu tiên:

  Kinh nghiệm: dbt,Delta Lake hoặc Apache Iceberg.

  CI/CD cho data pipeline; Data Observability (Monte Carlo, Great Expectations, Soda).

  Triển khai trên Kubernetes (Spark on K8s, Argo Workflows); Helm.

  Cloud Storage và data services (S3, GCS, Azure Blob, Glue, Dataproc...).

  Biết dùng công cụ AI để:

+       Sinh code ETL/SQL, refactor và tối ưu pipeline.

+       Gợi ý rule profiling/validation, viết data dictionary tự động.

+       Có khả năng đánh giá/kiểm chứng output ca AI.

 

Phúc lợi
Công ty VNPT AI