1. Xây dựng và vận hành pipeline dữ liệu
- Phân tích yêu cầu dữ liệu, thiết kế kiến trúc data lake / data warehouse phục vụ AI và phân tích.
- Phát triển pipeline ETL/ELT (batch và streaming) cho dữ liệu huấn luyện và inference của hệ thống AI.
- Tối ưu hiệu năng pipeline, đảm bảo độ trễ, throughput và tính nhất quán dữ liệu.
- Quản trị chất lượng dữ liệu (Data Quality), data lineage, data catalog, data contract.
2. Tích hợp, triển khai và vận hành
- Tích hợp dữ liệu từ nhiều nguồn: RDBMS, NoSQL, API, message broker (Kafka), file/object storage.
- Triển khai và vận hành nền tảng dữ liệu: Spark, Airflow, dbt, Trino/Presto trên môi trường on-prem/cloud.
- Theo dõi, xử lý sự cố pipeline; đảm bảo SLA dữ liệu cho các bộ phận hạ nguồn.
3. Công việc khác
- Tài liệu hoá quy trình dữ liệu, data dictionary, hướng dẫn sử dụng dataset cho team AI/Analytics.
- Nghiên cứu công nghệ mới, chuẩn hoá quy trình phát triển và CI/CD cho data pipeline.
- Thực hiện các nhiệm vụ khác trong phạm vi chức năng theo phân công.
- Tốt nghiệp Đại học trở lên các ngành: Công nghệ thông tin, Khoa học dữ liệu, Khoa học máy tính, Hệ thống thông tin, Kỹ thuật phần mềm, Toán-Tin, Trí tuệ nhân tạo hoặc các ngành tương đương phù hợp với vị trí công việc.
- Tối thiểu 01 năm kinh nghiệm về Data Engineering / DataOps hoặc tương đương.
- Thành thạo:
– SQL tốt (MySQL/PostgreSQL/Oracle), biết tối ưu query/index
– Python (pandas, PySpark), bash scripting
– Apache Spark (batch và structured streaming)
– Workflow orchestration: Airflow / Prefect / Dagster
- Tư duy hệ thống, cẩn thận với dữ liệu, ý thức về data governance và bảo mật thông tin.
- Kỹ năng mềm:
– Giao tiếp rõ ràng, phối hợp với BA, AI/ML Engineer, BI Analyst, DevOps.
– Chịu áp lực tiến độ, tinh thần học hỏi và cải tiến quy trình.
– Kinh nghiệm: dbt,Delta Lake hoặc Apache Iceberg.
– CI/CD cho data pipeline; Data Observability (Monte Carlo, Great Expectations, Soda).
– Triển khai trên Kubernetes (Spark on K8s, Argo Workflows); Helm.
– Cloud Storage và data services (S3, GCS, Azure Blob, Glue, Dataproc...).
– Biết dùng công cụ AI để:
+ Sinh code ETL/SQL, refactor và tối ưu pipeline.
+ Gợi ý rule profiling/validation, viết data dictionary tự động.
+ Có khả năng đánh giá/kiểm chứng output của AI.