Data Engineering: Syllabus

Mastering Data Engineering: Concepts, Techniques & Best Practices

Data Engineering is the backbone of modern data-driven organizations. It focuses on designing, building, and maintaining scalable data pipelines that enable efficient data processing, storage, and retrieval. This book provides a hands-on approach to mastering data engineering principles, covering data pipelines, ETL workflows, data governance, and real-world best practices.

Module 1: Introduction to Data Engineering

What is Data Engineering? Why is it important?
Role of a Data Engineer vs. Data Scientist vs. Data Analyst
Overview of modern data architectures (Data Warehouses, Data Lakes, Lakehouses)
Understanding batch vs. real-time data processing

Module 2: Data Storage & Databases

Understanding relational databases (PostgreSQL, MySQL) and NoSQL databases (MongoDB, Cassandra)
Data Warehouses vs. Data Lakes (Redshift, Snowflake, Delta Lake, BigQuery)
Columnar vs. Row-based storage formats (Parquet, Avro, ORC)
Best practices for data partitioning and indexing

Module 3: Data Ingestion & ETL (Extract, Transform, Load)

Principles of ETL and ELT workflows
Data ingestion techniques: Batch, Stream, CDC (Change Data Capture)
Extracting data from APIs, Databases, and Files (CSV, JSON, XML)
Transforming data using SQL, Python (Pandas), and Apache Spark
Loading data into Data Warehouses and Data Lakes

Module 4: Workflow Orchestration & Automation

Introduction to workflow orchestration tools (Apache Airflow, Prefect, Dagster)
Scheduling and automating ETL pipelines
Monitoring data pipelines with logging and alerting
Implementing retries and failure handling in workflows

Module 5: Real-Time Data Processing & Streaming

Introduction to real-time data architectures
Streaming vs. Batch processing: Key differences
Apache Kafka for real-time data ingestion and processing
Processing streaming data with Apache Spark Streaming and Flink

Module 6: Data Modeling & Schema Design

Normalization vs. Denormalization
Star and Snowflake Schema for Data Warehouses
Designing efficient schemas for Data Lakes and NoSQL databases
Handling schema evolution in production systems

Module 7: Data Governance & Quality

Ensuring data reliability and consistency
Data validation techniques (Great Expectations, dbt tests)
Implementing data lineage and metadata management (Apache Atlas)
Security best practices: Encryption, RBAC, GDPR compliance

Module 8: Performance Optimization & Scalability

Query optimization techniques for large datasets
Indexing and partitioning strategies for better performance
Optimizing Apache Spark jobs for efficiency
Scaling data pipelines with distributed computing

Hands-On Examples & Best Practices

Example 1: Building an ETL Pipeline with Apache Airflow

Extract data from an API and store it in a PostgreSQL database
Transform data using Pandas and Apache Spark
Automate the workflow using Apache Airflow DAGs

Example 2: Real-Time Streaming Pipeline with Kafka & Spark

Stream data from a Kafka topic into a Data Lake
Process real-time events with Apache Spark Streaming
Store transformed data in Delta Lake for analysis

Example 3: Data Warehouse Optimization with Partitioning & Indexing

Optimize PostgreSQL queries using indexes and partitions
Tune a Snowflake data warehouse for efficient querying
Use columnar storage formats for performance improvements

Example 4: Data Governance with Great Expectations & Apache Atlas

Implement data quality checks in an ETL pipeline
Track data lineage and metadata for compliance
Automate alerts for data anomalies

Example 5: Deploying a Scalable Data Pipeline on Kubernetes

Containerize an ETL pipeline using Docker
Deploy data processing jobs on Kubernetes
Implement CI/CD for data pipeline automation

References

Data Analysis: Syllabus

DBT: Syllabus

Datascience

Rizki Sasri Dwitama

Title here

Data Engineering: Syllabus

Mastering Data Engineering: Concepts, Techniques & Best Practices

Module 1: Introduction to Data Engineering

Module 2: Data Storage & Databases

Module 3: Data Ingestion & ETL (Extract, Transform, Load)

Module 4: Workflow Orchestration & Automation

Module 5: Real-Time Data Processing & Streaming

Module 6: Data Modeling & Schema Design

Module 7: Data Governance & Quality

Module 8: Performance Optimization & Scalability

Hands-On Examples & Best Practices

Example 1: Building an ETL Pipeline with Apache Airflow

Example 2: Real-Time Streaming Pipeline with Kafka & Spark

Example 3: Data Warehouse Optimization with Partitioning & Indexing

Example 4: Data Governance with Great Expectations & Apache Atlas

Example 5: Deploying a Scalable Data Pipeline on Kubernetes

References

Data Engineering: Syllabus

Mastering Data Engineering: Concepts, Techniques & Best Practices

Module 1: Introduction to Data Engineering#

Module 2: Data Storage & Databases#

Module 3: Data Ingestion & ETL (Extract, Transform, Load)#

Module 4: Workflow Orchestration & Automation#

Module 5: Real-Time Data Processing & Streaming#

Module 6: Data Modeling & Schema Design#

Module 7: Data Governance & Quality#

Module 8: Performance Optimization & Scalability#

Hands-On Examples & Best Practices

Example 1: Building an ETL Pipeline with Apache Airflow#

Example 2: Real-Time Streaming Pipeline with Kafka & Spark#

Example 3: Data Warehouse Optimization with Partitioning & Indexing#

Example 4: Data Governance with Great Expectations & Apache Atlas#

Example 5: Deploying a Scalable Data Pipeline on Kubernetes#

References#

Module 1: Introduction to Data Engineering

Module 2: Data Storage & Databases

Module 3: Data Ingestion & ETL (Extract, Transform, Load)

Module 4: Workflow Orchestration & Automation

Module 5: Real-Time Data Processing & Streaming

Module 6: Data Modeling & Schema Design

Module 7: Data Governance & Quality

Module 8: Performance Optimization & Scalability

Example 1: Building an ETL Pipeline with Apache Airflow

Example 2: Real-Time Streaming Pipeline with Kafka & Spark

Example 3: Data Warehouse Optimization with Partitioning & Indexing

Example 4: Data Governance with Great Expectations & Apache Atlas

Example 5: Deploying a Scalable Data Pipeline on Kubernetes

References