Intermediate

Security & Data Governance

Encryption, access control, PII handling, and compliance

⏱️ 35 min read 📅 Updated Jan 2025 👤 By DataLearn Team

Mode Baca Pemula

Anggap security sebagai "pengaman rumah data". Fokus baca:

  1. Data mana yang sensitif dan kenapa harus dibatasi
  2. Perbedaan enkripsi, kontrol akses, dan audit
  3. Kebutuhan compliance minimum untuk organisasi

Kamus istilah: DE-GLOSSARY.md

Prasyarat Ringan

Istilah Penting (3 Lapis)

Istilah: Data Classification

Definisi awam: Mengelompokkan data berdasarkan tingkat sensitivitas.

Definisi teknis: Kerangka label data (public/internal/confidential/restricted) untuk menentukan kontrol keamanan.

Contoh praktis: Email customer diberi label confidential dan wajib masking di lingkungan non-prod.

Istilah: Least Privilege

Definisi awam: Beri akses secukupnya, tidak berlebihan.

Definisi teknis: Prinsip IAM yang membatasi hak akses hanya pada resource dan aksi yang benar-benar dibutuhkan.

Contoh praktis: Role analyst hanya bisa SELECT, tidak bisa DROP tabel produksi.

Data Security Fundamentals

Security in data engineering follows the CIA Triad:

🔒 Confidentiality

Only authorized access to data. Encryption at rest and in transit.

✓ Integrity

Data is accurate and hasn't been tampered with. Checksums, validation.

▲ Availability

Data accessible when needed. Backups, redundancy, disaster recovery.

Encryption

Encryption at Rest

Encryption in Transit

⚠️ Key Management Best Practices

Access Control

RBAC vs ABAC

Model Based On Example
RBAC
Role-Based
User's role in organization "Analysts can read sales data"
ABAC
Attribute-Based
Multiple attributes "Users in EU can access EU data during business hours"

Row-Level and Column-Level Security

-- Snowflake: Row-level security with masking policy CREATE MASKING POLICY email_mask AS (val STRING) RETURNS STRING -> CASE WHEN CURRENT_ROLE() = 'ADMIN' THEN val ELSE '***MASKED***' END; -- Apply to column ALTER TABLE customers MODIFY COLUMN email SET MASKING POLICY email_mask;

PII Handling

Personally Identifiable Information (PII) requires special handling:

PII Discovery and Classification

PII Protection Techniques

Technique Use Case Reversible?
Tokenization Replace with random token Yes (with vault)
Masking Show partial data (***-**-1234) No
Hashing One-way transformation No (without salt/rainbow table)
Encryption Protect sensitive values Yes (with key)

Compliance Frameworks

📋 Major Regulations

Data Governance

Framework for managing data availability, usability, integrity, and security:

Governance Components

Data Retention Policies

🗑️ Retention Best Practices

Decision Framework: Security & Governance

Decision Point Pilih Opsi A Jika... Pilih Opsi B Jika...
RBAC vs ABAC Role organisasi jelas dan sederhana Butuh policy dinamis berbasis atribut user/data/konteks
Masking vs Tokenization Hanya perlu menyembunyikan tampilan data Butuh penggantian nilai sensitif yang bisa direferensikan ulang
Central Governance vs Federated Organisasi masih awal dan tim data terpusat Domain data banyak dengan ownership per unit bisnis
Default deny vs Exception-based Data sensitif tinggi dan risk tolerance rendah Lingkungan eksplorasi internal dengan guardrail kuat

Failure Modes & Anti-Patterns

Anti-Patterns pada Security/Governance

Production Readiness Checklist

Checklist Security sebelum Production

  1. Data classification matrix diterapkan (public/internal/confidential/restricted).
  2. Encryption at rest + in transit aktif default.
  3. RBAC/ABAC policy diuji untuk least-privilege.
  4. PII masking/tokenization berjalan pada layer serving.
  5. Audit logging aktif untuk akses data sensitif.
  6. Retention dan deletion policy terotomasi.
  7. Key rotation schedule terdokumentasi dan diuji.
  8. Incident response untuk security breach tersedia.

✏️ Exercise: Design Security Architecture

Desain keamanan untuk data warehouse perusahaan e-commerce:

  1. Encryption: at-rest (AES-256) dan in-transit (TLS 1.3)
  2. Access control: RBAC dengan role Analyst, Engineer, Admin
  3. PII handling: Tokenize credit cards, mask emails untuk non-admin
  4. Compliance: GDPR-compliant dengan data retention 7 tahun
  5. Audit: Log semua query yang akses PII

🎯 Quick Quiz

1. Apa tujuan dari encryption at rest?

A. Mempercepat query
B. Melindungi data yang tersimpan dari akses tidak sah
C. Mengurangi ukuran storage
D. Mempermudah backup

2. Perbedaan RBAC dan ABAC?

A. RBAC lebih aman dari ABAC
B. RBAC berbasis role, ABAC berbasis atribut multiple
C. ABAC lebih cepat diimplementasikan
D. Tidak ada perbedaan

3. Regulasi apa yang berlaku untuk data EU citizens?

A. CCPA
B. HIPAA
C. GDPR
D. PCI-DSS

Kesimpulan

Security dan governance bukan afterthought—mereka harus di-design dari awal. Data engineers harus memahami encryption, access control, dan compliance requirements untuk membangun sistem yang trusted.

🎯 Key Takeaways

📚 References & Resources

Primary Sources

Official Documentation

Articles & Guides