APA ITU DATA WAREHOUSE?
▸ Didefinisikan dalam banyak cara yang berbeda, tapi tidak kaku.
▸ Sebuah database pendukung keputusan yang dikelola secara terpisah dari
database operasional organisasi
▸ Dukungan pemrosesan informasi dengan menyediakan platform yang solid,
dikonsolidasikan, serta data historis untuk dianalisis.
▸ “Data warehouse adalah sebuah subject-oriented, yang terpadu,
taime-varian, dan merupakan kumpulan data non volatile dalam
mendukung proses pengambilan keputusan bagi manajemen.”—W.
H. Inmon
▸ Data warehousing:
▸ Proses membangun dan menggunakan data warehouse.
DATA WAREHOUSE - SUBJECT ORIENTED
▸ Diorganisir disekitar subyek utama, seperti pelanggan,
produk, penjualan
▸ Fokus pada pemodelan dan analisis data untuk pembuat
keputusan, bukan pada operasional sehari-hari atau
pengolahan transaksi
▸ Memberikan pandangan sederhana dan ringkas sekitar
isu-isu topik tertentu dengan mengecualikan data yang
tidak berguna dalam proses pendukung keputusan
DATA WAREHOUSE - INTEGRATED
▸ Dibangun dengan mengintegrasikan beberapa sumber
data yang heterogen
▸ relational databases, flat files, on-line transaction records
▸ Menerapkan teknik Data cleaning dan data integration.
▸ Memastikan konsistensi dalam konvensi penamaan, struktur
pengkodean, ukuran atribut, dll diantara sumber data yang berbeda
▸ Tarif Hotel: mata uang, pajak, layanan sarapan pagi, dll.
▸ Ketika data dipindahkan ke warehouse, ia akan dikonversi.
DATA WAREHOUSE - TIME VARIANT
▸ Horison waktu untuk data warehouse secara signifikan
lebih lama dibandingkan dengan sistem operasional
▸ Operational database: nilai data saat ini
▸ Data warehouse data: memberikan informasi dari perspektif historis
(misalnya, 5-10 tahun)
▸ Point penting dalam data warehouse
▸ Mengandung unsur waktu, secara eksplisit maupun implisit
▸ Tetapi key dari data operasional dapat memiliki “elemen waktu” atau
tidak
DATA WAREHOUSE - NON VOLATILE
▸ Data yg sudah diubah isimpan terpisah secara fisik dari
lingkundan operasional
▸ Update data operasional tidak terjadi dalam lingkungan
data warehouse
▸ Tidak memerlukan proses transaksi, recovery, dan mekanisme
kontrol concurrency
▸ Hanya membutuhkan dua operasi dalam akses data:
▸ loading data awal dan akses data
OLTP VS. OLAP
MENGAPA DATA WAREHOUSE TERPISAH? ▸ High performance for both systems
▸ DBMS-disetel untuk OLTP: metode akses, pengindeksan, kontrol konkurensi,
recovery
▸ Warehouse-disetel untuk OLAP: OLAP query yang kompleks, View multidimensi,
konsolidasi
▸ Perbedaan Fungsi dan Perbedaan Data:
▸ missing data : pendukung keputusan memerlukan data historis yang operasional
DBs tidak biasanya mempertahankan
▸ data consolidation: DS membutuhkan konsolidasi (agregasi, summarization) data
dari sumber yang heterogen
▸ data quality: sumber yang berbeda biasanya menggunakan representasi
konsisten data, kode dan format yang harus direkonsiliasi
▸ Catatan: Saat ini banyak sistem yang dapat melakukan analisis
OLAP langsung pada database relasional
MODEL DATA WAREHOUSE
▸ Enterprise warehouse
▸ mengumpulkan semua informasi tentang subjek yang mencakup seluruh
organisasi
▸ Data Mart
▸ subset dari data coorporate-wide yang bernilai untuk grup pengguna tertentu.
Jangkauannya dibatasi pada hal yang spesifik, kelompok yang dipilih, seperti
pemasaran Data mart
▸ Independent vs. dependent (directly from warehouse) data mart
▸ Virtual warehouse
▸ Sekumpulan tampilan/view atas database operasional
▸ Hanya beberapa tampilan ringkasan yang mungkin dapat terwujud
EXTRACTION, TRANSFORMATION, LOADING
▸ Data extraction
▸ mendapatkan data dari berbagai sumber, heterogen, maupun eksternal
▸ Data cleaning
▸ mendeteksi kesalahan dalam data dan mengoreksikannya apabila
memungkinkan
▸ Data transformation
▸ mengkonversi dari data legacy atau format awal ke format Warehouse
▸ Load
▸ menyortir, meringkas, konsolidasi, compute views, memeriksa integritas, dan
membangun indeks dan partisi
▸ Refresh
▸ menyebarkan update dari sumber data ke warehouse
METADATA REPOSITORY
▸ Meta data merupakan data yang mendefinisikan obyek Warehouse.
Yang menyimpan:
▸ Deskripsi struktur data warehouse
▸ skema, View, dimensi, hirarki, yang berasal Data defn, lokasi data mart dan isinya
▸ Operasional meta-data
▸ Data lineage (riwayat data yang bermigrasi dan jalur transformasi), peredaran
data (aktif, diarsipkan, atau dihapus), memantau informasi (statistik penggunaan
Warehouse, laporan eror, jejak audit)
▸ Algoritma yang digunakan untuk summarization
▸ Pemetaan dari lingkungan operasional ke data warehouse
▸ Data yang terkait dengan kinerja sistem
▸ skema Warehouse, View dan definisi data yang diambil
▸ Bisnis data
▸ istilah bisnis dan definisi, kepemilikan data, kebijakan charging
TABEL & SPREADSHEETS KE DATA CUBES
▸ Data warehouse didasarkan pada model data multidimensi yang
memandang data dalam bentuk data cube
▸ Data Cube, seperti penjualan, memungkinkan data yang akan
dimodelkan dan dilihat dalam berbagai dimensi
▸ Tabel Dimensi, sepert item (nama_item, merek, type), atau waktu(hari, minggu,
bulan, kuartal, tahun)
▸ Tabel fakta berisi pengukuran (seperti dolar dijual) dan kunci untuk masingmasing tabel dimensi yang terkait
▸ Dalam literatur data warehousing, nD base cube disebut kubus
dasar. Paling atas 0-D cuboid, yang memegang ringkasan tingkat
tertinggi, disebut apex cuboid. Kisi-kisi dari cuboid membentuk
data cube.
CUBE
PEMODELAN KONSEPTUAL DATA WAREHOUSE
▸ Pemodelan data warehouses: dimensi & ukuran
▸ Star schema: Sebuah tabel fakta di bagian tengah terhubung
dengan sekumpulan tabel dimensi
▸ Snowflake schema: Sebuah penyempurnaan skema bintang di
mana beberapa hirarki dimensi dinormalkan menjadi
serangkaian tabel dimensi yang lebih kecil, membentuk bentuk
yang mirip dengan kepingan salju
▸ Fact constellations: Beberapa Tabel fakta berbagi dengan
(share) tabel dimensi, dipandang sebagai kumpulan bintang,
karena itu disebut Galaxy schema atau fact constellation
CONTOH STAR SCHEMA
CONTOH SKEMA SNOWFLAKE