APA ITU DATA WAREHOUSE?
▸ Didefinisikan dalam banyak cara yang berbeda, tapi tidak kaku.
▸ Sebuah database pendukung keputusan yang dikelola secara terpisah dari database operasional organisasi
▸ Dukungan pemrosesan informasi dengan menyediakan platform yang solid, dikonsolidasikan, serta data historis untuk dianalisis.
▸ “Data warehouse adalah sebuah subject-oriented, yang terpadu, taime-varian, dan merupakan kumpulan data non volatile dalam mendukung proses pengambilan keputusan bagi manajemen.”—W. H. Inmon
▸ Data warehousing:
▸ Proses membangun dan menggunakan data warehouse.
DATA WAREHOUSE - SUBJECT ORIENTED
▸ Diorganisir disekitar subyek utama, seperti pelanggan, produk, penjualan
▸ Fokus pada pemodelan dan analisis data untuk pembuat keputusan, bukan pada operasional sehari-hari atau pengolahan transaksi
▸ Memberikan pandangan sederhana dan ringkas sekitar isu-isu topik tertentu dengan mengecualikan data yang tidak berguna dalam proses pendukung keputusan
DATA WAREHOUSE - INTEGRATED
▸ Dibangun dengan mengintegrasikan beberapa sumber data yang heterogen
▸ relational databases, flat files, on-line transaction records
▸ Menerapkan teknik Data cleaning dan data integration.
▸ Memastikan konsistensi dalam konvensi penamaan, struktur pengkodean, ukuran atribut, dll diantara sumber data yang berbeda
▸ Tarif Hotel: mata uang, pajak, layanan sarapan pagi, dll.
▸ Ketika data dipindahkan ke warehouse, ia akan dikonversi.
DATA WAREHOUSE - TIME VARIANT
▸ Horison waktu untuk data warehouse secara signifikan lebih lama dibandingkan dengan sistem operasional
▸ Operational database: nilai data saat ini
▸ Data warehouse data: memberikan informasi dari perspektif historis (misalnya, 5-10 tahun)
▸ Point penting dalam data warehouse
▸ Mengandung unsur waktu, secara eksplisit maupun implisit
▸ Tetapi key dari data operasional dapat memiliki “elemen waktu” atau tidak
DATA WAREHOUSE - NON VOLATILE
▸ Data yg sudah diubah isimpan terpisah secara fisik dari lingkundan operasional
▸ Update data operasional tidak terjadi dalam lingkungan data warehouse
▸ Tidak memerlukan proses transaksi, recovery, dan mekanisme kontrol concurrency
▸ Hanya membutuhkan dua operasi dalam akses data:
▸ loading data awal dan akses data
OLTP VS. OLAP
▸ High performance for both systems
▸ DBMS-disetel untuk OLTP: metode akses, pengindeksan, kontrol konkurensi, recovery
▸ Warehouse-disetel untuk OLAP: OLAP query yang kompleks, View multidimensi, konsolidasi
▸ Perbedaan Fungsi dan Perbedaan Data:
▸ missing data : pendukung keputusan memerlukan data historis yang operasional DBs tidak biasanya mempertahankan
▸ data consolidation: DS membutuhkan konsolidasi (agregasi, summarization) data dari sumber yang heterogen
▸ data quality: sumber yang berbeda biasanya menggunakan representasi konsisten data, kode dan format yang harus direkonsiliasi
▸ Catatan: Saat ini banyak sistem yang dapat melakukan analisis OLAP langsung pada database relasional
MODEL DATA WAREHOUSE
▸ Enterprise warehouse
▸ mengumpulkan semua informasi tentang subjek yang mencakup seluruh organisasi
▸ Data Mart
▸ subset dari data coorporate-wide yang bernilai untuk grup pengguna tertentu. Jangkauannya dibatasi pada hal yang spesifik, kelompok yang dipilih, seperti pemasaran Data mart
▸ Independent vs. dependent (directly from warehouse) data mart
▸ Virtual warehouse
▸ Sekumpulan tampilan/view atas database operasional
▸ Hanya beberapa tampilan ringkasan yang mungkin dapat terwujud
EXTRACTION, TRANSFORMATION, LOADING
▸ Data extraction
▸ mendapatkan data dari berbagai sumber, heterogen, maupun eksternal
▸ Data cleaning
▸ mendeteksi kesalahan dalam data dan mengoreksikannya apabila memungkinkan
▸ Data transformation
▸ mengkonversi dari data legacy atau format awal ke format Warehouse
▸ Load
▸ menyortir, meringkas, konsolidasi, compute views, memeriksa integritas, dan membangun indeks dan partisi
▸ Refresh
▸ menyebarkan update dari sumber data ke warehouse
METADATA REPOSITORY
▸ Meta data merupakan data yang mendefinisikan obyek Warehouse. Yang menyimpan:
▸ Deskripsi struktur data warehouse
▸ skema, View, dimensi, hirarki, yang berasal Data defn, lokasi data mart dan isinya
▸ Operasional meta-data
▸ Data lineage (riwayat data yang bermigrasi dan jalur transformasi), peredaran data (aktif, diarsipkan, atau dihapus), memantau informasi (statistik penggunaan Warehouse, laporan eror, jejak audit)
▸ Algoritma yang digunakan untuk summarization
▸ Pemetaan dari lingkungan operasional ke data warehouse
▸ Data yang terkait dengan kinerja sistem
▸ skema Warehouse, View dan definisi data yang diambil
▸ Bisnis data
▸ istilah bisnis dan definisi, kepemilikan data, kebijakan charging
TABEL & SPREADSHEETS KE DATA CUBES
▸ Data warehouse didasarkan pada model data multidimensi yang memandang data dalam bentuk data cube
▸ Data Cube, seperti penjualan, memungkinkan data yang akan dimodelkan dan dilihat dalam berbagai dimensi
▸ Tabel Dimensi, sepert item (nama_item, merek, type), atau waktu(hari, minggu, bulan, kuartal, tahun)
▸ Tabel fakta berisi pengukuran (seperti dolar dijual) dan kunci untuk masingmasing tabel dimensi yang terkait
▸ Dalam literatur data warehousing, nD base cube disebut kubus dasar. Paling atas 0-D cuboid, yang memegang ringkasan tingkat tertinggi, disebut apex cuboid. Kisi-kisi dari cuboid membentuk data cube.
CUBE
PEMODELAN KONSEPTUAL DATA WAREHOUSE
▸ Pemodelan data warehouses: dimensi & ukuran
▸ Star schema: Sebuah tabel fakta di bagian tengah terhubung dengan sekumpulan tabel dimensi
▸ Snowflake schema: Sebuah penyempurnaan skema bintang di mana beberapa hirarki dimensi dinormalkan menjadi serangkaian tabel dimensi yang lebih kecil, membentuk bentuk yang mirip dengan kepingan salju
▸ Fact constellations: Beberapa Tabel fakta berbagi dengan
(share) tabel dimensi, dipandang sebagai kumpulan bintang,
karena itu disebut Galaxy schema atau fact constellation
CONTOH STAR SCHEMA
CONTOH SKEMA SNOWFLAKE
Tidak ada komentar:
Posting Komentar