APA ITU DATA WAREHOUSE?
- Didefinisikan dalam banyak cara yang berbeda, tapi tidak kaku.
- Sebuah database pendukung keputusan yang dikelola secara terpisah dari database operasional organisasi
- Dukungan pemrosesan informasi dengan menyediakan platform yang solid, dikonsolidasikan, serta data historis untuk dianalisis.
- “Data warehouse adalah sebuah subject-oriented, yang terpadu, taime-varian, dan merupakan kumpulan data non volatile dalam mendukung proses pengambilan keputusan bagi manajemen.”—W. H. Inmon
- Data warehousing: ▸ Proses membangun dan menggunakan data warehouse
DATA WAREHOUSE - SUBJECT ORIENTED
- Diorganisir disekitar subyek utama, seperti pelanggan, produk, penjualan
- Fokus pada pemodelan dan analisis data untuk pembuat keputusan, bukan pada operasional sehari-hari atau pengolahan transaksi
- Memberikan pandangan sederhana dan ringkas sekitar isu-isu topik tertentu dengan mengecualikan data yang tidak berguna dalam proses pendukung keputusan
DATA WAREHOUSE - INTEGRATED
- Dibangun dengan mengintegrasikan beberapa sumber data yang heterogen
- relational databases, flat files, on-line transaction records
- Menerapkan teknik Data cleaning dan data integration.
- Memastikan konsistensi dalam konvensi penamaan, struktur pengkodean, ukuran atribut, dll diantara sumber data yang berbeda
- Tarif Hotel: mata uang, pajak, layanan sarapan pagi, dll.
- Ketika data dipindahkan ke warehouse, ia akan dikonversi.
DATA WAREHOUSE - TIME VARIANT
- Horison waktu untuk data warehouse secara signifikan lebih lama dibandingkan dengan sistem operasional
- Operational database: nilai data saat ini
- Data warehouse data: memberikan informasi dari perspektif historis (misalnya, 5-10 tahun)
- Point penting dalam data warehouse
- Mengandung unsur waktu, secara eksplisit maupun implisit
- Tetapi key dari data operasional dapat memiliki “elemen waktu” atau tidak
DATA WAREHOUSE - NON VOLATILE
- Data yg sudah diubah isimpan terpisah secara fisik dari lingkundan operasional
- Update data operasional tidak terjadi dalam lingkungan data warehouse
- Tidak memerlukan proses transaksi, recovery, dan mekanisme kontrol concurrency
- Hanya membutuhkan dua operasi dalam akses data:
- loading data awal dan akses data
OLTP VS. OLAP
- High performance for both systems
- DBMS-disetel untuk OLTP: metode akses, pengindeksan, kontrol konkurensi, recovery
- Warehouse-disetel untuk OLAP: OLAP query yang kompleks, View multidimensi, konsolidasi
- Perbedaan Fungsi dan Perbedaan Data:
- missing data : pendukung keputusan memerlukan data historis yang operasional DBs tidak biasanya mempertahankan
- data consolidation: DS membutuhkan konsolidasi (agregasi, summarization) data dari sumber yang heterogen
- data quality: sumber yang berbeda biasanya menggunakan representasi konsisten data, kode dan format yang harus direkonsiliasi
- Catatan: Saat ini banyak sistem yang dapat melakukan analisis OLAP langsung pada database relasional
DATA WAREHOUSE: ARSITEKTUR MULTI-TIERED
MODEL DATA WAREHOUSE
- Enterprise warehouse
- Mengumpulkan semua informasi tentang subjek yang mencakup seluruh organisasi
- Data Mart
- Subset dari data coorporate-wide yang bernilai untuk grup pengguna tertentu. Jangkauannya dibatasi pada hal yang spesifik, kelompok yang dipilih, seperti pemasaran Data Mart
- Independent vs. dependent (directly from warehouse) data mart
- Virtual warehouse
- Sekumpulan tampilan/view atas database operasional
- Hanya beberapa tampilan ringkasan yang mungkin dapat terwujud
EXTRACTION, TRANSFORMATION, LOADING
- Data extraction ▸ mendapatkan data dari berbagai sumber, heterogen, maupun eksternal
- Data cleaning ▸ mendeteksi kesalahan dalam data dan mengoreksikannya apabila memungkinkan
- Data transformation ▸ mengkonversi dari data legacy atau format awal ke format Warehouse
- Load ▸ menyortir, meringkas, konsolidasi, compute views, memeriksa integritas, dan membangun indeks dan partisi
- Refresh ▸ menyebarkan update dari sumber data ke warehouse
METADATA REPOSITORY
Meta data merupakan data yang mendefinisikan obyek Warehouse. Yang menyimpan:
- Deskripsi struktur data warehouse
- skema, View, dimensi, hirarki, yang berasal Data defn, lokasi data mart dan isinya ▸
- Operasional meta-data
- Data lineage (riwayat data yang bermigrasi dan jalur transformasi), peredaran data (aktif, diarsipkan, atau dihapus), memantau informasi (statistik penggunaan Warehouse, laporan eror, jejak audit)
- Algoritma yang digunakan untuk summarization
- Pemetaan dari lingkungan operasional ke data warehouse
- Data yang terkait dengan kinerja sistem
- skema Warehouse, View dan definisi data yang diambil
- Bisnis data
- istilah bisnis dan definisi, kepemilikan data, kebijakan charging
TABEL & SPREADSHEETS KE DATA CUBES
- Data warehouse didasarkan pada model data multidimensi yang memandang data dalam bentuk data cube
- Data Cube, seperti penjualan, memungkinkan data yang akan dimodelkan dan dilihat dalam berbagai dimensi
- Tabel Dimensi, sepert item (nama_item, merek, type), atau waktu(hari, minggu, bulan, kuartal, tahun)
- Tabel fakta berisi pengukuran (seperti dolar dijual) dan kunci untuk masing-masing tabel dimensi yang terkait
- Dalam literatur data warehousing, nD base cube disebut kubus dasar. Paling atas 0-D cuboid, yang memegang ringkasan tingkat tertinggi, disebut apex cuboid. Kisi-kisi dari cuboid membentuk data cube.
CUBE
CUBE: KISI KISI DARI CUBOIDS
PEMODELAN KONSEPTUAL DATA WAREHOUSE
- Pemodelan data warehouses: dimensi & ukuran
- Star schema: Sebuah tabel fakta di bagian tengah terhubung dengan sekumpulan tabel dimensi
- Snowflake schema: Sebuah penyempurnaan skema bintang di mana beberapa hirarki dimensi dinormalkan menjadi serangkaian tabel dimensi yang lebih kecil, membentuk bentuk yang mirip dengan kepingan salju
- Fact constellations: Beberapa Tabel fakta berbagi dengan (share) tabel dimensi, dipandang sebagai kumpulan bintang, karena itu disebut Galaxy schema atau fact constellation








Tidak ada komentar:
Posting Komentar