Selasa, 07 September 2021

Data Warehousing & On-Line Analitical Processing

 

APA ITU DATA WAREHOUSE? 

  • Didefinisikan dalam banyak cara yang berbeda, tapi tidak kaku. 
  • Sebuah database pendukung keputusan yang dikelola secara terpisah dari database operasional organisasi 
  • Dukungan pemrosesan informasi dengan menyediakan platform yang solid, dikonsolidasikan, serta data historis untuk dianalisis. 
  • “Data warehouse adalah sebuah subject-oriented, yang terpadu, taime-varian, dan merupakan kumpulan data non volatile dalam mendukung proses pengambilan keputusan bagi manajemen.”—W. H. Inmon 
  • Data warehousing: ▸ Proses membangun dan menggunakan data warehouse

DATA WAREHOUSE - SUBJECT ORIENTED 

  • Diorganisir disekitar subyek utama, seperti pelanggan, produk, penjualan
  • Fokus pada pemodelan dan analisis data untuk pembuat keputusan, bukan pada operasional sehari-hari atau pengolahan transaksi
  • Memberikan pandangan sederhana dan ringkas sekitar isu-isu topik tertentu dengan mengecualikan data yang tidak berguna dalam proses pendukung keputusan 

DATA WAREHOUSE - INTEGRATED 

  • Dibangun dengan mengintegrasikan beberapa sumber data yang heterogen 
  • relational databases, flat files, on-line transaction records 
  • Menerapkan teknik Data cleaning dan data integration. 
  • Memastikan konsistensi dalam konvensi penamaan, struktur pengkodean, ukuran atribut, dll diantara sumber data yang berbeda 
  • Tarif Hotel: mata uang, pajak, layanan sarapan pagi, dll. 
  • Ketika data dipindahkan ke warehouse, ia akan dikonversi.

DATA WAREHOUSE - TIME VARIANT 

  • Horison waktu untuk data warehouse secara signifikan lebih lama dibandingkan dengan sistem operasional 
    • Operational database: nilai data saat ini 
    • Data warehouse data: memberikan informasi dari perspektif historis (misalnya, 5-10 tahun) 
  • Point penting dalam data warehouse 
    • Mengandung unsur waktu, secara eksplisit maupun implisit 
    • Tetapi key dari data operasional dapat memiliki “elemen waktu” atau tidak

DATA WAREHOUSE - NON VOLATILE 

  • Data yg sudah diubah isimpan terpisah secara fisik dari lingkundan operasional 
  • Update data operasional tidak terjadi dalam lingkungan data warehouse 
    • Tidak memerlukan proses transaksi, recovery, dan mekanisme kontrol concurrency
    •  Hanya membutuhkan dua operasi dalam akses data: 
      • loading data awal dan akses data

OLTP VS. OLAP



MENGAPA DATA WAREHOUSE TERPISAH?

  • High performance for both systems 
    • DBMS-disetel untuk OLTP: metode akses, pengindeksan, kontrol konkurensi, recovery 
    • Warehouse-disetel untuk OLAP: OLAP query yang kompleks, View multidimensi, konsolidasi 
  • Perbedaan Fungsi dan Perbedaan Data: 
    • missing data : pendukung keputusan memerlukan data historis yang operasional DBs tidak biasanya mempertahankan 
    • data consolidation: DS membutuhkan konsolidasi (agregasi, summarization) data dari sumber yang heterogen 
    • data quality: sumber yang berbeda biasanya menggunakan representasi konsisten data, kode dan format yang harus direkonsiliasi 
  • Catatan: Saat ini banyak sistem yang dapat melakukan analisis OLAP langsung pada database relasional

DATA WAREHOUSE: ARSITEKTUR MULTI-TIERED



MODEL DATA WAREHOUSE 

  • Enterprise warehouse 
    • Mengumpulkan semua informasi tentang subjek yang mencakup seluruh organisasi
  • Data Mart 
    • Subset dari data coorporate-wide yang bernilai untuk grup pengguna tertentu. Jangkauannya dibatasi pada hal yang spesifik, kelompok yang dipilih, seperti pemasaran Data Mart
    • Independent vs. dependent (directly from warehouse) data mart 
  • Virtual warehouse
    • Sekumpulan tampilan/view atas database operasional
    • Hanya beberapa tampilan ringkasan yang mungkin dapat terwujud

 EXTRACTION, TRANSFORMATION, LOADING 

  • Data extraction ▸ mendapatkan data dari berbagai sumber, heterogen, maupun eksternal
  • Data cleaning ▸ mendeteksi kesalahan dalam data dan mengoreksikannya apabila memungkinkan
  • Data transformation ▸ mengkonversi dari data legacy atau format awal ke format Warehouse
  • Load ▸ menyortir, meringkas, konsolidasi, compute views, memeriksa integritas, dan membangun indeks dan partisi
  • Refresh ▸ menyebarkan update dari sumber data ke warehouse 

METADATA REPOSITORY 

Meta data merupakan data yang mendefinisikan obyek Warehouse. Yang menyimpan: 
  • Deskripsi struktur data warehouse
    • skema, View, dimensi, hirarki, yang berasal Data defn, lokasi data mart dan isinya ▸ 
  • Operasional meta-data
    • Data lineage (riwayat data yang bermigrasi dan jalur transformasi), peredaran data (aktif, diarsipkan, atau dihapus), memantau informasi (statistik penggunaan Warehouse, laporan eror, jejak audit)
  • Algoritma yang digunakan untuk summarization
  • Pemetaan dari lingkungan operasional ke data warehouse
  • Data yang terkait dengan kinerja sistem
    • skema Warehouse, View dan definisi data yang diambil
  • Bisnis data
    • istilah bisnis dan definisi, kepemilikan data, kebijakan charging 

TABEL & SPREADSHEETS KE DATA CUBES

  • Data warehouse didasarkan pada model data multidimensi yang memandang data dalam bentuk data cube
  • Data Cube, seperti penjualan, memungkinkan data yang akan dimodelkan dan dilihat dalam berbagai dimensi
    • Tabel Dimensi, sepert item (nama_item, merek, type), atau waktu(hari, minggu, bulan, kuartal, tahun) 
    • Tabel fakta berisi pengukuran (seperti dolar dijual) dan kunci untuk masing-masing tabel dimensi yang terkait
  • Dalam literatur data warehousing, nD base cube disebut kubus dasar. Paling atas 0-D cuboid, yang memegang ringkasan tingkat tertinggi, disebut apex cuboid. Kisi-kisi dari cuboid membentuk data cube.

CUBE



CUBE: KISI KISI DARI CUBOIDS



PEMODELAN KONSEPTUAL DATA WAREHOUSE

  • Pemodelan data warehouses: dimensi & ukuran
    • Star schema: Sebuah tabel fakta di bagian tengah terhubung dengan sekumpulan tabel dimensi 
    • Snowflake schema: Sebuah penyempurnaan skema bintang di mana beberapa hirarki dimensi dinormalkan menjadi serangkaian tabel dimensi yang lebih kecil, membentuk bentuk yang mirip dengan kepingan salju 
    • Fact constellations: Beberapa Tabel fakta berbagi dengan (share) tabel dimensi, dipandang sebagai kumpulan bintang, karena itu disebut Galaxy schema atau fact constellation

CONTOH SKEMA STAR



CONTOH SKEMA SNOWFLAKE



CONTOH FACT CONSTELLATIONS



KONSEP HIRARKI: DIMENSI (LOKASI)
















Tidak ada komentar:

BIOS

  BIOS, singkatan dari Basic Input Output System, dalam sistem komputerIBM PC atau kompatibelnya (komputer yang berbasis keluarga prosesorIn...