Minggu, 05 September 2021

DATA WAREHOUSING & ON-LINE ANALYTICAL PROCESSING

 
APA ITU DATA WAREHOUSE?

▸ Didefinisikan dalam banyak cara yang berbeda, tapi tidak kaku.

    ▸ Sebuah database pendukung keputusan yang dikelola secara terpisah dari database operasional organisasi 

    ▸ Dukungan pemrosesan informasi dengan menyediakan platform yang solid, dikonsolidasikan, serta data historis untuk dianalisis. 

▸ “Data warehouse adalah sebuah subject-oriented, yang terpadu, taime-varian, dan merupakan kumpulan data non volatile dalam mendukung proses pengambilan keputusan bagi manajemen.”—W. H. Inmon 

▸ Data warehousing: 

    ▸ Proses membangun dan menggunakan data warehouse.

DATA WAREHOUSE - SUBJECT ORIENTED

▸ Diorganisir disekitar subyek utama, seperti pelanggan, produk, penjualan 

▸ Fokus pada pemodelan dan analisis data untuk pembuat keputusan, bukan pada operasional sehari-hari atau pengolahan transaksi 

▸ Memberikan pandangan sederhana dan ringkas sekitar isu-isu topik tertentu dengan mengecualikan data yang tidak berguna dalam proses pendukung keputusan

DATA WAREHOUSE - INTEGRATED

▸ Dibangun dengan mengintegrasikan beberapa sumber data yang heterogen 

    ▸ relational databases, flat files, on-line transaction records 

▸ Menerapkan teknik Data cleaning dan data integration. 

    ▸ Memastikan konsistensi dalam konvensi penamaan, struktur pengkodean, ukuran atribut, dll diantara sumber data yang berbeda 

        ▸ Tarif Hotel: mata uang, pajak, layanan sarapan pagi, dll. 

    ▸ Ketika data dipindahkan ke warehouse, ia akan dikonversi.

DATA WAREHOUSE - TIME VARIANT 

▸ Horison waktu untuk data warehouse secara signifikan lebih lama dibandingkan dengan sistem operasional 

    ▸ Operational database: nilai data saat ini 

    ▸ Data warehouse data: memberikan informasi dari perspektif historis (misalnya, 5-10 tahun) 

▸ Point penting dalam data warehouse 

    ▸ Mengandung unsur waktu, secara eksplisit maupun implisit 

    ▸ Tetapi key dari data operasional dapat memiliki “elemen waktu” atau tidak

DATA WAREHOUSE - NON VOLATILE 

▸ Data yg sudah diubah isimpan terpisah secara fisik dari lingkundan operasional 

▸ Update data operasional tidak terjadi dalam lingkungan data warehouse 

    ▸ Tidak memerlukan proses transaksi, recovery, dan mekanisme kontrol concurrency 

    ▸ Hanya membutuhkan dua operasi dalam akses data: 

        ▸ loading data awal dan akses data

OLTP VS. OLAP


MENGAPA DATA WAREHOUSE TERPISAH? 

High performance for both systems 

    ▸ DBMS-disetel untuk OLTP: metode akses, pengindeksan, kontrol konkurensi, recovery 

    ▸ Warehouse-disetel untuk OLAP: OLAP query yang kompleks, View multidimensi, konsolidasi 

Perbedaan Fungsi dan Perbedaan Data: 

    ▸ missing data : pendukung keputusan memerlukan data historis yang operasional DBs tidak biasanya mempertahankan 

    ▸ data consolidation: DS membutuhkan konsolidasi (agregasi, summarization) data dari sumber yang heterogen 

    ▸ data quality: sumber yang berbeda biasanya menggunakan representasi konsisten data, kode dan format yang harus direkonsiliasi 

▸ Catatan: Saat ini banyak sistem yang dapat melakukan analisis OLAP langsung pada database relasional


MODEL DATA WAREHOUSE 

Enterprise warehouse 

    ▸ mengumpulkan semua informasi tentang subjek yang mencakup seluruh organisasi 

Data Mart 

    ▸ subset dari data coorporate-wide yang bernilai untuk grup pengguna tertentu. Jangkauannya dibatasi pada hal yang spesifik, kelompok yang dipilih, seperti pemasaran Data mart      

        ▸ Independent vs. dependent (directly from warehouse) data mart 

Virtual warehouse 

    ▸ Sekumpulan tampilan/view atas database operasional 

    ▸ Hanya beberapa tampilan ringkasan yang mungkin dapat terwujud

EXTRACTION, TRANSFORMATION, LOADING 

Data extraction 

    ▸ mendapatkan data dari berbagai sumber, heterogen, maupun eksternal 

Data cleaning 

    ▸ mendeteksi kesalahan dalam data dan mengoreksikannya apabila memungkinkan 

▸ Data transformation 

    ▸ mengkonversi dari data legacy atau format awal ke format Warehouse 

▸ Load 

    ▸ menyortir, meringkas, konsolidasi, compute views, memeriksa integritas, dan membangun indeks dan partisi 

▸ Refresh 

    ▸ menyebarkan update dari sumber data ke warehouse

METADATA REPOSITORY 

▸ Meta data merupakan data yang mendefinisikan obyek Warehouse. Yang menyimpan: 

▸ Deskripsi struktur data warehouse 

    ▸ skema, View, dimensi, hirarki, yang berasal Data defn, lokasi data mart dan isinya 

▸ Operasional meta-data 

    ▸ Data lineage (riwayat data yang bermigrasi dan jalur transformasi), peredaran data (aktif, diarsipkan, atau dihapus), memantau informasi (statistik penggunaan Warehouse, laporan eror, jejak audit) 

▸ Algoritma yang digunakan untuk summarization 

▸ Pemetaan dari lingkungan operasional ke data warehouse 

▸ Data yang terkait dengan kinerja sistem 

    ▸ skema Warehouse, View dan definisi data yang diambil 

▸ Bisnis data 

    ▸ istilah bisnis dan definisi, kepemilikan data, kebijakan charging

TABEL & SPREADSHEETS KE DATA CUBES 

▸ Data warehouse didasarkan pada model data multidimensi yang memandang data dalam bentuk data cube 

▸ Data Cube, seperti penjualan, memungkinkan data yang akan dimodelkan dan dilihat dalam berbagai dimensi 

    ▸ Tabel Dimensi, sepert item (nama_item, merek, type), atau waktu(hari, minggu, bulan, kuartal, tahun) 

    ▸ Tabel fakta berisi pengukuran (seperti dolar dijual) dan kunci untuk masingmasing tabel dimensi yang terkait 

▸ Dalam literatur data warehousing, nD base cube disebut kubus dasar. Paling atas 0-D cuboid, yang memegang ringkasan tingkat tertinggi, disebut apex cuboid. Kisi-kisi dari cuboid membentuk data cube.

CUBE



PEMODELAN KONSEPTUAL DATA WAREHOUSE 

▸ Pemodelan data warehouses: dimensi & ukuran 

▸ Star schema: Sebuah tabel fakta di bagian tengah terhubung dengan sekumpulan tabel dimensi 

▸ Snowflake schema: Sebuah penyempurnaan skema bintang di mana beberapa hirarki dimensi dinormalkan menjadi serangkaian tabel dimensi yang lebih kecil, membentuk bentuk yang mirip dengan kepingan salju 

▸ Fact constellations: Beberapa Tabel fakta berbagi dengan (share) tabel dimensi, dipandang sebagai kumpulan bintang, karena itu disebut Galaxy schema atau fact constellation 

CONTOH STAR SCHEMA



CONTOH SKEMA SNOWFLAKE





Tidak ada komentar:

BIOS

  BIOS, singkatan dari Basic Input Output System, dalam sistem komputerIBM PC atau kompatibelnya (komputer yang berbasis keluarga prosesorIn...