Selasa, 07 September 2021

Data Warehousing & On-Line Analitical Processing

 

APA ITU DATA WAREHOUSE? 

  • Didefinisikan dalam banyak cara yang berbeda, tapi tidak kaku. 
  • Sebuah database pendukung keputusan yang dikelola secara terpisah dari database operasional organisasi 
  • Dukungan pemrosesan informasi dengan menyediakan platform yang solid, dikonsolidasikan, serta data historis untuk dianalisis. 
  • “Data warehouse adalah sebuah subject-oriented, yang terpadu, taime-varian, dan merupakan kumpulan data non volatile dalam mendukung proses pengambilan keputusan bagi manajemen.”—W. H. Inmon 
  • Data warehousing: ▸ Proses membangun dan menggunakan data warehouse

DATA WAREHOUSE - SUBJECT ORIENTED 

  • Diorganisir disekitar subyek utama, seperti pelanggan, produk, penjualan
  • Fokus pada pemodelan dan analisis data untuk pembuat keputusan, bukan pada operasional sehari-hari atau pengolahan transaksi
  • Memberikan pandangan sederhana dan ringkas sekitar isu-isu topik tertentu dengan mengecualikan data yang tidak berguna dalam proses pendukung keputusan 

DATA WAREHOUSE - INTEGRATED 

  • Dibangun dengan mengintegrasikan beberapa sumber data yang heterogen 
  • relational databases, flat files, on-line transaction records 
  • Menerapkan teknik Data cleaning dan data integration. 
  • Memastikan konsistensi dalam konvensi penamaan, struktur pengkodean, ukuran atribut, dll diantara sumber data yang berbeda 
  • Tarif Hotel: mata uang, pajak, layanan sarapan pagi, dll. 
  • Ketika data dipindahkan ke warehouse, ia akan dikonversi.

DATA WAREHOUSE - TIME VARIANT 

  • Horison waktu untuk data warehouse secara signifikan lebih lama dibandingkan dengan sistem operasional 
    • Operational database: nilai data saat ini 
    • Data warehouse data: memberikan informasi dari perspektif historis (misalnya, 5-10 tahun) 
  • Point penting dalam data warehouse 
    • Mengandung unsur waktu, secara eksplisit maupun implisit 
    • Tetapi key dari data operasional dapat memiliki “elemen waktu” atau tidak

DATA WAREHOUSE - NON VOLATILE 

  • Data yg sudah diubah isimpan terpisah secara fisik dari lingkundan operasional 
  • Update data operasional tidak terjadi dalam lingkungan data warehouse 
    • Tidak memerlukan proses transaksi, recovery, dan mekanisme kontrol concurrency
    •  Hanya membutuhkan dua operasi dalam akses data: 
      • loading data awal dan akses data

OLTP VS. OLAP



MENGAPA DATA WAREHOUSE TERPISAH?

  • High performance for both systems 
    • DBMS-disetel untuk OLTP: metode akses, pengindeksan, kontrol konkurensi, recovery 
    • Warehouse-disetel untuk OLAP: OLAP query yang kompleks, View multidimensi, konsolidasi 
  • Perbedaan Fungsi dan Perbedaan Data: 
    • missing data : pendukung keputusan memerlukan data historis yang operasional DBs tidak biasanya mempertahankan 
    • data consolidation: DS membutuhkan konsolidasi (agregasi, summarization) data dari sumber yang heterogen 
    • data quality: sumber yang berbeda biasanya menggunakan representasi konsisten data, kode dan format yang harus direkonsiliasi 
  • Catatan: Saat ini banyak sistem yang dapat melakukan analisis OLAP langsung pada database relasional

DATA WAREHOUSE: ARSITEKTUR MULTI-TIERED



MODEL DATA WAREHOUSE 

  • Enterprise warehouse 
    • Mengumpulkan semua informasi tentang subjek yang mencakup seluruh organisasi
  • Data Mart 
    • Subset dari data coorporate-wide yang bernilai untuk grup pengguna tertentu. Jangkauannya dibatasi pada hal yang spesifik, kelompok yang dipilih, seperti pemasaran Data Mart
    • Independent vs. dependent (directly from warehouse) data mart 
  • Virtual warehouse
    • Sekumpulan tampilan/view atas database operasional
    • Hanya beberapa tampilan ringkasan yang mungkin dapat terwujud

 EXTRACTION, TRANSFORMATION, LOADING 

  • Data extraction ▸ mendapatkan data dari berbagai sumber, heterogen, maupun eksternal
  • Data cleaning ▸ mendeteksi kesalahan dalam data dan mengoreksikannya apabila memungkinkan
  • Data transformation ▸ mengkonversi dari data legacy atau format awal ke format Warehouse
  • Load ▸ menyortir, meringkas, konsolidasi, compute views, memeriksa integritas, dan membangun indeks dan partisi
  • Refresh ▸ menyebarkan update dari sumber data ke warehouse 

METADATA REPOSITORY 

Meta data merupakan data yang mendefinisikan obyek Warehouse. Yang menyimpan: 
  • Deskripsi struktur data warehouse
    • skema, View, dimensi, hirarki, yang berasal Data defn, lokasi data mart dan isinya ▸ 
  • Operasional meta-data
    • Data lineage (riwayat data yang bermigrasi dan jalur transformasi), peredaran data (aktif, diarsipkan, atau dihapus), memantau informasi (statistik penggunaan Warehouse, laporan eror, jejak audit)
  • Algoritma yang digunakan untuk summarization
  • Pemetaan dari lingkungan operasional ke data warehouse
  • Data yang terkait dengan kinerja sistem
    • skema Warehouse, View dan definisi data yang diambil
  • Bisnis data
    • istilah bisnis dan definisi, kepemilikan data, kebijakan charging 

TABEL & SPREADSHEETS KE DATA CUBES

  • Data warehouse didasarkan pada model data multidimensi yang memandang data dalam bentuk data cube
  • Data Cube, seperti penjualan, memungkinkan data yang akan dimodelkan dan dilihat dalam berbagai dimensi
    • Tabel Dimensi, sepert item (nama_item, merek, type), atau waktu(hari, minggu, bulan, kuartal, tahun) 
    • Tabel fakta berisi pengukuran (seperti dolar dijual) dan kunci untuk masing-masing tabel dimensi yang terkait
  • Dalam literatur data warehousing, nD base cube disebut kubus dasar. Paling atas 0-D cuboid, yang memegang ringkasan tingkat tertinggi, disebut apex cuboid. Kisi-kisi dari cuboid membentuk data cube.

CUBE



CUBE: KISI KISI DARI CUBOIDS



PEMODELAN KONSEPTUAL DATA WAREHOUSE

  • Pemodelan data warehouses: dimensi & ukuran
    • Star schema: Sebuah tabel fakta di bagian tengah terhubung dengan sekumpulan tabel dimensi 
    • Snowflake schema: Sebuah penyempurnaan skema bintang di mana beberapa hirarki dimensi dinormalkan menjadi serangkaian tabel dimensi yang lebih kecil, membentuk bentuk yang mirip dengan kepingan salju 
    • Fact constellations: Beberapa Tabel fakta berbagi dengan (share) tabel dimensi, dipandang sebagai kumpulan bintang, karena itu disebut Galaxy schema atau fact constellation

CONTOH SKEMA STAR



CONTOH SKEMA SNOWFLAKE



CONTOH FACT CONSTELLATIONS



KONSEP HIRARKI: DIMENSI (LOKASI)
















Data Mining & Machine Learnig

LATAR BELAKANG DATA MINING

  • Banyak data yang telah direkam dan disimpan
  • Transaksi penjualan di Supermarket 
    • Transaksi perbankan dan Kartu Kredit
    • Log kunjungan WEB
    • Akuisisi data dalam penelitian (sosial, kesehatan,…) 
  • Sistem Komputer semakin cepat dan ekonomis (Moore’s Law)
  • Kebutuhan berkompetisi dengan strategi yang tepat semakin meningkat

TRANSFORMASI DIGITAL DATA MINING


LEDAKAN PERTUMBUHAN DATA



MENGAPA HARUS DATA MINING?

  • Data yang sangat besar terkadang memiliki informasi yang tersembunyi
  • Kemampuan manusia terbatas untuk mengamati kumpulan data tersebut dalama proses analisis 

PENGERTIAN DATA MINING
  • Perangkat lunak yang digunakan untuk menemukan pola-pola tersembunyi maupun hubungan-hubungan yang terdapat dalam basis data yang besar dan menghasilkan aturan-aturan yang digunakan untuk memperkirakan perilaku di masa medatang 
  • Data mining sering dikatakan berurusan dengan “penemuan pengetahuan” dalam basis data. Suatu aturan yang dihasilkan oleh data mining misalnya seperti berikut : “Kebanyakan pembeli mobil Forsa adalah wanita berusia di atas 30 tahun

PRINSIP DATA MINING


APLIKASI DATA MINING


TEKNOLOGI UNTUK DATA MINING
  • Statistik
  • Neural network
  • Fuzzy Logic
  • Algoritma genetika
  • dan berbagai teknologi kecerdasan buatan yang lain

DATA MINING : VISUALISASI DATA
  • Pendekatan data mining juga ada yang melalui visualisasi data
  • Pada sistem seperti ini, pemakai akan dibantu untuk menemukan sendiri pola dari sejumlah data berukuran besar dengan didasarkan visualisasi oleh data mining


DEFINISI MACHINE LEARNING 
Sebuah program komputer dikatakan belajar dari pengalaman/experience [E] sehubungan dengan beberapa tugas/task [T] dan mengukur kinerja/ performance [P], jika kinerjanya pada tugas-tugas [T], yang diukur dengan [P,] meningkatkan dengan pengalaman [E].


CONTOH APLIKASI MACHINE LEARNING
  • Pembelajaran mengenali kata-kata yang diucapkan (Lee, 1989; Waibel, 1989). 
  • Pembelajaran mengemudikan mobil otomatis (Pomerleau, 1989).
  • Pembelajaran klasifikasi struktur astronomi baru (Fayyad et al., 1995).
  • Pembelajaran bermain world-class backgammon (Tesauro 1992, 1995).

MENGAPA MACHINE LEARNING DIPERLUKAN? 
  • Beberapa tasks tidak dapat didefinisikan dengan baik, kecuali dengan contoh (mengenali orang). ‣ Relasi dan korelasi dapat tersembunyi dalam data dalam jumlah besar. Machine Learning/Data Mining dapat menemukan relasi tersebut.
  • Seorang designers seringkali menghasilkan mesin yang tidak dapat bekerja seperti yang diharapkan untuk bekerja pada lingkungannya dimana mereka digunakan.
  • Jumlah pengetahuan yang tersedia tentang tugas-tugas tertentu mungkin terlalu besar untuk pengkodean eksplisit oleh manusia (misalnya, diagnostik medis)
  • Lingkungan berubah seiring waktu ‣ Pengetahuan baru tentang tugas terus-menerus ditemukan oleh manusia. Mungkin sulit untuk terus sistem re-desain “secara manual".

BIDANG ILMU YG BERKAITAN 
  • Statistik: Bagaimana cara terbaik menggunakan sample dari distribusi probabilitas yang tidak diketahui untuk mengetahui dari distibusi mana sampel baru diambil. 
  • Brain Model: Unsur-unsur non-linear dengan input tertimbang (Artificial Neural Networks) telah diusulkan sebagai model sederhana neuron biologis
  • Adaptive Control Theory: Bagaimana menangani pengendalian proses yang memiliki parameter yang tidak diketahui tetapi harus diestimasi selama operasi?
  • Psychology: Bagaimana model kinerja manusia pada berbagai tugas learning?
  • Arificial Intelligence: Bagaimana menulis algoritma yang mampu memperoleh pengetahuan manusia, setidaknya, seperti manusia?
  • Evolutionary Models: Bagaimana memodelkan aspek-aspek tertentu dari evolusi biologi untuk meningkatkan kinerja program komputer?

CONTOH DESAIN LEARNING SYSTEM 
  1. Mendeskripsikan Problem
  2. Memilih Training Experience
  3. Memilih Target Function
  4. Memilih Representasi Target Function
  5. Memilih Function Approximation Algorithm
  6. Design Akhir






Minggu, 05 September 2021

DATA WAREHOUSING & ON-LINE ANALYTICAL PROCESSING

 
APA ITU DATA WAREHOUSE?

▸ Didefinisikan dalam banyak cara yang berbeda, tapi tidak kaku.

    ▸ Sebuah database pendukung keputusan yang dikelola secara terpisah dari database operasional organisasi 

    ▸ Dukungan pemrosesan informasi dengan menyediakan platform yang solid, dikonsolidasikan, serta data historis untuk dianalisis. 

▸ “Data warehouse adalah sebuah subject-oriented, yang terpadu, taime-varian, dan merupakan kumpulan data non volatile dalam mendukung proses pengambilan keputusan bagi manajemen.”—W. H. Inmon 

▸ Data warehousing: 

    ▸ Proses membangun dan menggunakan data warehouse.

DATA WAREHOUSE - SUBJECT ORIENTED

▸ Diorganisir disekitar subyek utama, seperti pelanggan, produk, penjualan 

▸ Fokus pada pemodelan dan analisis data untuk pembuat keputusan, bukan pada operasional sehari-hari atau pengolahan transaksi 

▸ Memberikan pandangan sederhana dan ringkas sekitar isu-isu topik tertentu dengan mengecualikan data yang tidak berguna dalam proses pendukung keputusan

DATA WAREHOUSE - INTEGRATED

▸ Dibangun dengan mengintegrasikan beberapa sumber data yang heterogen 

    ▸ relational databases, flat files, on-line transaction records 

▸ Menerapkan teknik Data cleaning dan data integration. 

    ▸ Memastikan konsistensi dalam konvensi penamaan, struktur pengkodean, ukuran atribut, dll diantara sumber data yang berbeda 

        ▸ Tarif Hotel: mata uang, pajak, layanan sarapan pagi, dll. 

    ▸ Ketika data dipindahkan ke warehouse, ia akan dikonversi.

DATA WAREHOUSE - TIME VARIANT 

▸ Horison waktu untuk data warehouse secara signifikan lebih lama dibandingkan dengan sistem operasional 

    ▸ Operational database: nilai data saat ini 

    ▸ Data warehouse data: memberikan informasi dari perspektif historis (misalnya, 5-10 tahun) 

▸ Point penting dalam data warehouse 

    ▸ Mengandung unsur waktu, secara eksplisit maupun implisit 

    ▸ Tetapi key dari data operasional dapat memiliki “elemen waktu” atau tidak

DATA WAREHOUSE - NON VOLATILE 

▸ Data yg sudah diubah isimpan terpisah secara fisik dari lingkundan operasional 

▸ Update data operasional tidak terjadi dalam lingkungan data warehouse 

    ▸ Tidak memerlukan proses transaksi, recovery, dan mekanisme kontrol concurrency 

    ▸ Hanya membutuhkan dua operasi dalam akses data: 

        ▸ loading data awal dan akses data

OLTP VS. OLAP


MENGAPA DATA WAREHOUSE TERPISAH? 

High performance for both systems 

    ▸ DBMS-disetel untuk OLTP: metode akses, pengindeksan, kontrol konkurensi, recovery 

    ▸ Warehouse-disetel untuk OLAP: OLAP query yang kompleks, View multidimensi, konsolidasi 

Perbedaan Fungsi dan Perbedaan Data: 

    ▸ missing data : pendukung keputusan memerlukan data historis yang operasional DBs tidak biasanya mempertahankan 

    ▸ data consolidation: DS membutuhkan konsolidasi (agregasi, summarization) data dari sumber yang heterogen 

    ▸ data quality: sumber yang berbeda biasanya menggunakan representasi konsisten data, kode dan format yang harus direkonsiliasi 

▸ Catatan: Saat ini banyak sistem yang dapat melakukan analisis OLAP langsung pada database relasional


MODEL DATA WAREHOUSE 

Enterprise warehouse 

    ▸ mengumpulkan semua informasi tentang subjek yang mencakup seluruh organisasi 

Data Mart 

    ▸ subset dari data coorporate-wide yang bernilai untuk grup pengguna tertentu. Jangkauannya dibatasi pada hal yang spesifik, kelompok yang dipilih, seperti pemasaran Data mart      

        ▸ Independent vs. dependent (directly from warehouse) data mart 

Virtual warehouse 

    ▸ Sekumpulan tampilan/view atas database operasional 

    ▸ Hanya beberapa tampilan ringkasan yang mungkin dapat terwujud

EXTRACTION, TRANSFORMATION, LOADING 

Data extraction 

    ▸ mendapatkan data dari berbagai sumber, heterogen, maupun eksternal 

Data cleaning 

    ▸ mendeteksi kesalahan dalam data dan mengoreksikannya apabila memungkinkan 

▸ Data transformation 

    ▸ mengkonversi dari data legacy atau format awal ke format Warehouse 

▸ Load 

    ▸ menyortir, meringkas, konsolidasi, compute views, memeriksa integritas, dan membangun indeks dan partisi 

▸ Refresh 

    ▸ menyebarkan update dari sumber data ke warehouse

METADATA REPOSITORY 

▸ Meta data merupakan data yang mendefinisikan obyek Warehouse. Yang menyimpan: 

▸ Deskripsi struktur data warehouse 

    ▸ skema, View, dimensi, hirarki, yang berasal Data defn, lokasi data mart dan isinya 

▸ Operasional meta-data 

    ▸ Data lineage (riwayat data yang bermigrasi dan jalur transformasi), peredaran data (aktif, diarsipkan, atau dihapus), memantau informasi (statistik penggunaan Warehouse, laporan eror, jejak audit) 

▸ Algoritma yang digunakan untuk summarization 

▸ Pemetaan dari lingkungan operasional ke data warehouse 

▸ Data yang terkait dengan kinerja sistem 

    ▸ skema Warehouse, View dan definisi data yang diambil 

▸ Bisnis data 

    ▸ istilah bisnis dan definisi, kepemilikan data, kebijakan charging

TABEL & SPREADSHEETS KE DATA CUBES 

▸ Data warehouse didasarkan pada model data multidimensi yang memandang data dalam bentuk data cube 

▸ Data Cube, seperti penjualan, memungkinkan data yang akan dimodelkan dan dilihat dalam berbagai dimensi 

    ▸ Tabel Dimensi, sepert item (nama_item, merek, type), atau waktu(hari, minggu, bulan, kuartal, tahun) 

    ▸ Tabel fakta berisi pengukuran (seperti dolar dijual) dan kunci untuk masingmasing tabel dimensi yang terkait 

▸ Dalam literatur data warehousing, nD base cube disebut kubus dasar. Paling atas 0-D cuboid, yang memegang ringkasan tingkat tertinggi, disebut apex cuboid. Kisi-kisi dari cuboid membentuk data cube.

CUBE



PEMODELAN KONSEPTUAL DATA WAREHOUSE 

▸ Pemodelan data warehouses: dimensi & ukuran 

▸ Star schema: Sebuah tabel fakta di bagian tengah terhubung dengan sekumpulan tabel dimensi 

▸ Snowflake schema: Sebuah penyempurnaan skema bintang di mana beberapa hirarki dimensi dinormalkan menjadi serangkaian tabel dimensi yang lebih kecil, membentuk bentuk yang mirip dengan kepingan salju 

▸ Fact constellations: Beberapa Tabel fakta berbagi dengan (share) tabel dimensi, dipandang sebagai kumpulan bintang, karena itu disebut Galaxy schema atau fact constellation 

CONTOH STAR SCHEMA



CONTOH SKEMA SNOWFLAKE





Rabu, 01 September 2021

KEAMANAN DATABASE

MODEL KONSEPTUAL DATABASE

OUTLINE
-Aplikasi Database Lifecycle 
-PerencanaanDatabase 
-PendefinisisanSistem 
-Pengumpulan KebutuhandanAnalisis Database 
-Pemilihan DBMS 
-Aplikasi Rancangan Database

DATA MODEL
-Data model is a collection of tools for describing Data, data relationship, data semantics, data constraints 
-Data model:
    -Object-based logical model 
    -Entity-relationship model 
    -Object-oriented model 
    -Semantic model 
    -Fungsional model: 
Record-based logical model: 
    -Relationship model 
    -Network model 
    -Hierarchical model 

DATA MODEL
-Data abstraction adalah deskripsi mengenai struktur basis data yang mudah dimengerti oleh user, atau bisa juga mencakup detil dari penyimpanan data yang biasanya perlu diketahui oleh perancang basis data. 
-Database structure mencakup data type (type nama adalah string), relationship (customer berelasi dengan account), dan constraint (ada batasan bahwa tidak bisa menjamin bahwa - peserta MIK harus sudah mengambil KP1).

TINGKATAN ABSTRAKSI
-Physical level menggambarkan bagaimana suatu record disimpan secara fisik.
-Logical level menggambarkan bagaimana suatu record disimpan dalam basis data dan menggambarkan hubungan (relationship) antar data.
-View level merupakan suatu program aplikasi, yang tidak akan memperlihatkan data type juga dapat menyembunyikan informasi (misal: gaji) yang mempunyai tingkat security tertentu yang terkait dengan otoritas user.

CONCEPTUAL DATA MODEL
-High-level atau Conceptual Data Model merupakan konsep yang mudah dimengerti oleh end-user. Menggunakan konsep entities, attributes, dan relationships.
-Entity representasi obyek dalam dunia nyata (misal: mahasiswa) atau obyek dalam konsep (misal: mahluk ruang angkasa).
-Attribute: representasi property yang dimiliki oleh suatu entitas, misal: alamat atau gaji seorang karyawan.
-Relationship: hubungan antara beberapa entitas, misal: hubungan antara entitas pegawai dengan entitas proyek adalah pelaksana proyek.

IMPLEMENTATION DATA MODEL
-Representational or Implementation Data Model merupakan konsep yang dapat dimengerti oleh end user, menggambarkan organisasi data dalam komputer, tanpa detil penyimpanan dalam komputer.
-Disebut juga sebagai record-based data model, karena merepresentasi data dalam bentuk record structure.
-Konsep ini digunakan untuk menjelaskan skema traditional commercial database seperti relational database, network dan hierarchical databases.

PHYSICAL DATA MODEL
-Low-level or Physical data model merupakan konsumsi computer specialist yang mencakup detil penyimpanan data di komputer.
-Pada konsep ini data direpresentasi dalam bentuk record format,record ordering, dan access path.
-Access path: adalah suatu struktur pencarian, pencarian record dalam database diharapkan bisa efisien.

FASE RANCANGAN DATABASE
▸ Rancangan Database Conceptual.
        -Proses konstruksi model informasi dengan menggunakan sumber dari perusahaan secara independen.
▸ Rancangan Database Logical. 
        -Proses konstruksi model informasi dengan menggunakan spasifik model basis data perusahaan ( relasional), tapi tidak tergantung kebutuhan DBMS dan pertimbangan physical. 
▸ Rancangan Database Physical
        -Proses memproduksi penjelasan implementasi database pada secondary storage; menguraikan basis relasi , organisasi file, rancangan index agar akses data menjadi efisien , semua yang berhubungan dengan kendala integrity, dan peralatan/mekanisme security.

 FAKTOR KESUKSESAN RANCANGAN DATABASE
-Bekerja secara interactively dengan users.
-Kelengkapan mengikuti seluruh proses metodologi pembangunan model data.Kelengkapan penggunaan pendekatan data-driven.
-Mempertimbangan Struktur perusahaan dan kendala integrity kedalam model data.
-Mengkombinasikan conceptualization, normalization, dan teknik validasi transaksi kedalam metodologi pemodelan data.

METODOLOGI PERCANCANGAN DATABASE
▸ Membangun Model Konseptual Data Lokal untuk Setiap User View
    -Identifikasi tipe entity.
    -Identifikasi tipe relationship
    -Identifikasi tipe dan menggabungkan attributes pada tiap entity
    -Menentukan domain attribute.
    -Menentukan attributes candidate dan primary key
    -Mempertimbangkan konsep pemodelan enhanced (optional step)
    -Cek model dari redundancy
    -Validasi model konseptual lokal terhadap transaksi user
    -Review model konseptual data lokal terhadap NEED user


BIOS

  BIOS, singkatan dari Basic Input Output System, dalam sistem komputerIBM PC atau kompatibelnya (komputer yang berbasis keluarga prosesorIn...