Data Warehouse
Datawarehouse adalah kumpulan macam-macam data yang subject oriented, integrated, time variant, dan nonvolatile. dalam mendukung proses pembuatan keputusan. Inmon and Hackathorn (1994).
Datawarehouse sering diintegrasikan dengan berbagai sistem aplikasi untuk mendukung proses laporan dan analisis data dengan menyediakan data histori, yang menyediakan infrastruktur bagi EIS dan DSS.
Karakteristik Datawarehouse :
subject oriented, integrated, time variant, non volatile
- Kenapa subject oriented?
- Kenapa integrated ?
- Datawarehouse time variant?
- Kenapa Non Volatile?
Datawarehouse bukan hanya tempat penyimpanan data, Datawarehouse adalah Business Intelligence tools, tools to extract, merubah (transform) dan menerima data (load) ke penyimpanan (repository) serta mengelola dan menerima metadata.
- Sejarah / Evolution
- 1960, Dunia komputerisasi membuat aplikasi individu yang digunakan pada file utama. General mill mulai mengembangkan istilah dimensi dan fakta.
- 1970, IRI menyediakan database dimensi untuk pembeli eceran, tahun untuk memperbaiki, mengembangkan dan mencocokan dengan hardware yang dimiliki.
- 1983, DBMS diperkenalkan untuk mengambil keputusan.
- 1988, Barry dan Paul mempublikasikan karyanya tentang Arsitektur Bisnis dan Sistem Informasi
- 1990, memperkenalkan tool DBMS sebagai alat untuk datawarehouse.
- 1990-sekarang, banyak bermunculan buku-buku datawarehouse dan aplikasi-aplikasi datawarehouse.
- Arsitektur Datawarehouse
Lapisan-lapisan arsitektur datawarehouse :
1. Operational database layer / Lapisan basis data operasional
a. Sumber data (source) untuk datawarehouse
b. Data lengkap, Data hari ke hari
c. Mempunyai nilai saat ini/ data berarti.
d. Tingkat kemungkinan data besar.
2. Data Access Layer/ Lapisan Akses Data
a. Tools untuk mengekstrak, mengubah dan mengambil(load) data.
b. Meliputi karakteristik datawarehouse.
3. Metadata Layer / Lapisan Metadata
a. File data tersimpan / Direktori
b. Lebih detil dari direktori data sistem, maksudnya lebih mendalam dari file data yang tersedia sebelumnya.
c. Ada pentunjuk untuk keseluruhan warehouse dan ada petunjuk data yang dapat diakses report khusus untuk di analisis.
4. Informational access layer (lapisan akses informasi)
a. Akses data dan juga tool untuk laporan dan analisis.
b. Tools Business Intelligence masuk ke tahap ini.
Kenapa dan Untuk apa Datawarehouse?
Disini saya akan memberikan ilustrasi untuk datawarehouse. Datawarehouse itu dimiliki oleh perusahaan yang sudah besar, yang memiliki banyak cabang, data yang banyak dan tentunya struktur organisasi yang kompleks.
Mari bayangkan sebuah perusahaan yang memiliki banyak transaksi, yang memiliki banyak cabang. Tentu data-data tersebut tersebar dilokasi yang berbeda, sistem operasi yang berbeda, bahkan di basisdata (database) yang berbeda. Nah, Lalu bagaimana seorang pimpinan/ manager mengambil sebuah keputusan? Tentu bagi sang pembuat keputusan hanya membutuhkan akses ke semua sumber data tersebut. Kalau melakukan query di setiap masing-masing cabang tentu tidak efisien dan tidak praktis. Atau bahkan data yang dimiliki oleh perusahaan adalah data-data terbaru, bukan data-data terdahulu dari perusahaan tersebut. Dari permasalahan ini, Datawarehouse hadir sebagai solusinya.
Jika mengandalkan database OLTP untuk dilakukan query terlalu besar. Datawarehouse dibuat agar prosesnya lebih efisien. Dan selalu berkompetitif, maksudnya di zaman saat ini perusahaan sudah mengandalkan teknologi datawarehouse untuk pengambilan keputusan di perusahaan.
Tujuan Akhir menggunakan Datawarehouse
- Menyediakan data organisasi yang mudah diakses oleh manager.
- Data yang berada di datawarehouse bersifat konsisten, dan merupakan kebenaran.
- Datawarehouse merupakan tempat, dimana data yang telah digunakan di publikasikan.
- Kualitas data di datawarehouse dapat diandalkan.
OLAP adalah operasi basis data (database) untuk mendapatkan dalam bentuk kesimpulan dengan menggunakan aggregasi sebagai mekanisme utama. Mekanisme berupa analisis dan pengambilan keputusan.
OLTP [On-Line Transaction Process]
Proses transaksi di suatu proses bisnis seperti penjualan, pemesanan dan pembayaran. Proses yang dilakukan rutin dari hari ke hari.
Karakteristiknya dengan input/ data entry, update dan delete. Berfokus pada satu area bisnis saja, entah itu ‘persediaan’,’penjualan’ atau bahkan ‘sumber daya’.
Tugas utamanya terlihat dari hubungan tradisional ke DBMS.
Saya akan memberikan contoh perbedaan fitur yang mendasar antara OLTP dan OLAP.
- User dan Orientasi Sistem : customer vs market.
- Data contents : sekarang, detil vs historical
- Design Database : ER Application vs Star Subject
- View : Sekarang, Lokal vs Perubahan dari setiap data, data terintegrasi.
- Pola Akses : Update vs hanya bisa membaca tetapi dengan bermacam sudut pandang.
| OLTP | OLAP | |
| users | data entry | manager perusahaan |
| function | transaksi setiap hari | Pendukung keputusan |
| db design | aplikasi oriented | subjek oriented |
| data | sekarang, terbaru, lengkap detail | historical, ringkas, multidimensi terintegrasi |
| usage | repetitive | ad-hoc |
| access | membaca,menulis dan merubah | membaca dengan rinci <kompleks> |
| unit of work | pendek,transaksi yang ringkas | query kompleks |
| db size | mega byte | Terra byte |
| size_record_access | 10 | jutaan |
| size_user | ribuan | ratusan |
- Pendekatan Ralph Kimball
Kelebihannya :
o Nilai Bisnis dapat dikembalikan secepat data cabang yang pertama dibuat.
o Model yang berdimensi
o Mudah dimengerti.
Kekurangan :
o Integrasi
o Mapping dari pemodelan berdimensi ke sistem yang sudah ada.
o Sulit untuk memastikan kekonsisten dimensi dari semua data cabang.
- Pendekatan Bill Inmonn
Keuntungan :
o Perancangan top-down menghasilkan dimensional view yang konsisten untuk semua data, Karena semua data diload dari repository terpusat/ terintegrasi.
o Top down sanggup menghadapi perubahan bisnus, membuat data dimensional cabang yang baru menjadi tugas yang mudah.
Kekurangan :
o Kesulitan dan biaya mendisain model data perusahaan.
- Feedback dari pengguna.
o Tidak fleksibel terhadap perubahan kebutuhan pada saat implementasi.
- Pendekatan Hybrid
Penyimpanan data dalam datawarehouse?
- Dimensional
Contohnya : Data pembayaran pada EF Course, faktanya seberapa banyak anggota yang melakukan pembayaran tepat waktu. Dimensinya, seperti kode anggota, tanggal, dan jenis kursus.
Kelebihannya :
o Datawarehouse lebih mudah dimengerti oleh pengguna.
o Data yang dicari / ditampilkan dengan lebih cepat.
Kekurangan :
o Kurang mempertahankan integritas dari fakta dan dimensi jika sistem operasi yang digunakan berbeda-beda.
o Kesulitan mengubah struktur datawarehouse, jika proses bisnis yang dilakukan perusahaan berubah.
- Normalisasi
Keuntungan : Mudah untuk menambah informasi kedatabase.
Kekurangan : Karena banyak table yang terlibat maka akan sulit bagi pengguna untuk menggabungkan data dari sumber yang berbeda.
Kedua penyimpanan diatas dimensional dan normalisasi tidaklah berpisah secara utuh, melainkan satu sama lain saling berhubungan.
Evolusi perusahaan yang menggunakan Datawarehouse
Pada awalnya perusahaan menerapkan datawarehouse yang sangat sederhana. Saat ini perkembangan datawarehouse semakin canggih dan kebutuhan perusahaan pun semakin meningkat. Tingkat- tingkat kebutuhan datawarehouse:
- Database operasional offline
- Datawarehouse Offline
- Datawarehouse Realtime
- Datawarehouse Terintegrasi
KOMPONEN DATAWAREHOUSE
- Data Source
- Design Datawarehouse
- Akuisi data
- Perubahan data tangkapan
- Pembersihan Data
Pembersihan data suatu proses rumit yang memvalidasi dan bila perlu mengoreksi data sebelum masuk kedalam datawarehouse. Pembersihan data dapat juga disebut sebagai “data scrubbing” atau “penjamin kualitas data”, proses ini harus dilakukan secara berhati-hati dan dilakukan keseluruhan terutama datawarehouse yang diambil dari perangkat yang sudah tua.
- Data Aggregation
3 Model Datawarehouse
- Enterprise Datawarehouse
- Data Mart
- Virtual Warehouse
Keuntungan Datawarehouse
- Datawarehouse menyediakan model data yang bervariasi, dan tidak bergantung pada satu sumber data saja. Hal ini memudahkan pimpinan perusahaan/manager membuat laporan dan menganalisa.
- Saat me-load data ke dalam datawarehouse, data yang tidak konsisten akan diketahui dan secepatnya dirubah. Mendukung proses pembuatan laporan, agar keputusan yang diambil adalah keputusan yang benar sesuai data.
- Keamanan informasi didalam datawarehouse terjamin, karena datawarehouse selalu digunakan dan dimonitor oleh pengguna datawarehouse tersebut.
- Dalam membuat laporan tidak membuat proses transaksi yang ada menjadi lambat, karena datawarehouse terpisah dengan database operasional.
- Datawarehouse menyediakan berbagai macam bentuk laporan yang terbaru.
- Datawarehouse tidak cocok untuk data yang tidak struktur.
- Data perlu di extract, diubah, dan di load ke datawarehouse, sehingga membutuhkan waktu (delay) kerja untuk datawarehouse yang belum terbentuk.
- Semakin lama masa hidup bisnis yang menggunakan datawarehouse, maka semakin banyak biaya yang dikeluarkan oleh perusahaan untuk memodifikasi teknologi datawarehouse atau perawatan berjalan datawarehouse.
- Jika data yang diambil lambat, maka data yang dimiliki di datawarehouse tidak berkulitas/ sehingga laporan tidak optimal.
Comments
Post a Comment