Dunia teknologi sepertinya tak pernah bosan menghasilkan jargon baru. Setelah cukup lama didominasi oleh kisah seputar social networking, mobile access, dan cloud computing, maka belakangan ini ada satu teknologi yang sedang naik daun yaitu Big Data.
Jika dilihat dari penggunaan kata "Big" dengan mudah kita akan
mengasosiasikan bahwa terminologi Big Data ini dengan pengelolaan data
dalam jumlah yang sangat besar. Tapi tentu saja pasti ada hal 'besar'
lainnya yang membuat isu ini menjadi hangat dibicarakan di berbagai
forum dan media teknologi informasi. Termasuk salah satunya dalam
Indonesian Cloud Forum, 22 November lalu.
Tenggelam dalam Timbunan Data
Kehadiran Big Data ini tak bisa dilepaskan dari semakin murahnya harga dari chip microprocessor. Dengan harga yang murah, maka semakin banyak instrumen yang memiliki kecerdasan karena ditanam chip di dalamnya, baik itu dalam bentuk instrumen RFID maupun bentuk lainnya yang mengepung hampir seluruh sisi hidup kita.
Ditambah lagi dengan hadirnya kemampuan komunikasi machine to machine atau M2M, membuat segala instrumen pintar tadi dapat saling 'berbicara', tentu saja dalam bentuk pertukaran data, menjadikan semuanya dapat terinterkoneksi bukan hanya sesama instrumen namun juga berbicara dengan sistem di luar.
Contoh sederhana, sekarang sudah banyak beredar gelang yang memiliki sensor untuk merekam seluruh aktivitas fisik kita. Dari mulai aktivitas ringan seperti tidur maupun berat seperti berolah raga, lalu mengkonversi ke dalam jumlah kalori.
Kemudian melalui koneksi bluetooth, data yang terekam di dalam gelang tersebut akan tersinkronisasi dengan aplikasi di perangkat mobile yang kemudian langsung bisa meng-upload dan mem-publish melalui Facebook atau Twitter, misalnya.
Kemudian dari situs pertemanan itu bisa dilakukan komparasi atau bahkan kompetisi antar member yang menggunakan perangkat yang sama.
Contoh yang serius adalah penggunaan kartu prabayar pembayaran di sejumlah merchant atau jalan tol yang dikeluarkan oleh bank. Dengan data-data yang dihasilkan dari penggunaan kartu tersebut, yang jika dikombinasikan dengan location based sensor dari operator telekomunikasi bisa dipetakan kebiasaan berbelanja dari seseorang atau kelompok yang bisa menjadi analisa yang menarik untuk penyampaian iklan atau program promo yang lebih presisi dan personalized.
Secara tidak sadar, dalam dunia yang semakin instrumented, intelligent dan interconnected ini, kita tenggelam dalam timbunan data, sejak bangun tidur hingga tidur lagi, bahkan mungkin selama tidur pun masih ada data yang bisa dihasilkan.
Tenggelam dalam Timbunan Data
Kehadiran Big Data ini tak bisa dilepaskan dari semakin murahnya harga dari chip microprocessor. Dengan harga yang murah, maka semakin banyak instrumen yang memiliki kecerdasan karena ditanam chip di dalamnya, baik itu dalam bentuk instrumen RFID maupun bentuk lainnya yang mengepung hampir seluruh sisi hidup kita.
Ditambah lagi dengan hadirnya kemampuan komunikasi machine to machine atau M2M, membuat segala instrumen pintar tadi dapat saling 'berbicara', tentu saja dalam bentuk pertukaran data, menjadikan semuanya dapat terinterkoneksi bukan hanya sesama instrumen namun juga berbicara dengan sistem di luar.
Contoh sederhana, sekarang sudah banyak beredar gelang yang memiliki sensor untuk merekam seluruh aktivitas fisik kita. Dari mulai aktivitas ringan seperti tidur maupun berat seperti berolah raga, lalu mengkonversi ke dalam jumlah kalori.
Kemudian melalui koneksi bluetooth, data yang terekam di dalam gelang tersebut akan tersinkronisasi dengan aplikasi di perangkat mobile yang kemudian langsung bisa meng-upload dan mem-publish melalui Facebook atau Twitter, misalnya.
Kemudian dari situs pertemanan itu bisa dilakukan komparasi atau bahkan kompetisi antar member yang menggunakan perangkat yang sama.
Contoh yang serius adalah penggunaan kartu prabayar pembayaran di sejumlah merchant atau jalan tol yang dikeluarkan oleh bank. Dengan data-data yang dihasilkan dari penggunaan kartu tersebut, yang jika dikombinasikan dengan location based sensor dari operator telekomunikasi bisa dipetakan kebiasaan berbelanja dari seseorang atau kelompok yang bisa menjadi analisa yang menarik untuk penyampaian iklan atau program promo yang lebih presisi dan personalized.
Secara tidak sadar, dalam dunia yang semakin instrumented, intelligent dan interconnected ini, kita tenggelam dalam timbunan data, sejak bangun tidur hingga tidur lagi, bahkan mungkin selama tidur pun masih ada data yang bisa dihasilkan.
Karakeristik Big Data
Setidaknya ada 3 dimensi dasar yang menjadi karakteristik dari Big Data , yaitu :
1. Volume
Setiap hari, diperkirakan jumlah lautan data yang lalu lalang dimuka bumi setidaknya mencapai 2.5 Exabyte (1 Exabyte = 1 Milyar Gigabyte) dan itu hampir dipastikan selalu bertambah setiap harinya. Facebook saja menghasilkan 10 terabyte data perhari, Twitter 7 terabyte per hari, belum lagi data yang dihasilkan operator telekomunikasi. Di tahun 2020, diperkirakan jumlah data yang dihasilkan perhari akan mencapai 35 Zettabyte (1 Zettabyte = 1000 Exabyte)
2. Variety
Dengan ledakan jumlah sensor, perangkat pintar dan teknologi social collaboration, maka jenis data yang dihasilkan pun menjadi sangat beragam. Kalau dulu kita hanya berurusan dengan data terstruktur, yang biasanya dengan mudah kita tampung dalam satu database relational, maka di era big data ini kita harus berurusan dengan jenis data yang bercampur baur. Mulai dari data mentah, semi terstruktur, tidak terstruktur, search index, activity stream dari sosial media, log files, gambar, video dan lain sebagainya.
3. Velocity
Kalau sebelumnya, data itu dikumpulkan secara periodik, 'dibersihkan', disimpan berdasarkan struktur tertentu, untuk kemudian dilakukan analisis terhadap data tersebut. Data-data seperti ini sekarang disebut dengan istilah 'data in rest'. Dalam konteks Big Data, dengan sumber dan jenis data yang beragam, maka data akan muncul dalam bentuk aliran (stream) dengan kecepatan yang luar biasa, yang diistilahkan dengan 'data in motion'.
Bayangkan misalnya, aliran data yang dihasilkan dari pergerakan harga atau index di bursa saham, atau data yang dihasilkan dari sensor-sensor yang diletakkan pada jarak tertentu di rel kereta api di negara maju, atau data yang dihasilkan dari pergerakan benda-benda yang memiliki sensor GPS yang selalu bergerak di muka bumi ini.
Atau contoh yang familiar, jika kita memiliki cukup banyak teman di Facebook atau Twitter, kita akan melihat perubahan di timeline kita secara terus menerus. Dimana meskipun data di timeline tersebut memiliki format JSON, tapi konten text di dalamnya sangat tidak terstruktur.
Big Data, Warehousing, & Hadoop
Dengan karakteristik seperti di atas, jelas pendekatan tradisional dalam pengelolaan data tidak lagi memadai. Dalam sejumlah organisasi/korporasi besar, biasanya data akan dikumpulkan berdasarkan struktur tertentu dalam sebuah data warehouse, untuk kemudian dilakukan analisis. Hanya saja pendekatan warehousing ini hanya bisa dilakukan untuk data-data yang sebelumnya sudah kita ketahui manfaatnya.
Di sisi lain, dalam konteks aliran data in motion yang dihasilkan dari berbagai sumber itu, kita seringkali belum tahu apa manfaat dari serbuan data itu, kita hanya punya feeling bahwa data itu akan berguna, tapi hasil akhirnya apa belum bisa dipastikan saat data itu kita capture.
Untuk data yang sudah kita tahu manfaatnya, tentu kita bisa berhitung terkait investasi sebesar apa yang dibutuhkan untuk membangun sebuah data warehouse. Tapi untuk data yang kita sendiri belum yakin akan manfaatnya, tentu akan sulit membuat justifikasi untuk pengadaan infrastruktur yang besar untuk menyimpan dan mengolah data tersebut.
Untungnya, sejak beberapa waktu lalu sudah hadir teknologi 'Hadoop' yang bisa menjadi solusi. Secara sederhana, Hadoop adalah teknik penyimpanan dan pengelolaan data yang memungkinkan data disebar ke sejumlah cluster.
Kalau untuk datawarehouse, kita langsung menyediakan sebuah infrastruktur besar sesuai dengan perhitungan jumlah dan manfaat. Maka dengan Hadoop, kita bisa mulai menyimpan dan mengolah data dengan yang sebuah server kecil untuk kemudian berkembang ke dalam sejumlah cluster jika memang dibutuhkan.
Sifat Hadoop yang scalable dan flexible ini menjadi jodoh yang sempurna untuk dikawinkan dengan model cloud computing yang juga memiliki sifat elastis, untuk menjadi sebuah model pengelolaan Big Data yang cost efektif.
Selain dari sisi infrastruktur, kita juga memerlukan pendekatan baru di sisi analisis, untuk bisa memetik manfaat dari Big Data ini. Kalau dalam model tradisional analisis dilakukan dengan menggunakan kriteria tertentu yang sudah dibakukan, maka untuk melakukan analisis terhadap Big Data, kriteria itu tidak mungkin bisa ditentukan, karena kita sendiri belum belum bisa memastikan apa dan dimana kita akan mencari manfaat dari data itu sendiri. Sehingga diperlukan sebuah model analytics yang benar-benar bisa 'belajar sambil jalan' untuk menemukan pola-pola tertentu dari sejumlah besar timbunan data yang kita miliki.
Mungkin bisa dianalogikan dengan proses penambangan emas, mekanisme analisis data tradisional itu ibarat menambang emas di tempat yang memang sudah sangat terang benderang memiliki kandungan emas dan hanya fokus di areal yang sempit itu saja, sedangkan untuk mendapatkan manfaat dari analisa big data itu ibarat penambangan emas modern yang mengeruk gunung yang kita curigai mengandung emas.
Meskipun dari puluhan ton tanah yang diangkut dalam satu truk itu mungkin hanya beberapa gram emas yang didapatkan, tapi karena yang dikeruk adalah gunung, hasil akhirnya tentu sudah kita pastikan bahwa yang mengeruk gunung dengan cara modern, akan menghasilkan emas jauh lebih banyak dibandingkan penambangan emas secara tradisional.
Akhirnya akan kembali lagi ke kita, apakah kita akan membiarkan diri kita tenggelam, atau kita memilih menggali emas dalam dari timbunan data yang mengepung kita setiap saat ini.
Setidaknya ada 3 dimensi dasar yang menjadi karakteristik dari Big Data , yaitu :
1. Volume
Setiap hari, diperkirakan jumlah lautan data yang lalu lalang dimuka bumi setidaknya mencapai 2.5 Exabyte (1 Exabyte = 1 Milyar Gigabyte) dan itu hampir dipastikan selalu bertambah setiap harinya. Facebook saja menghasilkan 10 terabyte data perhari, Twitter 7 terabyte per hari, belum lagi data yang dihasilkan operator telekomunikasi. Di tahun 2020, diperkirakan jumlah data yang dihasilkan perhari akan mencapai 35 Zettabyte (1 Zettabyte = 1000 Exabyte)
2. Variety
Dengan ledakan jumlah sensor, perangkat pintar dan teknologi social collaboration, maka jenis data yang dihasilkan pun menjadi sangat beragam. Kalau dulu kita hanya berurusan dengan data terstruktur, yang biasanya dengan mudah kita tampung dalam satu database relational, maka di era big data ini kita harus berurusan dengan jenis data yang bercampur baur. Mulai dari data mentah, semi terstruktur, tidak terstruktur, search index, activity stream dari sosial media, log files, gambar, video dan lain sebagainya.
3. Velocity
Kalau sebelumnya, data itu dikumpulkan secara periodik, 'dibersihkan', disimpan berdasarkan struktur tertentu, untuk kemudian dilakukan analisis terhadap data tersebut. Data-data seperti ini sekarang disebut dengan istilah 'data in rest'. Dalam konteks Big Data, dengan sumber dan jenis data yang beragam, maka data akan muncul dalam bentuk aliran (stream) dengan kecepatan yang luar biasa, yang diistilahkan dengan 'data in motion'.
Bayangkan misalnya, aliran data yang dihasilkan dari pergerakan harga atau index di bursa saham, atau data yang dihasilkan dari sensor-sensor yang diletakkan pada jarak tertentu di rel kereta api di negara maju, atau data yang dihasilkan dari pergerakan benda-benda yang memiliki sensor GPS yang selalu bergerak di muka bumi ini.
Atau contoh yang familiar, jika kita memiliki cukup banyak teman di Facebook atau Twitter, kita akan melihat perubahan di timeline kita secara terus menerus. Dimana meskipun data di timeline tersebut memiliki format JSON, tapi konten text di dalamnya sangat tidak terstruktur.
Big Data, Warehousing, & Hadoop
Dengan karakteristik seperti di atas, jelas pendekatan tradisional dalam pengelolaan data tidak lagi memadai. Dalam sejumlah organisasi/korporasi besar, biasanya data akan dikumpulkan berdasarkan struktur tertentu dalam sebuah data warehouse, untuk kemudian dilakukan analisis. Hanya saja pendekatan warehousing ini hanya bisa dilakukan untuk data-data yang sebelumnya sudah kita ketahui manfaatnya.
Di sisi lain, dalam konteks aliran data in motion yang dihasilkan dari berbagai sumber itu, kita seringkali belum tahu apa manfaat dari serbuan data itu, kita hanya punya feeling bahwa data itu akan berguna, tapi hasil akhirnya apa belum bisa dipastikan saat data itu kita capture.
Untuk data yang sudah kita tahu manfaatnya, tentu kita bisa berhitung terkait investasi sebesar apa yang dibutuhkan untuk membangun sebuah data warehouse. Tapi untuk data yang kita sendiri belum yakin akan manfaatnya, tentu akan sulit membuat justifikasi untuk pengadaan infrastruktur yang besar untuk menyimpan dan mengolah data tersebut.
Untungnya, sejak beberapa waktu lalu sudah hadir teknologi 'Hadoop' yang bisa menjadi solusi. Secara sederhana, Hadoop adalah teknik penyimpanan dan pengelolaan data yang memungkinkan data disebar ke sejumlah cluster.
Kalau untuk datawarehouse, kita langsung menyediakan sebuah infrastruktur besar sesuai dengan perhitungan jumlah dan manfaat. Maka dengan Hadoop, kita bisa mulai menyimpan dan mengolah data dengan yang sebuah server kecil untuk kemudian berkembang ke dalam sejumlah cluster jika memang dibutuhkan.
Sifat Hadoop yang scalable dan flexible ini menjadi jodoh yang sempurna untuk dikawinkan dengan model cloud computing yang juga memiliki sifat elastis, untuk menjadi sebuah model pengelolaan Big Data yang cost efektif.
Selain dari sisi infrastruktur, kita juga memerlukan pendekatan baru di sisi analisis, untuk bisa memetik manfaat dari Big Data ini. Kalau dalam model tradisional analisis dilakukan dengan menggunakan kriteria tertentu yang sudah dibakukan, maka untuk melakukan analisis terhadap Big Data, kriteria itu tidak mungkin bisa ditentukan, karena kita sendiri belum belum bisa memastikan apa dan dimana kita akan mencari manfaat dari data itu sendiri. Sehingga diperlukan sebuah model analytics yang benar-benar bisa 'belajar sambil jalan' untuk menemukan pola-pola tertentu dari sejumlah besar timbunan data yang kita miliki.
Mungkin bisa dianalogikan dengan proses penambangan emas, mekanisme analisis data tradisional itu ibarat menambang emas di tempat yang memang sudah sangat terang benderang memiliki kandungan emas dan hanya fokus di areal yang sempit itu saja, sedangkan untuk mendapatkan manfaat dari analisa big data itu ibarat penambangan emas modern yang mengeruk gunung yang kita curigai mengandung emas.
Meskipun dari puluhan ton tanah yang diangkut dalam satu truk itu mungkin hanya beberapa gram emas yang didapatkan, tapi karena yang dikeruk adalah gunung, hasil akhirnya tentu sudah kita pastikan bahwa yang mengeruk gunung dengan cara modern, akan menghasilkan emas jauh lebih banyak dibandingkan penambangan emas secara tradisional.
Akhirnya akan kembali lagi ke kita, apakah kita akan membiarkan diri kita tenggelam, atau kita memilih menggali emas dalam dari timbunan data yang mengepung kita setiap saat ini.
Big Data
4/
5
Oleh
Rick Kevin
Untuk menulis dengan huruf bold gunakan <strong> kata </strong> atau <b> kata </b>
Untuk menulis dengan huruf italic gunakan <em> kata </em> atau <i> kata </i>
Untuk menyisipkan kode pendek, gunakan <i rel="code"> ... KODE ... </i>
Untuk menyisipkan kode panjang, gunakan <i rel="pre"> ... KODE ... </i>
Untuk menyisipkan gambar, gunakan <i rel="image"> ... URL GAMBAR ... </i>