Big Data Ecosystem

Big Data Ecosystem
Oleh: Arsi Amallah Binhaq

Pada tulisan ini kami akan sedikit membahas mengenai ekosistem dari big data. Pada kuliah kami dibahas mengenai teknologi tren yang terbaru dan salah satunya adalah teknologi big data. ITB mulai sering mengadakan seminar mengenai big data mengingat pentingnya teknologi tersebut di zaman sekarang. Hampir semua institusi memanfaatkan teknologi big data untuk mengelola data yang dimiliki sehingga memiliki informasi yang bermanfaat bagi institusi tersebut.

DEFINISI BIG DATA
Big Data didefnisikan McKinsey Global sebagai data yang memiliki skala (volume), distribusi (velocity), dan keragaman (variety)  yang sangat besar atau lestari. Big data membutuhkan arsitektur teknikal dan metode analitik yang inovatif untuk mendapatkan pengetahuan dalam rangka menciptakan nilai bisnis baru [1].

Big Data adalah istilah yang mendeskripsikan besar ukuran data untuk menjalankan fondasi bagi bisnis. Jumlah yang besar tidak menentukan keberhasilan, akan tetapi cara mengolah data dan menjadikannya bermanfaat itu merupakan hal yang penting. Big data dapat dianalisis untuk wawasan yang menunjang keputusan dan strategi lebih baik [2]. 

Big Data adalah data yang besar baik bersifat terstruktur maupun tidak terstruktur. Dengan sifatnya yang terlalu besar menyulitkan untuk melakukan pemrosesan menggunakan basis data tradisional dan teknik perangkat lunak [3].


3V dalam BIG DATA
  1. Volume
    Ukuran merupakan salah satu karakteristik yang membedakan teknologi big data dengan basis data tradisional. Ukuran dalam big data dapat mencapai satuan terabytes dalam satu hari. Hal ini menuntut adanya pengelolaan data yang baik dan menghasilkan suatu informasi yang bermanfaat [1]. 
  2. Velocity
    Jumlah besar dari sebuah data yang berasal dari transaksi dengan kecepatan stream data yang cepat dan waktu untuk melakukan aksi kepada data sangat pendek. Terjadi juga pergeseran dari pemrosesan secara batch kepada stream secara langsung (real time) [4].
  3. Variety
    Data yang masuk ke sistem berasal dari berbagai macam sumber. Selain itu data hadir dalam format yang berbeda seperti bentuk tabel, XML, teks, gambar, dan lain sebagainya [4]. 
Rangkuman 3V [1]

Dalam pengelolaan big data perlu solusi yang mampu mencakup skala besar, pekerjaan paralel secara masif, dan biaya yang efektif [4]. 

BIG DATA ECOSYSTEM
Big Data Landscape [5]
Big Data bukan hanya sekadar masalah basis data atau hadoop saja, meskipun keduanya merupakan inti teknologi dan komponen dalam pemrosesan data berskala besar dan analisis data. Big Data semakin kompleks dengan berisi komponen untuk menyimpan, pemroses, visualisasi dan menyampaikan hasil kepada aplikasi. Big Data merupakan bahan bakar dari semua data yang berhubungan dengan proses, sumber, target dan outcome [3].
Proses menyampaikan data kepada pengguna [6].
Di gambar tersebut kita dapat melihat bahwa ada empat proses sampainya sebuah informasi kepada pengguna akhir. Mulai dari ingest yakni pengumpulan data dari berbagai macam raw data. Kemudian mulai disortir oleh data engineer. Kemudian data tersebut akan diproses dengan teknologi pembelajaran mesin oleh data scientist untuk mendapatkan data pembelajaran yang akan digunakan data analyst untuk memberikan analisis terbaik dari data yang didapatkan. Kemudian data tersebut akan diubah menjadi sebuah informasi berupa laporan kepada konsumen. 

Berikut ini merupakan ekosistem big data yang diusulkan oleh Pentaho. 
Ekosistem Big Data [6].
Pada gambar di atas dijelaskan beberapa alternatif teknologi yang digunakan dalam melakukan pemrosesan terhadap big data ditinjau dari 4 karakteristiknya seperti Volume, Velocity, Variety, dan Latency. Setiap teknologi memiliki keunggulan dalam menyelesaikan beberapa permasalahan yang berskala tertentu.

Selain itu Big Data memiliki 5 komponen penting yang membangun ekosistem di dalamnya sebagai mana poin berikut.
  1. Data Models, Structures, Types
    Berisi mengenai format data yang digunakan, data yang bersifat relasional/tidak, sistem file yang dugunakan seperti apa. 
  2. Big Data Management
    Terdiri atas siklus hidup big data, transformasinya, dan pengarsipan big data.
  3. Big Data Analytics and Tools
    Penggunaan aplikasi penunjang, siapakan target pengguna, bagaimana cara menyampaikan kepada pengguna.
  4. Big Data Infrastructure
    Infrastruktur penunjang big data baik berupa storage, high-computing, network, sensor network, perangkat, penunjang operasional lainnya.
  5. Big Data Security
    Keamanan data saat posisi stabil, berpindah, dan lingkungan pemrosesan yang aman [3].
REFERENSI
[1] Cholissodin, I., 2016, Introduction to Big Data, Presentation [PDF], available at: http://imamcs.lecture.ub.ac.id/files/2012/08/2.-Pengantar-Big-Data-Big-Data_L1617_v3.06.pdf
[2] - - -, Big Data: What it is and Why it matters?, URL: https://www.sas.com/en_us/insights/big-data/what-is-big-data.html
[3] Demchenko, Y., & Membrey, P., 2014, Defining Architecture Components of the Big Data Ecosystem: Conference Paper - May 2014. available at: 
https://www.researchgate.net/publication/269272409
[4] Su, X., Introduction to Big Data: Learning Material Course IINI3012 NTNU. available at: https://www.ntnu.no/iie/fag/big/lessons/lesson2.pdf
[5] Datameer, 2016, 

The Big Data Ecosystem is Too Damn Big, URL: https://www.datameer.com/blog/big-data-ecosystem/.

[6] Burnette, M., Big Data Technology Platform: Pentaho World.
Big Data Ecosystem Big Data Ecosystem Reviewed by Arsi on 8:38 PM Rating: 5

No comments:

Powered by Blogger.