Apa sih Data Science Methodology? Kenapa Mahasiswa Perlu Paham?

Published by

on

Di era big data ini, perkembangan suatu data semakin pesat. Hal ini bisa dilihat dari sisi volume suatu data itu sendiri. Maka dari itu diperlukan suatu keilmuan yang menerapkan algoritma-algoritma rumit serta kemampuan di bidang ilmu tertentu dengan keahlian pemrograman, matematika, dan statistik. Keilmuan tersebut dikenal sebagai Data Science.

Mengapa Data Science Penting?

Data science adalah ilmu yang penting, karena bisnis kecil maupun besar sangat bergantung pada data.

Jika perusahaan tidak mampu mengolah data, bisnis tidak akan memiliki pedoman untuk strategi operasi yang efektif dan efisien untuk mendapat keuntungan.

Maka dari itu, sebgai modal untuk bersaing di dunia pekerjaan, setidaknya mahasiswa harus paham mengenai hal-hal yang berkaitan dengan keilmuan yang satu ini.

Methodology Data Science

Sebelum lebih jauh mengenal data science, tentunya kita harus memahami langkah-langkah dari data science itu sendiri atau yang biasa dikenal sebagai methodology data science. Methodology data science adalah langkah-langkah yang digunakan dalam proyek data science agar dapat menghasilkan hasil yang optimal yang dapat menjawab pertanyaan dari suatu masalah yang ingin diselesaikan.

Secara umum, data science dikelompokan menjadi 2 kelompok, yakni kelompok metodologi teknis dan kelompok metodologi lengkap (bisnis).

Metodologi Teknis

Dalam metodologi teknis terdapat 2 contoh diantaranya, yakni Metodologi Knowledge Discovery and data Mining (KDD) dan Metodologi Sampel, Emplore, Modify, Model dan Assess (SEMMA)

Knowledge Discovery and data Mining (KDD)

KDD merupakan proses pemanfaatan metode data mining untuk mengekstraksi pengetahuan sesuai dengan ukuran atau threshold yang ditentukan.

Proses pengolahan data menurut metodologi ini dimulai dengan adanya sekumpulan data (dataset) yang akan mengalamai serangkaian proses sebagai berikut :

  1. Selection : Pemilihan data (data target) yang akan menjadi sampel untuk proses selanjutnya.
  2. Preprocessing data : Melakukan serangkaian proses untuk melengkapi data dan menjaga konsistensi data.
  3. Transformation : Mengubah representasi data untuk mempermudah danmemperbaiki agar sesuai dengan Teknik data mining yang akan dipergunakan.
  4. Data Mining : Kegiatan pengembangan model untuk mencari pola dari data yangdiberikan
  5. Evaluation : Proses interpretasi dan evaluasi pola yang diperoleh apakah pola yang menarik berguna atau relevan.
Sample, Emplore, Modify, Model dan Assess (SEMMA)

Dapat digunakan untuk memudahkan pengguna untuk memprediksi tentang variabel-variabel yang mengacu melakukan proses sebuah proyek data mining.

Proses data mining SEMMA memiliki 5 proses tahapan yaitu Sample, Explore, Modify, Model, dan Assess yang mana serangkaian kegitanannya bersifat siklik (berulang), diantaranya :

  1. Sample : Proses ekstraksi data untuk mendapatkan dataset yang cukup untuk mendapatkan nformasi signifikan namun tidak terlalu besar sehingga mudah untuk diproses selanjutnya.
  2. Explore : Proses untuk mengeksplorasi data dengan mencari trend dan anomali untuk mendapatkan pemahaman tentang data.
  3. Modify : Proses modifikasi data dengan membuat, memilih dan transformasi variable untuk proses pemodelan.
  4. Model : Proses pemodelan dari data dengan mencari secara otomatis kombinasi data yang dapat dipakai untuk prediksi.
  5. Assess : Mengevaluasi pola yang ditemukan apakah berguna dan cukup andal.

Metodologi Lengkap (Bisnis)

Dalam metodologi lengkap atau yang biasa dikenal dengan metodologi bisnis, terdapat beberapa contoh diantaranya : Cross-Industry Standard Process for Data Mining (CRISP-DM), IBM Data Science Methodology, Microsoft’s Team Data Science Process, dan Domino DataLab Methodology.

Cross-Industry Standard Process for Data Mining (CRISP-DM).

Pada meodologi ini terdapat 6 tahapan yang bersifat adaptif dan terurut. DImana output dari setiap tahapan yag ada dalam metode ini saling mempengaruhi satu sama lain, dalam kata lain tahap sebelumnya akan mempengarhi tahap selanjutnya yang ada dalam proses CRISP-DM (Ginantara el al.2021).

Tahapan dari metodologi ini diantaranya :

  1. Business Understanding : Kegiatan yang dilakukan antara lain: menentukan tujuan dan persyaratan dengan jelas secara keseluruhan, menerjemahkan tujuan tersebut serta menentukan pembatasan dalam perumusan masalah data mining, dan selanjutnya mempersiapkan strategi awal untuk mencapai tujuan tersebut.
  2. Data Understanding : Secara garis besar untuk memeriksa data. Tahap ini memberikan fondasi analitik untuk sebuah penelitian dengan membuat ringkasaan (summary) dan mengidentifikasi potensi masalah dalam data.
  3. Data Preparation : Secara garis besar untuk memperbaiki masalah dalam data, kemudian membuat variabel derived.
  4. Modeling : Secara garis besar untuk membuat model prediktif atau deskriptif. Pada tahap ini dilakukan metode statistika dan Machine Learning untuk penentuan terhadap teknik data mining, alat bantu data mining, dan algoritma data mining yang akan diterapkan.
  5. Evaluation : Melakukan interpretasi terhadap hasil dari data mining yang dihasilkan dalam proses pemodelan pada tahap sebelumnya. Evaluasi dilakukan terhadap model yang diterapkan pada tahap sebelumnya dengan tujuan agar model yang ditentukan dapat sesuai dengan tujuan yang ingin dicapai dalam tahap pertama.
  6. Deployment : Perencanaan untuk Deployment dimulai selama Business Understanding dan harus menggabungkan tidak hanya bagaimana untuk menghasilkan nilai model, tetapi juga bagaimana mengkonversi skor keputusan, dan bagaimana untuk menggabungkan keputusan dalam sistem operasional.
IBM Data Science.

Tujuan dari metodologi ini adalah untyk berbagi metodologi yang dapat digunakan dalam data science, untuk memastikan bahwa data yang digunakan dalam pemecahan masalah relevan dan dimanipulasi dengan benar untuk menjawab pertanyaan.

Adapun beberapa tahapan pada metodologi ini diantaranya :

  1. Business Understanding : memahami apakah tujuan bisnis untuk meningkatkan efisiensi kegiatan atau untuk menambah jenis kegiatan. Setelah tujuan diklarifikasi, langkah selanjutnya adalah mencari tahu kira-kira apa saja yang bisa mendukung tujuan.
  2. Analytic Understanding : Berdasarkan pemahaman bisnis sebelumnya, kita harus memutuskan pendekatan analitis mana yang harus diikuti, yaitu:
  3. Deskriptif → status saat ini dan informasi yang diberikan.
  4. Diagnostik → analisis statistik, apa yang terjadi dan mengapa itu terjadi.
  5. Prediktif → meramalkan tren atau kemungkinan kejadian di masa depan.
  6. Preskriptif → bagaimana masalah harus diselesaikan
  7. Data Requirements : Metode analisis yang telah dipilih sebelumnya menunjukkan isi, format, dan sumber data yang diperlukan untuk dikumpulkan. Selama proses kebutuhan data,
    kita harus menemukan jawaban atas pertanyaan-pertanyaan seperti apa, dimana, kapan, mengapa, bagaimana, siapa.
  8. Data Collenction : Data yang dikumpulkan dapat diperoleh dalam format acak, selanjutnya data yang dikumpulkan harus divalidasi.
  9. Data Understanding : Mengumpulkan data berdasarkan masalah yang akan dipecahkan. Statistik perlu digunakan untuk memastikan apakah ada nilai yang hilang atau tidak.
  10. Data Preparation : melakukan pembersihan data dan pemilihan data.
  11. Modelling : Pada tahap ini Data Scientist menentukan apakah data yang disiapkan sudah sesuai atau membutuhkan lebih banyak finishing dan bumbu.
  12. Evaluation : Evaluasi model dilakukan selama proses pengembangan model.
  13. Deployment : Tahap implementasi dan pengujian akhir.
  14. Feedback : Setelah proses penyebaran model, stakeholder akan mendapatkan feedback tentang kinerja model. Menganalisis umpan balik memungkinkan Data Scientist untuk menyempurnakan model dan meningkatkan akurasi dan kegunaannya.
Microsoft’s Team Data Science Process (TDSP).

Merupakan metodologi data science yang tangkas dan berulang untuk memberikan solusi analisis prediktif dan aplikasi cerdas secara Metodologi dapat membantu membantu meningkatkan kolaborasi dan pembelajaran tim dengan menyarankan bagaimana peran-peran tim dapat bekerjasama dengan semaksimal mungkin. Tujuan metodologi ini adalah untuk membantu perusahaan sepenuhnya mendapatkankan manfaat dari program analitik mereka.

Adapun tahapan-tahapan daripada metodologi ini diantarannya, adalah :

  1. Business Understanding : Kegiatan untuk memahami masalah yang dihadapi.
  2. Data Acquisition and Understanding : Kegiatan yang meliputi proses pengumpuilan dan eksplorasi data. Eksplorasi (data wrangling) meliputi pembersihan data, validasi dan visualisasi.
  3. Modeling : Pengembangan model yang meliputi feature engineering, model fitting, dan model evaluation.
  4. Deployment : Pemasangan model ke dalam aplikasi intelijen, suatu web service atau objek pada model store. Proses diakhiri dengan UAT (Customer Acceptance).
Domino DataLab.

Metodologi ini mampu mengubah cara kerja tim ilmu data, menghadirkan platform ilmu data perusahaan yang mempercepat penelitian dan meningkatkan kolaborasi.

Adapun tahapan-tahapan dari metodologi ini, diantaranya :

  1. Ideation : adalah pemahaman terhadap masalah pada proses bisnis serta identifikasi objektif bisnisnya. Langkah berikutnya adalah melakukan perhitungan terhadap objektif bisnis
    tersebut beserta Cost-Benefit Analysis.
  2. Data Acquisition and Preparation : Menentukan data yang diperlukan baik yang berasal dari sistem internal ataupun eksternal. Setelah proses akuisisi dilakukan eksplorasi terhadap data dan juga proses persiapan data.
  3. Research and Development : Pemodelan dilakukan sebagai suatu kegiatan pembuktian hipotesa dan pemodelan. Jika hasil sudah dianggap cukup maka dilakukan kegiatan berikutnya sementara jika belum dilakukan perbaikan data atau perubahan hipotesa. Dalam proses eksperimen, selaain metrik statistic dipergunhakan juga KPI organisasi.
  4. Validation : Model yang sudah dibuat divalidasi dari sudut bisnis dan teknis sebelum dipasang (deployment)
  5. Delivery : Deployment yang dimulai dengan perencanaan, lalu pemasangan dan perawatan sistem. Dalam proses ini juga dilakukan UAT (User Acceptance Testing).

Metodologi ini dilengkapi dengan dafatr personal yang terlibat pada setiap langkah baik data scientist, business people, dan petugas Information technology Division. Juga dilengkapi daftar tools yang bisa dipergunakan dalam setiap langkah metodologi.

Perbandingan Antara Methodology-Methodology dalam Data Science

Metodologi KDD, SEMMA, dan CRISP-DM memiliki kesamaan dilihat dari proses alur berfikir, dimana alur cycle untuk antar sub proses ataupun dari first dan last proses. Umumnya alur disini membuat kita berfikir jika ada hal yang dirasa salah ketika berada dalam satu sub proses, maka kita harus mundur untuk memperbaikinya. Jikapun tidak menemukan akar permasalahannya, maka selesaikan hingga proses terakhir dan evaluasi secara keseluruhan untuk memperbaiki analisis selanjutnya.

Walaupun sekilas mereka mempunyai nama yang berbeda dalam sub prosesnya, secara umum mereka mempunyai mindmap yang sama. Berikut adalah perbandingan dari ketiga proses tersebut :

Untuk Kelompok metodologi lengkap (bisnis) umumnya memiliki tahapan atau alur yang sama, hanya saja dari satu metodologi ke metodologi lainnya pasti terdapat alur yang diperbarui guna menyempurnakan pengerjaan data science itu sendiri.

Hal ini bisa dilihat dari metodologi CRISP-DM dan IBM Data Science Metodology yang memiliki alur yang sama tetapi, pada IBM terdapat perubahan pada bagian Buiseness Understanding yang semakin diperjelas cara pandangnya.

Selanjutnya pada metodologi Microsoft’s Team Data Science Process (TDSP) merupakan pengembangan daripada kedua metodologi sebelumnya. Dijelaskan bahwa kedua metodologi tersebut tidak menjelaskan bahwa siapa mengerjakan apa, jadi dalam data science seolah-olah semua dikerjakan oleh seorang data scientist, padahal kegiatan seluruh kegiatan data science merupakan kegiatan team, maka dalam hal ini microsoft memberikan rule pada setiap alur atau tahapan dari metodologinya. Dalam hal ini siapa mengerjakan apa sudah memiliki gambaran yang jelas.

Kemudian untuk metodologi Domino’s DataLab merupakan pengembangan daripada ketiga metodologi sebelumnya yang mampu menghadirkan berbagai macam tools yang diperlukan dalam pengerjaan data.

Kelebihan dan Kekurangan

Pada tiap-tiap metodologi tentunya terdapat beberapa kekurangan dan juga kelebihan, diantaranya :

KDD (Knowledge Discovery in Databases)

  • Kelebihan : Memungkinkan pengembang untuk menemukan pola yang tidak terduga dalam data.
  • Kekurangan : Kurang mempertimbangkan kebutuhan bisnis.

SEMMA (Sample, Explore, Modify, Model, Assess)

  • Kelebihan : Fokus pada pengembangan model prediktif yang akurat.
  • Kekurangan : Kurang mempertimbangkan aspek bisnis dan sosial.

CRISP-DM (Cross Industry Standard Process for Data Mining)

  • Kelebihan : Pendekatan sistematis untuk memecahkan masalah bisnis.
  • Kekurangan : Kurang fleksibel jika terjadi perubahan kebutuhan bisnis.

Namun pada dasarnya, pemilihan metodologi yang tepat harus didasarkan pada tujuan proyek, kebutuhan bisnis, kemampuan tim pengembang, dan jenis data yang digunakan. Kelebihan dan kekurangan dari setiap metodologi harus dipertimbangkan dengan cermat sebelum memilih metodologi yang paling sesuai untuk proyek data science tertentu.

Source :

https://glints.com/id/lowongan/data-science-adalah/#.ZDHrCHZBzrc

KDD, SEMMA and CRISP-DM – Data dan Sastra (wordpress.com)

https://www.youtube.com/watch?v=3auugZzOJyE

Tinggalkan komentar

Rancang situs seperti ini dengan WordPress.com
Ayo mulai