Mengikuti pendekatan terstruktur untuk ilmu data membantu Anda memaksimalkan peluang keberhasilan dalam proyek ilmu data dengan biaya terendah. Hal ini juga memungkinkan untuk mengambil sebuah proyek sebagai sebuah tim, dengan masing-masing anggota tim berfokus pada apa yang mereka lakukan yang terbaik. Namun berhati-hatilah: pendekatan ini mungkin tidak cocok untuk setiap jenis proyek atau menjadi satu-satunya cara untuk melakukan ilmu data yang baik.

Proses Data Science

Proses ilmu data yang khas terdiri dari enam langkah yang akan Anda lakukan, seperti yang ditunjukkan pada gambar 1.

Sumber Gambar: Cielen, D., A.D.B. Meysman, and M. Ali (2016)
Gambar 1: The six steps of the data science process

Keterangan Gambar:

Pada gambar 1 merangkum proses ilmu data dan menunjukkan langkah-langkah dan tindakan utama yang akan Anda ambil selama sebuah proyek.

  1. Langkah pertama dari proses ini adalah menetapkan tujuan penelitian. Tujuan utama di sini adalah memastikan semua pemangku kepentingan memahami apa, bagaimana, dan mengapa proyek tersebut. Dalam setiap proyek yang serius ini akan menghasilkan sebuah piagam proyek.
  2. Tahap kedua adalah pengambilan data. Anda ingin memiliki data yang tersedia untuk dianalisis, jadi langkah ini termasuk menemukan data yang sesuai dan mendapatkan akses ke data dari pemilik data. Hasilnya adalah data dalam bentuk mentahnya, yang mungkin memerlukan pemolesan dan transformasi sebelum dapat digunakan.
  3. Sekarang setelah Anda memiliki data mentah, saatnya untuk menyiapkannya. Ini termasuk mengubah data dari formulir mentah menjadi data yang dapat langsung digunakan dalam model Anda. Untuk mencapai ini, Anda akan mendeteksi dan memperbaiki berbagai jenis kesalahan dalam data, menggabungkan data dari sumber data yang berbeda, dan mengubahnya. Jika Anda telah berhasil menyelesaikan langkah ini, Anda dapat melanjutkan ke visualisasi dan pemodelan data.
  4. Langkah keempat adalah eksplorasi data. Tujuan dari langkah ini adalah untuk mendapatkan pemahaman yang mendalam tentang data. Anda akan mencari pola, korelasi, dan penyimpangan berdasarkan teknik visual dan deskriptif. Wawasan yang Anda peroleh dari fase ini akan memungkinkan Anda untuk memulai pemodelan.
  5. Akhirnya, kita sampai pada bagian paling seksi: pembuatan model (sering disebut sebagai “pemodelan data”). Sekarang Anda mencoba untuk mendapatkan wawasan atau membuat prediksi yang dinyatakan dalam piagam proyek Anda.
  6. Langkah terakhir dari model data science adalah mempresentasikan hasil Anda dan mengotomatisasi analisis, jika diperlukan. Salah satu tujuan proyek adalah untuk mengubah proses dan/atau membuat keputusan yang lebih baik. Anda mungkin masih perlu meyakinkan bisnis bahwa temuan Anda memang akan mengubah proses bisnis seperti yang diharapkan.

Model

Mengikuti enam langkah ini terbayar dalam hal rasio keberhasilan proyek yang lebih tinggi dan peningkatan dampak hasil penelitian. Proses ini memastikan Anda memiliki rencana penelitian yang terdefinisi dengan baik, pemahaman yang baik tentang pertanyaan bisnis, dan hasil yang jelas bahkan sebelum Anda mulai melihat data. Langkah pertama dari proses Anda berfokus pada mendapatkan data berkualitas tinggi sebagai masukan untuk model Anda. Dengan cara ini model Anda akan tampil lebih baik di kemudian hari. Dalam ilmu data ada pepatah terkenal: Sampah masuk sama dengan sampah keluar.

Manfaat lain dari mengikuti pendekatan terstruktur adalah Anda bekerja lebih banyak dalam mode pro totype saat Anda mencari model terbaik. Saat membangun prototipe, Anda mungkin akan mencoba beberapa model dan tidak akan terlalu fokus pada masalah seperti kecepatan program atau penulisan kode yang bertentangan dengan standar. Hal ini memungkinkan Anda untuk fokus pada membawa nilai bisnis sebagai gantinya.

Proyek Data Science

Tidak setiap proyek diprakarsai oleh bisnis itu sendiri. Wawasan yang dipelajari selama analisis atau kedatangan data baru dapat menelurkan proyek baru. Ketika tim ilmu data menghasilkan sebuah ide, pekerjaan telah dilakukan untuk membuat proposisi dan menemukan sponsor bisnis.

Membagi proyek menjadi tahap-tahap yang lebih kecil juga memungkinkan karyawan untuk bekerja sama sebagai sebuah tim. Dan tidak mungkin menjadi spesialis dalam segala hal. Anda harus tahu cara mengunggah semua data ke semua basis data yang berbeda, menemukan skema data optimal yang berfungsi tidak hanya untuk aplikasi Anda tetapi juga untuk proyek lain di dalam perusahaan Anda, dan kemudian melacak semua statistik dan data- teknik penambangan, sekaligus ahli dalam alat presentasi dan politik bisnis. Itu tugas yang sulit, dan itulah sebabnya semakin banyak perusahaan mengandalkan tim spesialis daripada mencoba menemukan satu orang yang dapat melakukan semuanya.

Proses yang kami jelaskan di bagian ini paling cocok untuk proyek ilmu data yang hanya berisi beberapa model. Ini tidak cocok untuk setiap jenis proyek. Misalnya, sebuah proyek yang berisi jutaan model waktu nyata akan membutuhkan pendekatan yang berbeda dari alur yang kami jelaskan di sini. Namun, seorang ilmuwan data pemula harus menempuh jalan panjang untuk mengikuti cara kerja ini.

Sumber: Cielen, D., A.D.B. Meysman, and M. Ali, 2016. Introducing Data Science: Big Data, Machine Learning, and more, Using Python Tools. Manning Publications Co. Shelter Island, NY

Related Posts

Leave a Reply

Your email address will not be published. Required fields are marked *