Ilmu Data di Dunia Big Data

Mendefinisikan ilmu data dan data besar

Data besar adalah istilah umum untuk kumpulan kumpulan data yang begitu besar atau kompleks. Sehingga menjadi sulit untuk diproses menggunakan teknik manajemen data tradisional seperti, misalnya, RDBMS (sistem manajemen basis data relasional). RDBMS yang diadopsi secara luas telah lama dianggap sebagai solusi satu ukuran untuk semua. Tetapi tuntutan penanganan data besar telah menunjukkan sebaliknya.

Ilmu data melibatkan penggunaan metode untuk menganalisis sejumlah besar data dan mengekstrak pengetahuan yang dikandungnya. Anda dapat menganggap hubungan antara data besar dan ilmu data seperti hubungan antara minyak mentah dan kilang minyak. Ilmu data dan data besar berevolusi dari statistik dan manajemen data tradisional tetapi sekarang dianggap sebagai disiplin ilmu yang berbeda.

Karakteristik Big Data

Karakteristik big data sering disebut sebagai tiga V:

  • Volume—Berapa banyak data yang ada?
  • Variasi—Seberapa beragam jenis data yang berbeda?
  • Kecepatan—Pada kecepatan berapa data baru dihasilkan?

Seringkali karakteristik ini dilengkapi dengan V keempat, kejujuran: Seberapa akurat datanya? Keempat properti ini membuat data besar berbeda dari data yang ditemukan di alat manajemen data tradisional. Akibatnya, tantangan yang mereka bawa dapat dirasakan di hampir setiap aspek: pengambilan data, kurasi, penyimpanan, pencarian, berbagi, transfer, dan visualisasi. Selain itu, data besar memerlukan teknik khusus untuk mengekstrak wawasan.

Ilmu Data

Ilmu data adalah perpanjangan evolusioner dari statistik yang mampu menangani sejumlah besar data yang dihasilkan saat ini. Ini menambahkan metode dari ilmu komputer ke repertoar statistik. Dalam catatan penelitian dari Laney and Kart, Emerging Role of the Data Scientist and the Art of Data Science, penulis menyaring ratusan deskripsi pekerjaan untuk ilmuwan data, ahli statistik, dan analis BI (Business Intelligence) untuk mendeteksi perbedaan antara judul-judul tersebut. .

Hal utama yang membedakan ilmuwan data dari ahli statistik adalah kemampuan untuk bekerja dengan data besar. Dan pengalaman dalam pembelajaran mesin, komputasi, dan pembuatan algoritme. Alat mereka juga cenderung berbeda, dengan deskripsi pekerjaan ilmuwan data. Lebih sering menyebutkan kemampuan untuk menggunakan antara lain Hadoop, Pig, Spark, R, Python, dan Java. Jangan khawatir jika Anda merasa terintimidasi oleh daftar ini; sebagian besar akan diperkenalkan secara bertahap dalam buku ini, meskipun kami akan fokus pada Python.

Python adalah bahasa yang bagus untuk ilmu data. Karena memiliki banyak perpustakaan ilmu data yang tersedia, dan didukung secara luas oleh perangkat lunak khusus. Misalnya, hampir setiap database NoSQL populer memiliki API khusus Python. Karena fitur-fitur ini dan kemampuan untuk membuat prototipe dengan cepat dengan Python. Sambil mempertahankan kinerja yang dapat diterima, pengaruhnya terus berkembang di dunia ilmu data.

Jumlah data terus bertambah dan kebutuhan untuk memanfaatkannya menjadi semakin penting. Setiap ilmuwan data akan menemukan proyek data besar sepanjang karier mereka.

Manfaat dan kegunaan ilmu data dan data besar

Ilmu data dan data besar digunakan hampir di mana-mana baik dalam pengaturan komersial maupun non komersial. Perusahaan komersial di hampir setiap industri menggunakan ilmu data dan data besar. Untuk mendapatkan wawasan tentang pelanggan, proses, staf, penyelesaian, dan produk mereka.

Banyak perusahaan menggunakan ilmu data untuk menawarkan pengalaman pengguna yang lebih baik kepada pelanggan. Serta untuk menjual silang, menjual lebih tinggi, dan mempersonalisasi penawaran mereka. Contoh bagusnya adalah Google AdSense, yang mengumpulkan data dari pengguna internet. Sehingga pesan komersial yang relevan dapat dicocokkan dengan orang yang menjelajah internet. MaxPoint (http://maxpoint.com/us adalah contoh lain dari iklan hasil personalisasi waktu nyata.

Nilai Data

Organisasi pemerintah juga menyadari nilai data. Banyak organisasi pemerintah tidak hanya mengandalkan ilmuwan data internal untuk menemukan informasi berharga, tetapi juga berbagi data mereka dengan publik. Anda dapat menggunakan data ini untuk mendapatkan wawasan atau membangun aplikasi berbasis data. Data.gov hanyalah salah satu contoh; ini adalah rumah bagi data terbuka Pemerintah AS. Seorang ilmuwan data di organisasi pemerintah dapat mengerjakan beragam proyek. Seperti mendeteksi penipuan dan aktivitas kriminal lainnya atau mengoptimalkan pendanaan proyek.

Contoh terkenal diberikan oleh Edward Snowden, yang membocorkan dokumen internal Badan Keamanan Nasional Amerika dan Kantor Pusat Komunikasi Pemerintah Inggris. Yang menunjukkan dengan jelas bagaimana mereka menggunakan ilmu data dan data besar untuk memantau jutaan individu. Organisasi-organisasi tersebut mengumpulkan 5 miliar catatan data dari aplikasi yang tersebar luas. Seperti Google Maps, Angry Birds, email, dan pesan teks, di antara banyak sumber data lainnya. Kemudian mereka menerapkan teknik ilmu data untuk menyaring informasi.

Penggunaan Data

Lembaga Swadaya Masyarakat (LSM) juga tidak asing dengan penggunaan data. Mereka menggunakannya untuk mengumpulkan uang dan membela tujuan mereka. Dana Margasatwa Dunia (WWF), misalnya, mempekerjakan ilmuwan data untuk meningkatkan efektivitas upaya penggalangan dana mereka. Banyak ilmuwan data yang mencurahkan sebagian waktunya untuk membantu LSM. Karena LSM sering kekurangan sumber daya untuk mengumpulkan data dan mempekerjakan ilmuwan data. DataKind adalah salah satu kelompok ilmuwan data yang mencurahkan waktunya untuk kepentingan umat manusia.

Universitas menggunakan ilmu data dalam penelitian mereka tetapi juga untuk meningkatkan pengalaman belajar siswa mereka. Munculnya kursus online terbuka besar-besaran (MOOC) menghasilkan banyak data. Yang memungkinkan universitas untuk mempelajari bagaimana jenis pembelajaran ini dapat melengkapi kelas tradisional. MOOC adalah aset yang tak ternilai jika Anda ingin menjadi ilmuwan data dan profesional big data. Lihatlah beberapa yang lebih terkenal: Coursera, Udacity, dan edX. Data besar dan lanskap ilmu data berubah dengan cepat. Dan MOOC memungkinkan Anda untuk tetap mengikuti perkembangan terkini dengan mengikuti kursus dari universitas terkemuka. Jika Anda belum mengenalnya, luangkan waktu untuk melakukannya sekarang; Anda akan mencintai mereka seperti kami.

Sumber: Cielen, D., A.D.B. Meysman, and M. Ali, 2016. Introducing Data Science: Big Data, Machine Learning, and more, Using Python Tools. Manning Publications Co. Shelter Island, NY

Related Posts

Leave a Reply

Your email address will not be published. Required fields are marked *