Data Analytic dan Machine Learning

 
Sumber: https://storage.googleapis.com/britech-blog-engineer-bri-3/2022/1/2022-01-19-112742977502-647b341a-e6ee-404d-9b35-b3160df22cfa.jpg

Apa itu Data?

Sumber: https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcTDYLTapYfeibajrlwF2r7K1fsQ2zsir9lwl27vqM8Nhg&s
Menurut Para Ahli, data adalah sekumpulan informasi yang diperoleh dari pengamatan, dapat berupa simbol, angka, dan properti. 

Kata data berasal dari Bahasa Latin, yakni “Datum” yang artinya sesuatu yang diberikan. Dari istilah itu, maka bisa kita jumpai arti data yang adalah hasil dari pengukuran atau pengamatan suatu variabel tertentu dalam bentuk kata-kata, warna, angka, simbol, dan keterangan lain.

Apa itu Data Analyst?

Sumber: https://connect-assets.prosple.com/cdn/ff/Zmqys5MjHrC_PhNRW4nxYf0GbpWf6FHQI_qOqdOdAQE/1656047047/public/2022-06/thumbnail-article-apa-itu-data-analyst-2022.jpg
Data analyst adalah orang yang meneliti dan menganalisis informasi menggunakan alat analisis data. Seorang Data Analyst juga bertanggung jawab dalam menganalisis data numerik, mengolah dan menerjemahkan data yang ada ke suatu laporan yang bisa mudah dipahami oleh perusahaan.

Data Analyst merupakan sebuah profesi yang melakukan pekerjaan dari suatu cabang ilmu yakni analisis data atau data analytics. Data Analytics sendiri adalah ilmu untuk menggali dan mengembangkan data besar (big data) untuk membantu dalam hal pembuatan keputusan yang lebih baik.

Apa itu Big Data?

Sumber: https://www.umn.ac.id/wp-content/uploads/2023/07/markus-spiske-hvSr_CVecVI-unsplash-1920x1280.jpg
Big Data adalah istilah yang digunakan untuk menggambarkan kumpulan data yang sangat besar dan kompleks yang terlalu banyak untuk dianalisis dan diproses menggunakan teknik dan metode tradisional. Istilah ini mencakup berbagai jenis data, termasuk data terstruktur dan tidak terstruktur, serta data yang dihasilkan dari berbagai sumber seperti media sosial, sensor, perangkat seluler, file log, dan server web.

Karena volume, variasi, dan kecepatan data terus meningkat dengan kecepatan eksponensial, pendekatan manajemen dan pemrosesan data tradisional tidak lagi memadai. Hal ini memunculkan konsep big data, yang membutuhkan teknologi dan teknik baru untuk menangani dan mendapatkan wawasan dari informasi yang sangat banyak ini.

Pandas DataFrame.

Pandas dataframe adalah struktur data berdimensi dua yang lazim digunakan dalam bahasa pemrograman Python untuk keperluan analisa data. Bisa dibilang, dataframe ini seperti tabel spreadsheet pada Microsoft Excel, namun fiturnya lebih canggih untuk manipulasi dan analisa data.

Secara umum, pandas dataframe dipakai oleh para praktisi data seperti data scientist, data analyst, dan data engineer untuk:

  • Membaca dan menulis data dari berbagai sumber seperti CSV, Excel, dan SQL.
  • Membersihkan dan mempersiapkan data untuk analisa.
  • Melakukan analisa data exploratif.
  • Memvisualisasikan data.

Contoh:

import pandas as pd

data = {
  "calories": [420, 380, 390],
  "duration": [50, 40, 45]
}

#load data into a DataFrame object:
df = pd.DataFrame(data)

print(df)

Hasil:

   calories  duration
0       420        50
1       380        40
2       390        45

Library Visualisasi Data Pada Python

1. Matplotlib:

  • Salah satu library paling populer untuk visualisasi data di Python.
  • Digunakan untuk membuat berbagai jenis grafik dan plot, seperti line plot, bar chart, histogram, dan scatter plot.
  • Memiliki banyak fitur untuk kustomisasi visualisasi, seperti warna, label, dan judul.
  • Mudah dipelajari dan digunakan.

2. Seaborn:

  • Dibangun di atas Matplotlib, menawarkan visualisasi data yang lebih menarik dan estetis.
  • Menyediakan berbagai fungsi untuk membuat grafik statistik yang kompleks, seperti violin plot, heatmap, dan box plot.
  • Memiliki palet warna yang indah dan tema visual yang siap pakai.
  • Cocok untuk analisis data statistik dan pembuatan laporan.

3. Plotly:

  • Memungkinkan pembuatan visualisasi data interaktif yang dapat dibagikan secara online.
  • Grafik Plotly dapat dizoom, diputar, dan dipan dengan mouse atau touchpad.
  • Mendukung berbagai jenis grafik, termasuk peta, gauge chart, dan candlestick chart.
  • Cocok untuk presentasi data dan kolaborasi.

4. Bokeh:

  • Library lain untuk visualisasi data interaktif dengan sintaks yang lebih mirip JavaScript.
  • Memungkinkan pembuatan grafik dan dashboard yang kompleks dengan kontrol interaktif.
  • Grafik Bokeh dapat diintegrasikan ke dalam aplikasi web dan dokumen.
  • Cocok untuk membangun aplikasi data interaktif.

5. Geeks for Geeks:

  • Sumber daya online yang menyediakan tutorial dan contoh visualisasi data dengan berbagai library Python.
  • Mencakup tutorial untuk Matplotlib, Seaborn, Plotly, dan Bokeh.
  • Cocok untuk pemula dan pengguna yang ingin mempelajari library visualisasi data baru.

Pemilihan library terbaik tergantung pada kebutuhan dan preferensi:

  • Matplotlib: Cocok untuk pemula dan tugas visualisasi data dasar.
  • Seaborn: Cocok untuk analisis data statistik dan pembuatan laporan.
  • Plotly: Cocok untuk presentasi data dan kolaborasi.
  • Bokeh: Cocok untuk membangun aplikasi data interaktif.
  • Geeks for Geeks: Cocok untuk mempelajari library visualisasi data baru.

Apa itu Machine Learning?

Sumber: https://datascientest.com/en/wp-content/uploads/sites/9/2021/01/Machine-learning-def-.png
Teknologi machine learning (ML) adalah mesin yang dikembangkan untuk bisa belajar dengan sendirinya tanpa arahan dari penggunanya. Pembelajaran mesin dikembangkan berdasarkan disiplin ilmu lainnya seperti statistika, matematika dan data mining sehingga mesin dapat belajar dengan menganalisa data tanpa perlu di program ulang atau diperintah.

Dalam hal ini machine learning memiliki kemampuan untuk memperoleh data yang ada dengan perintah ia sendiri. ML juga dapat mempelajari data yang ada dan data yang ia peroleh sehingga bisa melakukan tugas tertentu. Tugas yang dapat dilakukan oleh ML pun sangat beragam, tergantung dari apa yang ia pelajari.

Istilah machine learning pertama kali dikemukakan oleh beberapa ilmuwan matematika seperti Adrien Marie Legendre, Thomas Bayes dan Andrey Markov pada tahun 1920-an dengan mengemukakan dasar-dasar machine learning dan konsepnya. Sejak saat itu ML banyak yang mengembangkan. Salah satu contoh dari penerapan ML yang cukup terkenal adalah Deep Blue yang dibuat oleh IBM pada tahun 1996.

Apa itu Outlier Pada Data Analytic?

Outlier adalah bagian dari data yang sangat berbeda dari sebagian besar data lainnya. Mungkin sulit untuk menentukan apa yang tepat dianggap sebagai outlier, karena bisa bersifat subjektif. Outlier dapat dianggap sebagai bagian data yang sangat rendah atau tinggi, jauh dari rata-rata atau norma dari kumpulan data. Outlier bisa disebabkan oleh kebetulan atau kesalahan dalam pengukuran. Hal ini dapat mempengaruhi hasil analisis data secara keseluruhan, sehingga penting untuk mengidentifikasi dan menghapus outlier dari data. Ada berbagai cara untuk mengidentifikasi outlier, dan tidak ada cara baku yang tepat untuk setiap data.

Apa itu Model Supervised Learning?

Supervised learning adalah subkategori atau tipe dari machine learning yang menggunakan data-data yang berlabel sebagai inputnya. Data-data tersebut diharapkan dapat ‘supervise’ atau melatih algoritma sehingga nantinya dapat digunakan untuk proses klasifikasi atau prediksi suatu data baru secara akurat. Supervised learning sering digunakan untuk dua kasus utama yaitu classification dan regression.

Classification menggunakan sebuah algoritma untuk secara akurat dapat mengelompokkan data ke sejumlah kategori yang spesifik. Melalui data training, algoritma dapat mengenali sejumlah kelompok tertentu. Sehingga kemudian ketika dataset baru dijadikan output, algoritma dapat menarik kesimpulan label dari masing-masing data yang sesuai. Beberapa algoritma yang umum digunakan pada kasus classification adalah algoritma decision tree, k-nearest neighbor, random forest, dan support vector machine (SVM).

Regression secara umum digunakan untuk memahami hubungan antara variabel terikat dan variabel bebas. Misalnya, untuk memahami bisnis dalam perusahaan akan dilakukan tes apakah promo di tanggal kembar meningkatkan pendapatan perusahaan. Beberapa algoritma populer yang digunakan pada kasus regression adalah linear regression, logistical regression, dan polynomial regression.

Apa itu Cross Validation Sampling?

Cross-Validation (CV) adalah teknik yang digunakan untuk menilai dan menguji kinerja (akurasinya) model Machine Learning. Hal ini dilakukan dengan mengambil sampel spesifik dari kumpulan data yang modelnya tidak dilatih. Kemudian, model tersebut diuji pada sampel ini untuk mengevaluasinya. Validasi silang juga digunakan untuk melindungi model dari overfitting (kondisi model sangat baik hanya pada data latih dan buruk ketika diuji dengan data baru), terutama jika jumlah data yang tersedia terbatas.

Sederhananya, dalam proses Cross-Validation, sampel data asli dibagi secara acak menjadi beberapa subset kemudian model Machine Learning akan dilatih pada semua subset, kecuali satu subset yang nantinya digunakan untuk menguji model dalam membuat prediksi. Dalam banyak kasus, beberapa putaran validasi silang dilakukan menggunakan himpunan bagian yang berbeda, dan hasilnya dirata-ratakan untuk menentukan model terbaik.

Dengan demikian, Cross-Validation merupakan metode validasi model yang membagi data dengan cara yang kreatif untuk mendapatkan perkiraan kinerja model yang lebih baik dan meminimalkan kesalahan ketika memvalidasi model.

Apa itu Hyperparameter Tuning?

Hyperparameter tuning adalah proses mencari nilai optimal dari hyperparameter suatu model machine learning untuk memperbaiki performa model machine learning Ini dilakukan dengan mencoba berbagai nilai hyperparameter dan membandingkan hasil mereka dengan metrik performa seperti akurasi atau F1 score. Proses ini dapat menjadi rumit dan membutuhkan banyak waktu, tetapi hasilnya dapat meningkatkan performa model machine learning secara signifikan.

Sumber:

https://gemini.google.com/
https://telkomuniversity.ac.id/pengertian-data-fungsi-jenis-jenis-manfaat-dan-contohnya/
https://www.gramedia.com/literasi/pengertian-data/
https://bakrie.ac.id/articles/370-pekerjaan-data-analyst-adalah-profesi-yang-paling-banyak-dicari-baca-selengkapnya.html
https://id.prosple.com/career-planning/apa-itu-data-analyst-pengertian-tanggung-jawab-skill-dan-jenjang-kariernya
https://www.umn.ac.id/big-data-pengertian-contoh-dan-fungsinya/
https://www.w3schools.com/python/pandas/pandas_dataframes.asp
https://inveritasoft.com/article-top-python-libraries-for-data-visualization
https://www.dicoding.com/blog/machine-learning-adalah/
https://blog.algorit.ma/cara-mendeteksi-outlier/
https://dqlab.id/supervised-learning-tipe-machine-learning-populer
https://blog.algorit.ma/teknik-cross-validation/
https://ivosights.com/read/artikel/machine-learning-mengenal-apa-itu-hyperparameter-tuning-dalam

Komentar

Postingan populer dari blog ini

Javascript 7-3: Membuat Quiz Exam Generator

Javascript 7-2: String, Mengupgrade Mini Project Trayek.

Javascript 7-1: String Dan Membuat Trayek Generator

Javascript 4-2: Condition Dan Membuat Pendeteksi Bilangan Genap

Ringkasan Capaian Pembelajaran SMK Jurusan Pengembangan Perangkat Lunak dan Gim (Fase E)

Javascript 8-5: Memodifikiasi Inventory Buah Menggunakan Paging

Javascript 8-3: Memahami Iterasi Array pada JavaScript dan Mini Proyek Penghitungan Min, Max, dan Rata-rata