Lokakarya Machine Learning dengan Python untuk Pemula

Jakarta – Prodi Ilmu Komputer Universitas Pertamina mengadakan Lokakarya (Workshop) Machine Learning pada hari Kamis – Jumat tanggal 5 – 6 Juli 2018. Acara ini dibawakan oleh dosen Ilmu Komputer Hani Ramadhan, M.Kom, M.Sc. Kegiatan ini diikuti oleh beberapa dosen dari beberapa program studi dan mahasiswa dari prodi Ilmu Komputer.

Terdapat prasyarat sebelum ikut serta dalam kegiatan lokakarya ini, yaitu dengan memasang beberapa program/aplikasi serta pendukung lainnya, yaitu Anaconda, Jupyter Notebook, pustaka numpy, pandas, dan scikit-learn yang berisi fungsi – fungsi untuk memudahkan proses pengolahan data.

Anaconda merupakan distribusi dari bahasa pemrograman Python dan R yang gratis merupakan perangkat open source khususnya untuk data science dan aplikasi yang berhubungan dengan Machine Learning (pemrosesan data skala besar, analisis prediktif, komputasi ilmiah), yang bertujuan untuk menyederhanakan manajemen paket dan penyebaran.  Dengan meng-install Anaconda, otomatis jupyter notebook sudah ter-install dan sudah dapat langsung digunakan.

Jupyter Notebook merupakan aplikasi web open-source yang memungkinkan Anda untuk membuat dan berbagi dokumen yang berisi kode, persamaan, visualisasi dan teks naratif. Penggunaan meliputi: pembersihan dan transformasi data, simulasi numerik, pemodelan statistik, visualisasi data, pembelajaran mesin, dan masih banyak lagi.

 

Tinjauan Kegiatan

Pada kegiatan lokakarya kali ini, menggunakan bahasa pemrograman Python dan beberapa teori dalam statistika. Dimulai dari pengenalan dasar pemrograman Python dan penerapan statistika dalam Machine Learning. Pada kegiatan lokakarya ini, berikut cakupan yang dibahas.

  1. Pengenalan Machine Learning
  2. Perkembangan Machine Learning saat ini: Riset di datalab PNU
  3. Penerapan 1: Python dan Jupyter Notebook
  4. Penerapan 2: Analisis Data dengan Numpy dan Pandas
  5. Penerapan 3: Prediksi menggunakan Regresi Linier
  6. Penerapan 4: Klasifikasi menggunakan Regresi Logistik
  7. Penerapan 5: Prediksi dan Klasifikasi menggunakan Metode Berbasis Pohon Keputusan
  8. Pengenalan Deep Learning

Pada hari pertama diawal kegiatan ini, membahas tentang apa itu Machine Learning, yang merupakan aplikasi kecerdasan buatan (AI) yang menyediakan kemampuan sistem untuk secara otomatis belajar dan meningkatkan dari pengalaman tanpa secara eksplisit diprogram. Pembelajaran mesin berfokus pada pengembangan program komputer yang dapat mengakses data dan menggunakannya untuk belajar sendiri. Dengan menggunakan web application Jupyter Notebook, kemudian dilanjutkan dengan pengenalan dasar – dasar pemrograman dengan menggunakan bahasa pemrograman python seperti variabel dan tipe data, operasi aritmetika dan logika, pencetakan, operator logika, fungsi dan metode, percabangan, perulangan, dan yang terakhir struktur data sederhana di Python: List, Tuple, dan, Dictionaries. Untuk kegiatan ini, penulisan kode serta eksekusi program semuanya dikerjakan di Jupyter Notebook. Lalu, diajarkan bagaimana menggunakan Numpy dan Pandas untuk pembelajaran mesin ini. Di akhir pertemuan sedikit masuk ke pengenalan dasar tentang apa itu regresi linier dan penggunaannya dalam pembelajaran mesin.

Pada hari kedua, kegiatan sudah mulai ke pembelajaran mesin dengan menggunakan beberapa teori statistika. Diantaranya:

Regresi Linier – Satu Luaran, Satu Prediktor

Tujuan dari regresi linier adalah untuk mencari hubungan linier antara variabel prediktor (X) dan variabel target (Y). Hubungan ini biasa direpresentasikan dengan persamaan di bawah ini.

Y≈β0+β1X

Regresi Linier – Satu Luaran, Banyak Prediktor

Penggunaan regresi linier tentu bisa diperluas menjadi banyak prediktor, kita bisa menyebut ini sebagai  regresi linier multivariat. Perluasan ini direpresentasikan dengan persamaan di bawah ini dengan pp adalah jumlah prediktor/fitur yang terkait dalam dataset.

Y≈β0+β1x:,1+β2x:,2+⋯+βpx:,pY≈β0+β1x:,1+β2x:,2+⋯+βpx:,p

 

Menangani Data Kualitatif

Sebelumnya, dengan metode regresi linier dengan data yang bersifat numerik kontinu sudah dikerjakan. Lalu, dilanjutkan dengan menangani data kualitatif dalam regresi.

Non-Linieritas ditangani oleh Regresi Linier

Regresi linier akan memodelkan hubungan antara variabel prediktor dan target secara linier. Namun, pada kenyataannya, hubungan antara prediktor dan target sangat sulit diketahui. Maka dari itu, bisa juga meninjau kemungkinan lain dari hubungan yang terjadi antara prediktor dan target. Bisa jadi hubungan mereka adalah logaritmik, eksponensial, atau lainnya.

Regularisasi berbasis Shrinkage

  1.       Regularisasi: Ridge Regression

  2.       Regularisasi: LASSO Regression

Regresi Logistik

Apakah sebenarnya regresi logistik? Regresi logistik adalah model klasifikasi yang sederhana yang memprediksi kategori/kelas dari suatu himpunan prediktor dengan memanfaatkan regresi linier yang dimodifikasi.

Kategori dengan dua kelas Yes dan No yang diprediksi oleh tugas klasifikasi pada hakikatnya bisa direpresentasikan secara kasar dengan regresi logistik sebagai berikut:

Y={1,if Yes0,if NoY={1,if Yes0,if No

 

Deep Learning

Yang terakhir membahas tentang pengenalan deep learning, kasarannya deep learning itu merupakan sub dari machine learning jadi itulah kenapa disebut “Deep”. Deep Learning merupakan suatu metode dalam kecerdasan buatan yang digunakan untuk membuat mesin melakukan suatu hal layaknya manusia seperti dapat berpikir dan mengambil keputusan secara tepat berdasarkan data – data yang ada. Deep Learning ini disebut- sebut dapat mengalahkan faktor human error pada manusia.


Dokumentasi

 

Leave a Reply

Your email address will not be published. Required fields are marked *