Ilmu Data

Pemelajaran dalam

Dipublikasikan oleh Muhammad Farhan Fadhil pada 25 Maret 2022


Pemelajaran dalam (bahasa Inggris: deep learning) atau sering dikenal dengan istilah pemelajaran struktural mendalam (bahasa Inggris: deep structured learning) atau pemelajaran hierarki (bahasa Inggris: hierarchical learning) adalah salah satu cabang dari ilmu pemelajaran mesin (bahasa Inggris: machine learning) yang terdiri algoritme pemodelan abstraksi tingkat tinggi pada data menggunakan sekumpulan fungsi transformasi non-linear yang ditata berlapis-lapis dan mendalam. Teknik dan algoritme dalam pemelajaran dalam dapat digunakan baik untuk kebutuhan pemelajaran terarah (supervised learning), pemelajaran tak terarah (unsupervised learning) dan semi-terarah (semi-supervised learning) dalam berbagai aplikasi seperti pengenalan citra, pengenalan suara, klasifikasi teks, dan sebagainya. Model pada pembelajaran dalam pada dasarnya dibangun berdasarkan jaringan saraf tiruan, yang risetnya sudah berlangsung sejak era 80-an namun baru-baru ini kembali bangkit dengan adanya komputer yang semakin cepat apalagi ditambah dengan kemampuan kartu grafis modern yang mampu melakukan kalkulasi berbasis matriks secara simultan.

Berdasarkan riset yang baru-baru ini dilakukan, pemelajaran dalam mampu melakukan pengenalan grafis, pola tulis tangan dan beberapa pola lainnya lebih akurat dibandingkan dengan algoritme pemelajaran mesin lainnya.

Arsitektur

  • Deep Feedforward Network
    • Deep Feedforward Network atau dikenal dengan Multilayer Perceptron (MLP) merupakan pengembangan dari jaringan saraf tiruan yang menekankan pada penggunakan satu atau lebih lapis tersembunyi (hidden layer) pada jaringannya dan penggunaan fungsi transformasi non-linear sebagai fungsi transformasi. Jaringan ini disebut Feedforward oleh karena sifatnya yang membawa informasi dari lapis masukan (input layer) untuk dibawa dan ditransformasi ke depan hingga lapis luaran (output layer).
  • Recurrent Neural Network
    • Recurrent Neural Network merupakan pengembangan dari Deep Feedforward Network yang mana informasi dari suatu neuron dapat berputar kembali ke neuron yang sama (Deep Feddforward Network hanya membawa informasi ke lapis A ke lapis B secara progresif tanpa kembali ke lapis sebelumnya).
  • Convolutional Neural Network
    • Convolutional Neural Network merupakan modifikasi dari Deep Feedforward Network yang mana setiap lapisnya dibuat dalam bentuk topologi grid mendalam.

Sumber Artikel: id.wikipedia.org

Selengkapnya
Pemelajaran dalam

Ilmu Data

Pemelajaran tak terarah

Dipublikasikan oleh Muhammad Farhan Fadhil pada 25 Maret 2022


Pembelajaran tak terarah adalah teknik pembelajaran mesin di mana kita tidak perlu mengawasi modelnya namun kita perlu mengizinkan model bekerja sendiri untuk menemukan informasi yang dibutuhkan. Hal ini terutama berkaitan dengan data tanpa label.

Algoritma pembelajaran tak terarah memungkinkan kita melakukan tugas pemrosesan yang lebih kompleks dibandingkan dengan pembelajaran terarah. Meskipun, pembelajaran tak terarah bisa lebih tak terduga dibandingkan dengan pembelajaran alami lainnya dalam pembelajaran dan metode reinforcement learning. Pembelajaran mesin tak terarah dapat menemukan semua jenis pola yang tidak diketahui dalam data. Metode yang tak terarah ini dapat membantu menemukan fitur yang berguna untuk pengelompokan. Pengelompokan ini dapat berlangsung secara real time, sehingga semua data masukan dianalisis dan diberi label. Realitanya, lebih mudah untuk mendapatkan data tidak berlabel dari komputer daripada data berlabel yang membutuhkan intervensi manual.

Zoubin Ghahramani menyatakan dalam tulisannya yang disunting lebih dari 530 kali, bahwa ia menjelaskan secara ringkas mengenai pemelajaran tak terarah dari sudut pandang pemodelan statistic.  Pemelajaran tak terarah terinspirasi dari teori informasi dan prinsip Bayesian. Ghahramani menjelaskan scara ringkas model dasar pada pemelajaran tak terarah meliputi Analisa faktor, Principal Component Analysis (PCA), percampuran Gaussian, Hidden Markov Model, ruang-status model, dan berbagai variasi tambahan. Ia menurunkan algoritma EM dan memberikan tinjauan singkat mengenai konsep dasar model grafis, dan algoritma inferensi grafis. Ia juga memberikan pemelajaran singkat mengenai perkiraan inferensi Bayesian yang dimana juga termasuk Markov Chain Monte Carlo (MCMC), Perkiraan Laplace, BIC, perkiraan variasi, dan Expectation Propagation (EP). Ia bertujuan dengan adanya karya nya ini agar ia dapat menyajikan pandangan dari sisi yang lebih tinggi dalam bidang ini.

Cara kerja

Sebagai contoh pada seorang bayi dan anjing peliharaan keluarganya. Bayi dapat mengenali dan mengidentifikasi anjing ini. Beberapa minggu kemudian seorang teman keluarga membawa serta seekor anjing dan mencoba bermain dengan bayinya. Bayi tersebut belum pernah melihat anjing lain ini sebelumnya. Tetapi ia mengakui banyak fitur (2 telinga, mata, berjalan dengan 4 kaki) seperti anjing peliharaannya yang telah ia kenal sebelumnya. Dia mengidentifikasi hewan baru yang tampaknya seperti ciri-ciri anjing walaupun belum bisa menyebutkan jenis mereka adalah anjing. Ini adalah pembelajaran tak terarah, di mana kita tidak diajarkan label tetapi kita belajar dari data (dalam hal ini data atau ciri-ciri tentang seekor anjing). Seandainya ini pembelajaran yang diawasi, teman keluarga akan memberi tahu bayi bahwa itu seekor anjing.

Sumber Artikel: id.wikipedia.org

Selengkapnya
Pemelajaran tak terarah

Ilmu Data

Pemelajaran terarah

Dipublikasikan oleh Muhammad Farhan Fadhil pada 25 Maret 2022


Dalam pembelajaran terarah (bahasa Inggris: supervised learning), seseorang dapat melatih mesin dengan menggunakan data yang "diberi label". Artinya beberapa data sudah diberi label dengan jawaban yang benar. Ini dapat dibandingkan dengan pembelajaran yang berlangsung di hadapan pengawas atau guru. Algoritma pembelajaran yang terarah dapat mempelajari pola tersembunyi dari data pelatihan yang telah berlabel, hal ini akan membantu kita memprediksi hasil untuk data yang belum pernah dipelajari sebelumnya. Untuk dapat berhasil membangun, mengatur, dan menerapkan model mesin pembelajar yang terarah dengan akurasi tinggi, dibutuhkan waktu dan keahlian teknis dari tim peneliti-data (data scientist) yang sangat terampil. Selain itu, para peneliti data sebaiknya harus mampu membangun kembali model untuk memastikan prediksi yang dihasilkan tetap benar walaupun datanya berganti.

Pembelajaran terarah memungkinkan kita untuk mengumpulkan data atau menghasilkan keluaran data berdasarkan dari pengalaman sebelumnya. Hal ini dapat membantu mengoptimalkan kriteria kinerja berdasarkan pengalaman mesin. Pembelajaran terarah juga dapat membantu memecahkan berbagai jenis masalah komputasi dunia nyata.

Pada tahun 2006, Caruana, Rich  mempublikasikan hasil penelitiannya mengenai perbandingan secara empiris pemelajaran terarah dengan adanya Proyek Statlog di tahun 90-an. Mereka membandingakan beberapa pemelajaran terarah seperti Support Vector Machine (SVM), Jaringan Syaraf Tiruan (Neural Nets), regresi logistik, naive bayes, pemelajaran berbasis memori, Hutan Acak (Random Forest), Decision Tree (Pohon Keputusan), Bagged Trees, Boosted Trees dan Boosted Stumps. Mereka melakukan pengujian performa terhadap efek kalibrasi model melalui Platt Scaling dan Regresi Isotonik. Hal yang perlu diangkat dari kary mereka adalah penggunaan berbagai macam kriteria pengujian performa mesin pemelajar.

Cara kerja

Misalkan kita ingin melatih mesin untuk membantu memprediksi berapa lama waktu yang dibutuhkan untuk berkendara pulang dari tempat kerja menuju rumah. Pertama-tama, kita memulai dengan membuat sekumpulan data berlabel. Data ini bisa termasuk: kondisi cuaca, waktu dalam hari, waktu liburan, hingga semua detail yang dibutuhkan dan ini semua adalah data latih masukan. Keluarannya adalah jumlah waktu yang dibutuhkan untuk pulang ke rumah pada suatu hari tertentu. Secara naluriah kita mengetahui bahwa jika hari hujan, maka kita akan membutuhkan waktu lebih lama untuk berkendara pulang. Tetapi mesin membutuhkan data dan statistik untuk menentukan berapa lama anda dapat sampai di rumah dalam kondisi hujan. Berdasarkan set pelatihan yang berisi lama perjalanan waktu ketika hujan dan lama waktu perjalanan ketika cerah ini, mesin mungkin dapat memahami pola hubungan langsung antara jumlah hujan dan waktu yang diperlukan untuk pulang. Bisa jadi mesin dapat memahami bahwa semakin banyak hujan, semakin lama waktu berkendara untuk kembali ke rumah. Mesin juga dapat melihat pola hubungan antara waktu ketika pulang kerja dan waktu ketika dalam perjalanan. Sbagai contoh, semakin dekat waktu kita pulang dengan jam 6 sore. semakin lama waktu yang kita butuhkan untuk pulang. Mesin juga dapat menemukan beberapa pola hubungan lainnya dalam data latih berlabel seperti: bagaimana pengaruh hujan terhadap cara orang mengemudi, pengaruh hujan dalam perilaku berpergian orang-orang bahwa lebih banyak orang bepergian selama waktu cerah maupun waktu tertentu dalam sehari.

Jenis

  • Regresi: tenik regresi memprediksi nilai keluaran tunggal dengan menggunakan data pelatihan. Contohnya: kita dapat menggunakan regresi untuk memprediksi harga rumah dari data pelatihan. Variabel masukan adalah lokasi, ukuran rumah, dan lain sebagainya.
  • Klasifikasi: mengelompokkan keluaran ke dalam kelas tertentu. Jika algoritma mencoba memberi label masukan ke dalam dua kelas yang berbeda, maka disebut klasifikasi biner. Pemilihan di antara lebih dari dua kelas yang berbeda dapat disebut sebagai klasifikasi multikelas. Contohnya: bagaimana memprediksi apakah seseorang akan membatalkan pinjaman ataukah tidak.

Sumber Artikel: id.wikipedia.org

Selengkapnya
Pemelajaran terarah

Ilmu Data

Regresi Linear

Dipublikasikan oleh Muhammad Farhan Fadhil pada 25 Maret 2022


Dalam dunia matematika, tentu sudah tak asing lagi mendengar kata statistik. Pada statistikik, regresi linear merupakan suatu pendekatan untuk memantapkan hubungan antara satu atau lebih variabel dependen (regresi linear sederha) dan juga variabelel independen (regresi lnarer banyak). Salah satu aplikasi dari regresi linear adalah untuk melakukan prediksi berdasarkan data-data yang telah dimiliki sebelumnya. Dengan asumsi hubungan di antara variabe variabelel terseb, dapatat didekati oleh suatu persamaan garis lurus, maka model yang mendekati hubungan antar variabel di data tersebut disebut sebaiapemantapan l regresi linear. 

Regresi Linear Univariate[sunting | sunting sumber]

Pada regresi linear univariate, variabel bebas yang terlibat hanya satu saja. Oleh karena hanya memiliki satu variabel bebas, maka hanya akan terdapat variabel input X dan output Y. Kedua variabel ini akan dimodelkan sebagai sumbu X dan Y pada diagram kartesius. Pada regresi linear tipe ini, model regresi linear ditentukan sebagai berikut.

{\displaystyle h_{w}(x)=w_{1}x+w_{0}}

dimana {\displaystyle w}{\displaystyle w} merupakan nilai yang akan dicari sedemikian sehingga nilai {\displaystyle w}{\displaystyle w} menjadi optimal dan {\displaystyle x}{\displaystyle x} merupakan variable bebas atau input. Proses pencarian nilai {\displaystyle w}{\displaystyle w} dapat dilakukan dengan beberapa cara diantaranya dengan menggunakan pendekatan least squaremaximum likehood, atau algoritme gradient descent. Pada dasarnya, pencarian nilai {\displaystyle w}{\displaystyle w} dilakukan hingga nilai error yang dihasilkan merupakan nilai yang paling minimal. Fungsi error yang digunakan adalah sebagai berikut.

{\displaystyle E(w)={\frac {1}{2N}}\sum _{i=1}^{N}(h_{w}(x^{i})-t^{i})^{2}}

Dimana {\displaystyle N} merupakan banyaknya data input, {\displaystyle h_{w}(x^{i})} merupakan model regresi linear, dan {\displaystyle t} adalah target output yang seharusnya.

Regresi Linear Multivariate

Pada regresi linear multivariate, variable bebas yang terlibat tidak hanya satu saja melainkan beberapa variable bebas. Hal ini dikarenakan input yang digunakan lebih dari satu dimensi. Oleh karena itu, diperlukanlah sebuah model regresi linear yang berbeda dari regresi linear univariate. Model regresi linear multivariate dapat ditentukan sebagai berikut.

{\displaystyle h_{w}(x)=w_{0}+w_{1}x_{1}+w_{2}x_{2}+\dots +w_{m}x_{m}}

{\displaystyle h_{w}(x)=w_{0}+\sum _{i=0}^{m}w_{i}x_{i}}

Dimana {\displaystyle w} juga merupakan nilai yang akan dicari sedemikian sehingga nilai {\displaystyle w} menjadi optimal dan {\displaystyle x} merupakan variable bebas atau input. Proses pencarian nilai {\displaystyle w} juga masih dapat dilakukan dengan menggunakan cara yang sama dengan regresi linear univariate, yaitu dengan menggunakan pendekatan least squaremaximum likehood, atau algoritme gradient descent. Pada dasarnya, pencarian nilai {\displaystyle w} dilakukan hingga nilai error yang didapatkan dari fungsi error merupakan nilai yang paling minimal. Fungsi error yang digunakan masih sama dengan regresi linear univariate.

Sumber Artikel: id.wikipedia.org

Selengkapnya
Regresi Linear

Ilmu Data

Pemodelan data

Dipublikasikan oleh Muhammad Farhan Fadhil pada 25 Maret 2022


Pemodelan data dalam rekayasa perangkat lunak adalah proses menciptakan model data untuk sistem informasi dengan menerapkan teknik formal tertentu.

Gambaran
Pemodelan data adalah proses yang digunakan untuk mendefinisikan dan menganalisis persyaratan data yang diperlukan untuk mendukung proses bisnis dalam lingkup sistem informasi yang sesuai dalam organisasi. Oleh karena itu, proses pemodelan data melibatkan pemodel data profesional yang bekerja erat dengan pemangku kepentingan bisnis, serta pengguna potensial sistem informasi.

Ada tiga jenis model data yang diproduksi sambil berkembang dari persyaratan ke database aktual yang akan digunakan untuk sistem informasi. Persyaratan data awalnya dicatat sebagai model data konseptual yang pada dasarnya adalah seperangkat spesifikasi independen teknologi tentang data dan digunakan untuk membahas persyaratan awal dengan para pemangku kepentingan bisnis.

Sumber Artikel: id.wikipedia.org

Selengkapnya
Pemodelan data

Ilmu Data

Penggalian data

Dipublikasikan oleh Muhammad Farhan Fadhil pada 25 Maret 2022


Penggalian data (bahasa Inggris: data mining) adalah ekstraksi pola yang menarik dari data dalam jumlah besar. Suatu pola dikatakan menarik apabila pola tersebut tidak sepele, implisit, tidak diketahui sebelumnya, dan berguna. Pola yang disajikan haruslah mudah dipahami, berlaku untuk data yang akan diprediksi dengan derajat kepastian tertentu, berguna, dan baru. Penggalian data memiliki beberapa nama alternatif, meskipun definisi eksaknya berbeda, seperti KDD (knowledge discovery in database), analisis pola, arkeologi data, pemanenan informasi, dan intelegensia bisnis. Penggalian data diperlukan saat data yang tersedia terlalu banyak (misalnya data yang diperoleh dari sistem basis data perusahaan, e-commerce, data saham, data sensus dan data bioinformatika), tetapi tidak tahu pola apa yang bisa didapatkan.

Proses Pencarian Pola
Penggalian data adalah salah satu bagian dari proses pencarian pola. Berikut ini urutan proses pencarian pola:

  • Pembersihan Data: yaitu menghapus data pengganggu (noise) dan mengisi data yang hilang.
  • Integrasi Data: yaitu menggabungkan berbagai sumber data.
  • Pemilihan Data: yaitu memilih data yang relevan.
  • Transformasi Data: yaitu mentransformasi data ke dalam format untuk diproses dalam penggalian data.
  • Penggalian Data: yaitu menerapkan metode cerdas untuk ekstraksi pola.
  • Evaluasi pola: yaitu mengenali pola-pola yang menarik saja.
  • Penyajian pola: yaitu memvisualisasi pola ke pengguna.

Latar belakang
Perkembangan yang pesat di bidang pengumpulan data dan teknologi penyimpanan di berbagai bidang, menghasilkan basis data yang terlampau besar. Namun, data yang dikumpulkan jarang dilihat lagi karena terlalu panjang, membosankan, dan tidak menarik. Seringkali, keputusan -yang katanya berdasarkan data- dibuat tidak lagi berdasarkan data, melainkan dari intuisi para pembuat keputusan, sehingga lahirlah cabang ilmu penggalian data ini.

Analisis data tanpa menggunakan otomasi dari penggalian data adalah tidak memungkinkan lagi, kalau 1) data terlalu banyak, 2) dimensionalitas data terlalu besar, 3) data terlalu kompleks untuk dianalisis manual (misalnya: data time series, data spatiotemporal, data multimedia, data streams).

Teknik Penggalian Data
Pada dasarnya penggalian data dibedakan menjadi dua fungsionalitas, yaitu deskripsi dan prediksi. Berikut ini beberapa fungsionalitas penggalian data yang sering digunakan:

  • Karakterisasi dan Diskriminasi: yaitu menggeneralisasi, merangkum, dan mengkontraskan karakteristik data.
  • Penggalian pola berulang: yaitu pencarian pola asosiasi (association rule) atau pola intra-transaksi, atau pola pembelian yang terjadi dalam satu kali transaksi.
  • Klasifikasi: yaitu membangun suatu model yang bisa mengklasifikasikan suatu objek berdasar atribut-atributnya. Kelas target sudah tersedia dalam data sebelumnya, sehingga fokusnya adalah bagaimana mempelajari data yang ada agar klasifikator bisa mengklasifikasikan sendiri.
  • Prediksi: yaitu memprediksi nilai yang tidak diketahui atau nilai yang hilang, menggunakan model dari klasifikasi.
  • Penggugusan/Cluster analysis: yaitu mengelompokkan sekumpulan objek data berdasarkan kemiripannya. Kelas target tidak tersedia dalam data sebelumnya, sehingga fokusnya adalah memaksimalkan kemiripan intrakelas dan meminimalkan kemiripan antarkelas.
  • Analisis outlier: yaitu proses pengenalan data yang tidak sesuai dengan perilaku umum dari data lainnya. Contoh: mengenali noise dan pengecualian dalam data.
  • Analisis trend dan evolusi: meliputi analisis regresi, penggalian pola sekuensial, analisis periodisitas, dan analisis berbasis kemiripan.

Sumber Artikel: id.wikipedia.org

Selengkapnya
Penggalian data
« First Previous page 2 of 4 Next Last »