Ilmu Data
Dipublikasikan oleh Muhammad Farhan Fadhil pada 25 Maret 2022
Pemelajaran dalam (bahasa Inggris: deep learning) atau sering dikenal dengan istilah pemelajaran struktural mendalam (bahasa Inggris: deep structured learning) atau pemelajaran hierarki (bahasa Inggris: hierarchical learning) adalah salah satu cabang dari ilmu pemelajaran mesin (bahasa Inggris: machine learning) yang terdiri algoritme pemodelan abstraksi tingkat tinggi pada data menggunakan sekumpulan fungsi transformasi non-linear yang ditata berlapis-lapis dan mendalam. Teknik dan algoritme dalam pemelajaran dalam dapat digunakan baik untuk kebutuhan pemelajaran terarah (supervised learning), pemelajaran tak terarah (unsupervised learning) dan semi-terarah (semi-supervised learning) dalam berbagai aplikasi seperti pengenalan citra, pengenalan suara, klasifikasi teks, dan sebagainya. Model pada pembelajaran dalam pada dasarnya dibangun berdasarkan jaringan saraf tiruan, yang risetnya sudah berlangsung sejak era 80-an namun baru-baru ini kembali bangkit dengan adanya komputer yang semakin cepat apalagi ditambah dengan kemampuan kartu grafis modern yang mampu melakukan kalkulasi berbasis matriks secara simultan.
Berdasarkan riset yang baru-baru ini dilakukan, pemelajaran dalam mampu melakukan pengenalan grafis, pola tulis tangan dan beberapa pola lainnya lebih akurat dibandingkan dengan algoritme pemelajaran mesin lainnya.
Arsitektur
Sumber Artikel: id.wikipedia.org
Ilmu Data
Dipublikasikan oleh Muhammad Farhan Fadhil pada 25 Maret 2022
Pembelajaran tak terarah adalah teknik pembelajaran mesin di mana kita tidak perlu mengawasi modelnya namun kita perlu mengizinkan model bekerja sendiri untuk menemukan informasi yang dibutuhkan. Hal ini terutama berkaitan dengan data tanpa label.
Algoritma pembelajaran tak terarah memungkinkan kita melakukan tugas pemrosesan yang lebih kompleks dibandingkan dengan pembelajaran terarah. Meskipun, pembelajaran tak terarah bisa lebih tak terduga dibandingkan dengan pembelajaran alami lainnya dalam pembelajaran dan metode reinforcement learning. Pembelajaran mesin tak terarah dapat menemukan semua jenis pola yang tidak diketahui dalam data. Metode yang tak terarah ini dapat membantu menemukan fitur yang berguna untuk pengelompokan. Pengelompokan ini dapat berlangsung secara real time, sehingga semua data masukan dianalisis dan diberi label. Realitanya, lebih mudah untuk mendapatkan data tidak berlabel dari komputer daripada data berlabel yang membutuhkan intervensi manual.
Zoubin Ghahramani menyatakan dalam tulisannya yang disunting lebih dari 530 kali, bahwa ia menjelaskan secara ringkas mengenai pemelajaran tak terarah dari sudut pandang pemodelan statistic. Pemelajaran tak terarah terinspirasi dari teori informasi dan prinsip Bayesian. Ghahramani menjelaskan scara ringkas model dasar pada pemelajaran tak terarah meliputi Analisa faktor, Principal Component Analysis (PCA), percampuran Gaussian, Hidden Markov Model, ruang-status model, dan berbagai variasi tambahan. Ia menurunkan algoritma EM dan memberikan tinjauan singkat mengenai konsep dasar model grafis, dan algoritma inferensi grafis. Ia juga memberikan pemelajaran singkat mengenai perkiraan inferensi Bayesian yang dimana juga termasuk Markov Chain Monte Carlo (MCMC), Perkiraan Laplace, BIC, perkiraan variasi, dan Expectation Propagation (EP). Ia bertujuan dengan adanya karya nya ini agar ia dapat menyajikan pandangan dari sisi yang lebih tinggi dalam bidang ini.
Cara kerja
Sebagai contoh pada seorang bayi dan anjing peliharaan keluarganya. Bayi dapat mengenali dan mengidentifikasi anjing ini. Beberapa minggu kemudian seorang teman keluarga membawa serta seekor anjing dan mencoba bermain dengan bayinya. Bayi tersebut belum pernah melihat anjing lain ini sebelumnya. Tetapi ia mengakui banyak fitur (2 telinga, mata, berjalan dengan 4 kaki) seperti anjing peliharaannya yang telah ia kenal sebelumnya. Dia mengidentifikasi hewan baru yang tampaknya seperti ciri-ciri anjing walaupun belum bisa menyebutkan jenis mereka adalah anjing. Ini adalah pembelajaran tak terarah, di mana kita tidak diajarkan label tetapi kita belajar dari data (dalam hal ini data atau ciri-ciri tentang seekor anjing). Seandainya ini pembelajaran yang diawasi, teman keluarga akan memberi tahu bayi bahwa itu seekor anjing.
Sumber Artikel: id.wikipedia.org
Ilmu Data
Dipublikasikan oleh Muhammad Farhan Fadhil pada 25 Maret 2022
Dalam pembelajaran terarah (bahasa Inggris: supervised learning), seseorang dapat melatih mesin dengan menggunakan data yang "diberi label". Artinya beberapa data sudah diberi label dengan jawaban yang benar. Ini dapat dibandingkan dengan pembelajaran yang berlangsung di hadapan pengawas atau guru. Algoritma pembelajaran yang terarah dapat mempelajari pola tersembunyi dari data pelatihan yang telah berlabel, hal ini akan membantu kita memprediksi hasil untuk data yang belum pernah dipelajari sebelumnya. Untuk dapat berhasil membangun, mengatur, dan menerapkan model mesin pembelajar yang terarah dengan akurasi tinggi, dibutuhkan waktu dan keahlian teknis dari tim peneliti-data (data scientist) yang sangat terampil. Selain itu, para peneliti data sebaiknya harus mampu membangun kembali model untuk memastikan prediksi yang dihasilkan tetap benar walaupun datanya berganti.
Pembelajaran terarah memungkinkan kita untuk mengumpulkan data atau menghasilkan keluaran data berdasarkan dari pengalaman sebelumnya. Hal ini dapat membantu mengoptimalkan kriteria kinerja berdasarkan pengalaman mesin. Pembelajaran terarah juga dapat membantu memecahkan berbagai jenis masalah komputasi dunia nyata.
Pada tahun 2006, Caruana, Rich mempublikasikan hasil penelitiannya mengenai perbandingan secara empiris pemelajaran terarah dengan adanya Proyek Statlog di tahun 90-an. Mereka membandingakan beberapa pemelajaran terarah seperti Support Vector Machine (SVM), Jaringan Syaraf Tiruan (Neural Nets), regresi logistik, naive bayes, pemelajaran berbasis memori, Hutan Acak (Random Forest), Decision Tree (Pohon Keputusan), Bagged Trees, Boosted Trees dan Boosted Stumps. Mereka melakukan pengujian performa terhadap efek kalibrasi model melalui Platt Scaling dan Regresi Isotonik. Hal yang perlu diangkat dari kary mereka adalah penggunaan berbagai macam kriteria pengujian performa mesin pemelajar.
Cara kerja
Misalkan kita ingin melatih mesin untuk membantu memprediksi berapa lama waktu yang dibutuhkan untuk berkendara pulang dari tempat kerja menuju rumah. Pertama-tama, kita memulai dengan membuat sekumpulan data berlabel. Data ini bisa termasuk: kondisi cuaca, waktu dalam hari, waktu liburan, hingga semua detail yang dibutuhkan dan ini semua adalah data latih masukan. Keluarannya adalah jumlah waktu yang dibutuhkan untuk pulang ke rumah pada suatu hari tertentu. Secara naluriah kita mengetahui bahwa jika hari hujan, maka kita akan membutuhkan waktu lebih lama untuk berkendara pulang. Tetapi mesin membutuhkan data dan statistik untuk menentukan berapa lama anda dapat sampai di rumah dalam kondisi hujan. Berdasarkan set pelatihan yang berisi lama perjalanan waktu ketika hujan dan lama waktu perjalanan ketika cerah ini, mesin mungkin dapat memahami pola hubungan langsung antara jumlah hujan dan waktu yang diperlukan untuk pulang. Bisa jadi mesin dapat memahami bahwa semakin banyak hujan, semakin lama waktu berkendara untuk kembali ke rumah. Mesin juga dapat melihat pola hubungan antara waktu ketika pulang kerja dan waktu ketika dalam perjalanan. Sbagai contoh, semakin dekat waktu kita pulang dengan jam 6 sore. semakin lama waktu yang kita butuhkan untuk pulang. Mesin juga dapat menemukan beberapa pola hubungan lainnya dalam data latih berlabel seperti: bagaimana pengaruh hujan terhadap cara orang mengemudi, pengaruh hujan dalam perilaku berpergian orang-orang bahwa lebih banyak orang bepergian selama waktu cerah maupun waktu tertentu dalam sehari.
Jenis
Sumber Artikel: id.wikipedia.org
Ilmu Data
Dipublikasikan oleh Muhammad Farhan Fadhil pada 25 Maret 2022
Dalam dunia matematika, tentu sudah tak asing lagi mendengar kata statistik. Pada statistikik, regresi linear merupakan suatu pendekatan untuk memantapkan hubungan antara satu atau lebih variabel dependen (regresi linear sederha) dan juga variabelel independen (regresi lnarer banyak). Salah satu aplikasi dari regresi linear adalah untuk melakukan prediksi berdasarkan data-data yang telah dimiliki sebelumnya. Dengan asumsi hubungan di antara variabe variabelel terseb, dapatat didekati oleh suatu persamaan garis lurus, maka model yang mendekati hubungan antar variabel di data tersebut disebut sebaiapemantapan l regresi linear.
Regresi Linear Univariate[sunting | sunting sumber]
Pada regresi linear univariate, variabel bebas yang terlibat hanya satu saja. Oleh karena hanya memiliki satu variabel bebas, maka hanya akan terdapat variabel input X dan output Y. Kedua variabel ini akan dimodelkan sebagai sumbu X dan Y pada diagram kartesius. Pada regresi linear tipe ini, model regresi linear ditentukan sebagai berikut.
dimana {\displaystyle w} merupakan nilai yang akan dicari sedemikian sehingga nilai {\displaystyle w} menjadi optimal dan {\displaystyle x} merupakan variable bebas atau input. Proses pencarian nilai {\displaystyle w} dapat dilakukan dengan beberapa cara diantaranya dengan menggunakan pendekatan least square, maximum likehood, atau algoritme gradient descent. Pada dasarnya, pencarian nilai {\displaystyle w} dilakukan hingga nilai error yang dihasilkan merupakan nilai yang paling minimal. Fungsi error yang digunakan adalah sebagai berikut.
Dimana merupakan banyaknya data input, merupakan model regresi linear, dan adalah target output yang seharusnya.
Regresi Linear Multivariate
Pada regresi linear multivariate, variable bebas yang terlibat tidak hanya satu saja melainkan beberapa variable bebas. Hal ini dikarenakan input yang digunakan lebih dari satu dimensi. Oleh karena itu, diperlukanlah sebuah model regresi linear yang berbeda dari regresi linear univariate. Model regresi linear multivariate dapat ditentukan sebagai berikut.
Dimana juga merupakan nilai yang akan dicari sedemikian sehingga nilai menjadi optimal dan merupakan variable bebas atau input. Proses pencarian nilai juga masih dapat dilakukan dengan menggunakan cara yang sama dengan regresi linear univariate, yaitu dengan menggunakan pendekatan least square, maximum likehood, atau algoritme gradient descent. Pada dasarnya, pencarian nilai dilakukan hingga nilai error yang didapatkan dari fungsi error merupakan nilai yang paling minimal. Fungsi error yang digunakan masih sama dengan regresi linear univariate.
Sumber Artikel: id.wikipedia.org
Ilmu Data
Dipublikasikan oleh Muhammad Farhan Fadhil pada 25 Maret 2022
Pemodelan data dalam rekayasa perangkat lunak adalah proses menciptakan model data untuk sistem informasi dengan menerapkan teknik formal tertentu.
Gambaran
Pemodelan data adalah proses yang digunakan untuk mendefinisikan dan menganalisis persyaratan data yang diperlukan untuk mendukung proses bisnis dalam lingkup sistem informasi yang sesuai dalam organisasi. Oleh karena itu, proses pemodelan data melibatkan pemodel data profesional yang bekerja erat dengan pemangku kepentingan bisnis, serta pengguna potensial sistem informasi.
Ada tiga jenis model data yang diproduksi sambil berkembang dari persyaratan ke database aktual yang akan digunakan untuk sistem informasi. Persyaratan data awalnya dicatat sebagai model data konseptual yang pada dasarnya adalah seperangkat spesifikasi independen teknologi tentang data dan digunakan untuk membahas persyaratan awal dengan para pemangku kepentingan bisnis.
Sumber Artikel: id.wikipedia.org
Ilmu Data
Dipublikasikan oleh Muhammad Farhan Fadhil pada 25 Maret 2022
Penggalian data (bahasa Inggris: data mining) adalah ekstraksi pola yang menarik dari data dalam jumlah besar. Suatu pola dikatakan menarik apabila pola tersebut tidak sepele, implisit, tidak diketahui sebelumnya, dan berguna. Pola yang disajikan haruslah mudah dipahami, berlaku untuk data yang akan diprediksi dengan derajat kepastian tertentu, berguna, dan baru. Penggalian data memiliki beberapa nama alternatif, meskipun definisi eksaknya berbeda, seperti KDD (knowledge discovery in database), analisis pola, arkeologi data, pemanenan informasi, dan intelegensia bisnis. Penggalian data diperlukan saat data yang tersedia terlalu banyak (misalnya data yang diperoleh dari sistem basis data perusahaan, e-commerce, data saham, data sensus dan data bioinformatika), tetapi tidak tahu pola apa yang bisa didapatkan.
Proses Pencarian Pola
Penggalian data adalah salah satu bagian dari proses pencarian pola. Berikut ini urutan proses pencarian pola:
Latar belakang
Perkembangan yang pesat di bidang pengumpulan data dan teknologi penyimpanan di berbagai bidang, menghasilkan basis data yang terlampau besar. Namun, data yang dikumpulkan jarang dilihat lagi karena terlalu panjang, membosankan, dan tidak menarik. Seringkali, keputusan -yang katanya berdasarkan data- dibuat tidak lagi berdasarkan data, melainkan dari intuisi para pembuat keputusan, sehingga lahirlah cabang ilmu penggalian data ini.
Analisis data tanpa menggunakan otomasi dari penggalian data adalah tidak memungkinkan lagi, kalau 1) data terlalu banyak, 2) dimensionalitas data terlalu besar, 3) data terlalu kompleks untuk dianalisis manual (misalnya: data time series, data spatiotemporal, data multimedia, data streams).
Teknik Penggalian Data
Pada dasarnya penggalian data dibedakan menjadi dua fungsionalitas, yaitu deskripsi dan prediksi. Berikut ini beberapa fungsionalitas penggalian data yang sering digunakan:
Sumber Artikel: id.wikipedia.org