Laporkan Masalah

PEMODELAN TOPIK UNTUK MEDIA SOSIAL MENGGUNAKAN LATENT DIRICHLET ALLOCATION

RUSKE ILLA KENGKEN, Prof. Dr. rer. nat. Dedi Rosadi, S.Si., M.Sc.

2014 | Skripsi | STATISTIKA

Berkembangnya analisis media sosial saat ini memberikan suatu kebutuhan baru. Kita dituntut untuk dapat menyimpulkan opini atau argumen dalam kumpulan dokumen yang sangat besar seperti pada media sosial secara cepat dan efisien. Dari opini yang didapat kita dapat menyimpulkan sebuah informasi utama yang tersembunyi dan dapat digunakan untuk analisis lebih lanjut. Pemodelan topik atau topic models merupakan perkembangan dari analisis teks yang bermanfaat dalam pemodelan data tekstual dengan tujuan menemukan topik yang tersembunyi didalamnya. Salah satu model yang akan dibahas adalah model probabilitas Latent Dirichlet Allocation (LDA). Model Latent Dirichlet Allocation (LDA) merupakan sebuah model probabilitas dari data tekstual dimana dapat menjelaskan korelasi antara kata-kata dengan tema semantik yang tersembunyi didalam dokumen tersebut. Estimasi parameter yang digunakan dalam model adalah metode Bayesian. Metode Bayesian adalah sebuah metode yang memberikan nilai estimasi melalui distribusi posterior. Untuk model ini perhitungan estimasi dari distribusi posterior sangat kompleks sehingga digunakan estimasi Gibbs sampling. Dalam skripsi ini diterapkan model probabilitas Latent Dirichlet Allocation (LDA) untuk data yang bersumber dari salah satu platform media sosial yaitu Twitter. Tujuannya adalah untuk mengetahui berita apa yang dominan dibicarakan masyarakat di Twitter dalam periode tertentu. Hasil dari pemodelan topik ini adalah berupa topik utama dari seluruh opini masyarakat yang diinterpretasikan menjadi berita yang paling dominan dibicarakan masyarakat.

The rise of social media analysis is currently providing a new requirement. We are required to conclude an opinion or argument in a document such as the enormous social media data as quickly and efficiently. Opinion obtained from us may infer a hidden key information and can be used for further analysis. Topic models is model for corpus to finding topics hidden in it. One model that will be discussed is Latent Dirichlet Allocation (LDA) probability model. Latent Dirichlet Allocation (LDA) is a probability model of textual data which can explain the correlation between the words with a hidden semantic theme in the document. Estimation of the parameters used in the model is a Bayesian method. Bayesian method is a method that provides value estimates through the posterior distribution. For this model the estimated calculation of the posterior distribution is very complex, therefore Gibbs sampling estimation is then used. In this paper, Latent Dirichlet Allocation (LDA) probability model is applied for data that have their source from one of the social media platform, Twitter. The aim is to know what dominant news are talking about on Twitter in a given period. The outcome of this topic models is a main topic of the entire public opinions which is then interpreted to be the most dominant news people talk about.

Kata Kunci : pemodelan topik, latent Dirichlet allocation, Bayesian, Gibbs sampling, text mining, analisis teks, twitter


    Tidak tersedia file untuk ditampilkan ke publik.