Pemodelan Topik untuk Media Sosial Menggunakan Correlated Topic Model

RIZQI HARYASTUTI, Prof. Dr.rer.nat. Dedi Rosadi, M.Sc.

2018 | Skripsi | S1 STATISTIKA

Media sosial saat ini menjadi sumber dan tempat bertukar informasi yang paling diminati oleh masyarakat. Hal ini menyebabkan banyak opini yang menumpuk dan mengharuskan kita untuk dapat menarik informasi utama yang masih tersembunyi di dalamnya. Pemodelan topik atau topic models merupakan analisis teks yang bermanfaat dalam pemodelan data tekstual dengan tujuan menemukan topik yang tersembunyi di dalamnya. Hanya saja dari setiap topik yang dihasilkan, pada umumnya dimungkinkan terjadi adanya korelasi atau hubungan antar topik tersebut. Sehingga dikembangkan sebuah pemodelan topik yang akan akan dibahas dalam skripsi ini, yaitu Correlated Topic Model (CTM). CTM merupakan sebuah model probabilitas dari data tekstual dimana dapat menjelaskan korelasi antar topik yang tersembunyi tersebut. CTM merupakan suatu metode pengembangan yang sudah pernah dibahas sebelumnya, yakni LDA. Estimasi parameter yang digunakan dalam model adalah metode Bayesian, dimana metode memberikan nilai estimasi melalui distribusi posterior. Metode Bayesian yang digunakan untuk menghitung estimasi distribusi posterior tersebut adalah Variational Expectation Maximization (VEM). Dalam skripsi ini diterapkan model probabilitas Correlated Topic Model (CTM) untuk data tekstual yang bersumber dari platform Twitter dalam periode tertentu. Hasil dari pemodelan topik ini adalah topik dominan dari data tekstual yang merupakan estimator parameter mean dan relasi antar topik yang merupakan estimator parameter kovariansi.

Social media now is the most interesting source and place of information exchange for the people. This leads to a lot of opinion that accumulates and requires us to be able to pull the key information that is still hidden in it. Topic models is a useful text analysis in textual data modeling in order to find the hidden topics in it. It's just that from each topic generated, there is possible a correlation or relationship between the topic generally. So, developed a topic models that will be discussed in this thesis, the Correlated Topic Model (CTM). CTM is a probability model of textual data which can explain the correlation between the hidden topics. CTM is a method development that has been discussed previously, the Latent Dirichlet Allocation (LDA). Parameter estimation used in the model is the Bayesian method, where the method provides an estimation value through the posterior distribution. The Bayesian method used to calculate the estimation of the posterior distribution is Variational Expectation Maximization (VEM). In this thesis applied probability model, Correlated Topic Model (CTM) for textual data sourced from Twitter platform in certain period. The result of this topic models is the dominant topic of the trending news which is the estimator of the mean parameters and the relation between topics which is the estimator of the covariance parameter.

Kata Kunci : pemodelan topik, Twitter, Correlated Topic Model, analisis teks, Variational Expectation Maximitation

