Εξόρυξη πληροφορίας και ανάλυση συναισθήματος με χρήση μεθόδων μηχανικής μάθησης και σύγχρονων μοντέλων επεξεργασίας φυσικής γλώσσας (Master thesis)

Καμπατζής, Αριστοτέλης/ Σαρόγλου, Στυλιανός


Data Mining and Sentiment Analysis in texts are two important fields in Computer Science and Artificial Intelligence. They are a valuable tool for understanding attitudes and opinions expressed on social networks, such as Twitter. The use of Machine Learning methods and modern Natural Language Processing models allows for the automatic analysis of text content and the extraction of important information, while also offering, accuracy and convenience in drawing conclusions. In this paper, we utilize the Twitter API for data collection from Twitter, in combination with Natural Language Processing (NLP) methods. Specifically, we use Machine Learning models from the Scikit-learn library, as well as more modern models, such as BERT, RoBERTa, DistilBERT, and GPT-2, with the aim of identifying sentiment in text from the Twitter social network, as well as in reviews of stores contained in a specific dataset from the Skroutz.gr online service. According to our experiments, the models that show the best performance in terms of accuracy for predicting on new data, are BERT and SVM combined with the TF-IDF encoding.
Institution and School/Department of submitter: Σχολή Μηχανικών - Τμήμα Μηχανικών Πληροφορικής και Ηλεκτρονικών Συστημάτων
Subject classification: Εξόρυξη δεδομένων
Βαθιά μάθηση (Μηχανική μάθηση)
Ανάλυση συναισθήματος
Επεξεργασία φυσικής γλώσσας (Πληροφορική)
Data mining
Deep learning (Machine learning)
Sentiment analysis
Natural language processing (Computer science)
Keywords: Επεξεργασία φυσικής γλώσσας;Μηχανική μάθηση;Βαθιά μάθηση;Twitter API;NLP;Machine learning;Deep learning;BERT;RoBERTa;DistilBERT;GPT-2;TF-IDF;Word2Vec;Transformers;TensorFlow;PyTorch;Keras;Scikit learn
Description: Μεταπτυχιακή εργασία - Σχολή Μηχανικών - Τμήμα Μηχανικών Πληροφορικής και Ηλεκτρονικών Συστημάτων, 2023 (α/α 14053)
URI: http://195.251.240.227/jspui/handle/123456789/16855
Item type: masterThesis
General Description / Additional Comments: Μεταπτυχιακή εργασία
Subject classification: Εξόρυξη δεδομένων
Βαθιά μάθηση (Μηχανική μάθηση)
Ανάλυση συναισθήματος
Επεξεργασία φυσικής γλώσσας (Πληροφορική)
Data mining
Deep learning (Machine learning)
Sentiment analysis
Natural language processing (Computer science)
Submission Date: 2024-08-26T22:39:52Z
Item language: el
Item access scheme: free
Institution and School/Department of submitter: Σχολή Μηχανικών - Τμήμα Μηχανικών Πληροφορικής και Ηλεκτρονικών Συστημάτων
Publication date: 2023-07-11
Bibliographic citation: Καμπατζής, Α. & Σαρόγλου Σ. Εξόρυξη πληροφορίας και ανάλυση συναισθήματος με χρήση μεθόδων μηχανικής μάθησης και σύγχρονων μοντέλων επεξεργασίας φυσικής γλώσσας, (Μεταπτυχιακή εργασία), ΔΙ.ΠΑ.Ε.
Abstract: Η εξόρυξη πληροφορίας και η ανάλυση συναισθημάτων σε κείμενα, είναι δύο σημαντικά πεδία στην επιστήμη της πληροφορικής και της τεχνητής νοημοσύνης. Αποτελούν ένα σημαντικό εργαλείο για την κατανόηση των στάσεων και των απόψεων που εκφράζονται σε κοινωνικά δίκτυα όπως το Twitter. Η χρήση μεθόδων μηχανικής μάθησης και σύγχρονων μοντέλων επεξεργασίας φυσικής γλώσσας επιτρέπει την αυτόματη ανάλυση του περιεχομένου κειμένων και την εξαγωγή σημαντικών πληροφοριών από αυτά, προσφέροντας παράλληλα ακρίβεια και ευκολία στην εξαγωγή συμπερασμάτων. Στην παρούσα εργασία, αξιοποιούμε την χρήση του Twitter API για την συλλογή δεδομένων από το Twitter, σε συνδυασμό με την χρήση μεθόδων επεξεργασίας φυσικής γλώσσας (NLP). Ειδικότερα, χρησιμοποιούμε μοντέλα μηχανικής μάθησης της βιβλιοθήκης Scikit-learn, καθώς και πιο μοντέρνα μοντέλα όπως τα BERT, RoBERTa, DistilBERT και GPT-2 με σκοπό την αναγνώριση συναισθημάτων σε κείμενα (tweets) του κοινωνικού δικτύου Twitter, καθώς και σε κριτικές καταστημάτων που περιέχονται σε σύνολο δεδομένων της διαδικτυακής υπηρεσίας Skroutz. Σύμφωνα με τα πειράματά μας, τα μοντέλα που σημειώνουν την καλύτερη απόδοση όσον αφορά την ακρίβεια (accuracy) πρόβλεψης σε νέα δεδομένα, είναι το BERT και το SVM σε συνδυασμό με την κωδικοποίηση TF-IDF.
Data Mining and Sentiment Analysis in texts are two important fields in Computer Science and Artificial Intelligence. They are a valuable tool for understanding attitudes and opinions expressed on social networks, such as Twitter. The use of Machine Learning methods and modern Natural Language Processing models allows for the automatic analysis of text content and the extraction of important information, while also offering, accuracy and convenience in drawing conclusions. In this paper, we utilize the Twitter API for data collection from Twitter, in combination with Natural Language Processing (NLP) methods. Specifically, we use Machine Learning models from the Scikit-learn library, as well as more modern models, such as BERT, RoBERTa, DistilBERT, and GPT-2, with the aim of identifying sentiment in text from the Twitter social network, as well as in reviews of stores contained in a specific dataset from the Skroutz.gr online service. According to our experiments, the models that show the best performance in terms of accuracy for predicting on new data, are BERT and SVM combined with the TF-IDF encoding.
Advisor name: Διαμαντάρας, Κωνσταντίνος
Examining committee: Διαμαντάρας, Κωνσταντίνος
Publishing department/division: Σχολή Μηχανικών - Τμήμα Μηχανικών Πληροφορικής και Ηλεκτρονικών Συστημάτων
Publishing institution: ihu
Number of pages: 228
Appears in Collections:Μεταπτυχιακές Διατριβές

Files in This Item:
File Description SizeFormat 
Kabatzis, Saroglou.pdf5.04 MBAdobe PDFView/Open



 Please use this identifier to cite or link to this item:
http://195.251.240.227/jspui/handle/123456789/16855
  This item is a favorite for 0 people.

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.