Sažetak | Ovaj rad istražuje mogućnosti izrade .NET aplikacije koristeći ML.NET tehnologiju za rješavanje problema binarne i tekstualne klasifikacije. Rad je organiziran tako da je prvo objašnjena teorijska pozadina, a zatim je u praktičnom dijelu rada opisana implementacija obrađenih metoda. U teorijskom dijelu obrađena je osnova modela strojnog učenja, s naglaskom na klasifikaciju binarnih i tekstualnih podataka. Detaljno su opisani algoritmi korišteni u radu: logistička regresija, perceptron s prosjekom, stablo odluke i naivni Bayesov klasifikator.
Praktični dio rada obuhvaća izradu interaktivne .NET aplikacije koja koristi Windows Forms tehnologiju za grafičko sučelje. Za binarnu klasifikaciju primijenjeni su algoritmi logističke regresije i perceptrona s prosjekom koristeći podatkovni skup Pima Indians Diabetes. Za tekstualnu klasifikaciju korišteni su algoritmi stabla odluke i naivnog Bayesovog klasifikatora koristeći SMS Spam Collection DataSet. Evaluacija uspješnosti modela uključuje: metrike točnosti, preciznosti i odaziva, evaluaciju performansi predikcija, krivulje radne karakteristike (ROC) i površine ispod krivulje (AUC) za binarnu klasifikaciju, te makro točnost, mikro točnost, log-gubitak, evaluaciju matrice zabune i kumulativni graf dobitka za tekstualnu klasifikaciju. |
Sažetak (engleski) | This paper explores the possibilities of creating a .NET application using ML.NET technology to solve binary and textual classification problems. The structure includes an initial theoretical background, followed by a practical implementation of these methods. The theoretical part discusses the basics of machine learning models, focusing on the classification of binary and textual data. Detailed descriptions are provided for logistic regression, averaged perceptron, decision tree, and naive Bayes classifier algorithms.
The practical part involves creating an interactive .NET application using Windows Forms technology for the graphical interface. Logistic regression and averaged perceptron are applied to binary classification using the Pima Indians Diabetes dataset. For textual classification, decision tree and naive Bayes classifier algorithms are used, utilizing the SMS Spam Collection dataset. The evaluation of model performance includes: accuracy, precision, and recall metrics, prediction performance evaluation, receiver operating characteristic curves (ROC) and area under the curve (AUC) for binary classification, as well as macro accuracy, micro accuracy, log-loss, confusion matrix evaluation, and cumulative gain chart for text classification.
Keywords: ML.NET, machine learning, .NET, Web Forms, classification, logistic regression, averaged perceptron, decision tree, naive Bayes classifier. |