Feature selection is an important step in developing accurate machine-learning models for classification tasks, including wine quality prediction. The accuracy of the machine learning model depends on the selection of relevant features that contribute to the predicted outcome. In this paper, we propose two commonly used optimization methods, forward sequential feature selection (SFS), and grid search, to identify the most relevant features for wine quality prediction using K-nearest neighbor (KNN). We used a dataset of 1598 samples with 11 wine-quality features and evaluated the performance of the KNN model trained on different subsets of features selected SFS. The result suggests that SFS and gird search are effective methods for wine quality prediction using KNN. The identified wine quality features help to predict the quality of wine more accurately, leading to better predictive outcomes. Thus, machine learning models can benefit greatly from the use of grid search and SFS. By fine-tuning the model in this way, it is possible to achieve better results in applications where accuracy and speed are important. As machine learning continues to be used in a wide range of industries, the use of these techniques will become increasingly important. Further research is needed to validate the model on larger datasets and to integrate it into practical classification or predictive analysis.
PL
Wybór funkcji to ważny krok w opracowywaniu dokładnych modeli uczenia maszynowego do celów klasyfikacji, w tym przewidywania jakości wina. Dokładność modelu uczenia maszynowego zależy od wyboru odpowiednich cech, które przyczyniają się do przewidywanego wyniku. W tym artykule proponujemy dwie powszechnie stosowane metody optymalizacji, sekwencyjny wybór cech w przód (SFS) i przeszukiwanie siatki, aby zidentyfikować cechy najbardziej odpowiednie do przewidywania jakości wina za pomocą K-najbliższego sąsiada (KNN). Wykorzystaliśmy zbiór danych obejmujący 178 próbek z 13 cechami jakości wina i oceniliśmy działanie modelu KNN wyszkolonego na różnych podzbiorach wybranych cech FSFS. Wynik sugeruje, że SFS i przeszukiwanie pasów są skutecznymi metodami przewidywania jakości wina za pomocą KNN. Zidentyfikowane cechy jakości wina pomagają dokładniej przewidzieć jakość wina, co prowadzi do lepszych wyników predykcyjnych. Zatem modele uczenia maszynowego mogą w znacznym stopniu skorzystać na wykorzystaniu wyszukiwania siatki i SFS. Dostrajając w ten sposób model, możliwe jest osiągnięcie lepszych wyników w zastosowaniach, w których ważna jest dokładność i szybkość. Ponieważ uczenie maszynowe jest w dalszym ciągu wykorzystywane w wielu gałęziach przemysłu, wykorzystanie tych technik będzie zyskiwać na znaczeniu. Konieczne są dalsze badania, aby zweryfikować model na większych zbiorach danych i włączyć go do praktycznej klasyfikacji lub analizy predykcyjnej.
A transparent and understandable machine learning model refers to a model that is accurate, effective, explainable, and interpretable to humans. An interpretable model reduces the gap between complex algorithms and human understanding, allowing users to trust and comprehend the process of the model's decision-making. To that end, Machine-learning models can provide information about the importance of each input feature in making predictions. Model interpretation helps users understand the factors that have the most significant impact on the model's decisions. This study implements feature importance-based model interpretation by employing a heart disease dataset. The simulation result demonstrates that with feature importance analysis, the decision-making process of the extra tree classification algorithm is easily explainable.
PL
Przejrzysty i zrozumiały model uczenia maszynowego odnosi się do modelu, który jest dokładny, skuteczny, zrozumiały i możliwy do interpretacji przez ludzi. Interpretowalny model zmniejsza lukę między złożonymi algorytmami a ludzkim zrozumieniem, pozwalając użytkownikom zaufać i zrozumieć proces podejmowania decyzji w modelu. W tym celu modele uczenia maszynowego mogą dostarczać informacji o znaczeniu każdej cechy wejściowej w tworzeniu prognoz. Interpretacja modelu pomaga użytkownikom zrozumieć czynniki, które mają największy wpływ na decyzje modelu. W tym badaniu zastosowano interpretację modelu opartą na ważności funkcji, wykorzystując zestaw danych dotyczących chorób serca. Wynik symulacji pokazuje, że dzięki analizie ważności cech proces decyzyjny algorytmu klasyfikacji dodatkowego drzewa jest łatwy do wyjaśnienia.
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.