Τεχνικές παράλληλης επεξεργασίας για επιλογή χαρακτηριστικών με τον αλγόριθμο Feature Subset Selection

Βαρσάμης, ΔημήτριοςΤαλαγκόζης, Χρήστος Ε.2017-11-132024-09-272017-11-132017-05https://repository2024.ihu.gr/handle/123456789/3261Το πλήρες κείμενο της εργασίας είναι διαθέσιμο κατόπιν αιτήματοςΗ επιλογή χαρακτηριστικών είναι ένα σημαντικό ερευνητικό θέμα στη μηχανική μάθηση και την αναγνώριση προτύπων. Είναι αποτελεσματική στη μείωση των διαστάσεων, στην αφαίρεση άσχετων δεδομένων, στην αύξηση της ακρίβειας της μάθησης και στη βελτίωση της κατανόησης των αποτελεσμάτων. Ωστόσο, τα τελευταία χρόνια, τα δεδομένα έχουν γίνει ολοένα και μεγαλύτερα τόσο στον αριθμό των προτύπων όσο και στον αριθμό των χαρακτηριστικών σε πολλές εφαρμογές. Η κλασική μέθοδος επιλογής χαρακτηριστικών είναι πολύ χρονοβόρα κατά την επεξεργασία δεδομένων μεγάλης κλίμακας λόγω του δαπανηρού κόστους υπολογισμού. Για τη βελτίωση της υπολογιστικής ταχύτητας, η παράλληλη επιλογή χαρακτηριστικών θεωρείται ως η αποτελεσματικότερη μέθοδος. Το Matlab είναι ένα εργαλείο το οποίο μπορεί να χρησιμοποιηθεί για την εφαρμογή παράλληλου και κατανεμημένου μοντέλου επεξεργασίας μεγάλων προβλημάτων εξόρυξης δεδομένων. Σε αυτή τη διπλωματική προτείνεται και υλοποιείται μία παράλληλη μέθοδος επιλογής χαρακτηριστικών με βάση το σειριακό μοντέλο. Επιπλέον, για ακόμη μεγαλύτερη βελτίωση, ο αλγόριθμος k-means, ο οποίος χρησιμοποιείται στο εσωτερικό της μεθόδου της επιλογής χαρακτηριστικών, αναδημιουργείται και του εφαρμόζεται παράλληλο μοντέλο επεξεργασίας. Τόσο η υλοποίηση του παραλλήλου k-means, όσο και η υλοποίηση του αλγορίθμου επιλογής χαρακτηριστικών είναι κλιμακούμενες. Η αποτελεσματικότητα των μεθόδων περιγράφεται μέσω ανάλυσης παραδειγμάτων.Feature Subset Selection is an important research topic in machine learning and pattern recognition. It is effective in reducing dimensionality, removing irrelevant data, increasing learning accuracy, and improving result comprehensibility. However, in recent years, data has become increasingly larger in both number of instances and number of features in many applications. Classical Feature Subset Selection method is out of work in processing large-scale dataset because of expensive computational cost. For improving computational speed, parallel Feature Subset Selection is taken as the efficient method. Matlab is a tool, that can be used to apply parallel and distributional computing model to process large-scale data mining problems. In this thesis, a parallel Feature Subset Selection method based on the serial model is proposed and implemented. Additionaly for even further improvement, the clustering algorithm k-means, that is used inside Feature Subset Selection method, is recreated and parallel processing applied. Both implementations of the parallel k-means and Feature Subset Selection methods are scalable. The efficiency of the methods is described through example analysis.92elΑναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 4.0 Διεθνέςhttp://creativecommons.org/licenses/by-nc-nd/4.0/deed.elΠΑΡΑΛΛΗΛΗ ΕΠΕΞΕΡΓΑΣΙΑ (ΗΛΕΚΤΡΟΝΙΚΟΙ ΥΠΟΛΟΓΙΣΤΕΣ)004.35Τεχνικές παράλληλης επεξεργασίας για επιλογή χαρακτηριστικών με τον αλγόριθμο Feature Subset SelectionΔιπλωματική εργασίαΤεχνικές παράλληλης επεξεργασίαςΑλγόριθμος Feature Subset SelectionMatlabΑλγόριθμος k-means