Στόχος της παρούσας διπλωματικής εργασίας είναι ο εντοπισμός επικίνδυνης συμπεριφοράς οδηγού με δεδομένα ευρείας κλίμακας από έξυπνα συστήματα καταγραφής και τεχνικές μηχανικής μάθησης. Η συλλογή των στοιχείων έγινε από μία μεγάλη βάση δεδομένων που δημιουργήθηκε μέσω ενός πειράματος προσομοίωσης που έγινε σε οδηγούς. Στη συνέχεια χωρίστηκαν τρεις κατηγορίες οδήγησης: η φυσιολογική οδήγηση, η επικίνδυνη οδήγηση και η οδήγηση λίγο πριν το ατύχημα, χρησιμοποιώντας σαν κύρια μεταβλητή την μέγιστη ταχύτητα και ελέγχοντας αν οι οδηγοί ξεπερνούν το όριο ταχύτητας που υπάρχει μέσω αυτής. Επιπλέον η πλειονότητα των μελετών είχε πρόβλημα ανισορροπίας του δείγματος όσον αφορά τις διαφορετικές ταξινομήσεις, με τα δείγματα των επικίνδυνων οδηγικών καταστάσεων να είναι πολύ μικρότερα από τα δείγματα αυτά των ασφαλών οδηγικών συνθηκών. Γι’ αυτό χρησιμοποιείται η μέθοδος επαναδειγματοληψίας SMOTE για την επίλυση της ανισορροπίας των δεδομένων στα επίπεδα ασφαλείας καθώς και για τη διασφάλιση της αμεροληψίας των μοντέλων. Για την ανάλυση των δεδομένων αναπτύχθηκαν μοντέλα Ridge Classifier, Support-vector machine, random forests και XgBoost. Σύμφωνα με τα αποτελέσματα τους τα μοντέλα random forests και XgBoost παρουσίασαν τα πιο αξιόπιστα αποτελέσματα στην ικανότητα πρόβλεψής με 95% ακρίβεια των τριών κατηγοριών οδηγών με χαμηλότερη πιθανότητα λάθους πρόβλεψης, συγκριτικά με τα Ridge Classifier και Support-vector machine. Στη συνέχεια για την καλύτερη κατανόηση αυτών των μοντέλων βρέθηκαν οι τιμές Shapley όπου μας έδειξαν της ποιο σημαντικές μεταβλητές που επηρεάζουν το κάθε μοντέλο. Τέλος, γίνονται προτάσεις για αξιοποίηση των αποτελεσμάτων, καθώς και για περαιτέρω έρευνα του αντικειμένου.