Μηχανική μάθηση για τη διάγνωση των παθήσεων του αναπνευστικού

Δημήτρης Σπαθής, BSc Πληροφορικής Ιόνιο Πανεπιστήμιο, MSc ΑΠΘ, Υποψήφιος Διδάκτορας στο Πανεπιστήμιο Κέιμπριτζ

Η μηχανική μάθηση και η επιστήμη δεδομένων επιτρέπουν την ακριβή διάγνωση του άσθματος και της χρόνιας αναπνευστικής πνευμονοπάθειας σε συνδυασμό με φτηνούς αισθητήρες που ενσωματώνονται σε κινητά τηλέφωνα.

Με την αυξανόμενη συσσώρευση των δεδομένων (big data), εμφανίζονται νέες ευκαιρίες και προκλήσεις σχετικά με την κατανόηση, την ανάλυση αλλά και την εξαγωγή γνώσης. Η απλή στατιστική ανάλυση των περασμένων δεκαετιών ίσως δεν επαρκεί στην εποχή που όλα είναι μετρήσιμα. Σε αυτό το περιβάλλον ο χώρος της υγείας μπορεί να ευνοηθεί από την αναγνώριση κοινών μοτίβων σε διαφορετικούς ασθενείς.
Το άσθμα είναι μια χρόνια πάθηση των αεραγωγών. Οι αεραγωγοί ή αλλιώς βρόγχοι, είναι οι σωλήνες που μεταφέρουν τον αέρα στους πνεύμονες. Όταν κάποιος ασθματικός εισπνεύσει κάποιο ερέθισμα από το περιβάλλον, προκαλείται βρογχόσπασμος και παρεμπόδιση της ροής του αέρα διαμέσου τους. Οι ασθενείς με άσθμα έχουν μια κληρονομική προδιάθεση, αλλά τα συμπτώματα εμφανίζονται μετά την έκθεση σε ερεθίσματα, όπως ιογενείς λοιμώξεις και αλλεργιογόνα (σκόνη, γύρεις, τρίχωμα ζώων κλπ). Η Χρόνια Αποφρακτική Πνευμονοπάθεια (ΧΑΠ) αφορά τις παθήσεις που σχετίζονται με τη χρόνια βρογχίτιδα και το εμφύσημα, οι οποίες έχουν κοινό χαρακτηριστικό την απόφραξη των αεραγωγών του αναπνευστικού, με αποτέλεσμα την καθημερινή δύσπνοια. Ο κυριότερος παράγοντας της σταδιακής απόφραξης των αεραγωγών είναι το κάπνισμα. Κάθε χρόνο περίπου 300 εκατομμύρια ασθενείς διαγιγνώσκονται με άσθμα, το οποίο προκαλεί συνολικά περίπου 250.000 θανάτους. H ΧΑΠ εμφανίζεται σε 330 εκατομμύρια ασθενείς παγκοσμίως, προκαλώντας περίπου 3 εκατομμύρια θανάτους. Άμεσα συνάγεται ότι πρέπει να αναπτυχθούν εργαλεία για την έγκαιρη πρόβλεψη και διάγνωση των παθήσεων του αναπνευστικού. Ένα τέτοιο μοντέλο αναπτύξαμε στο Εργαστήριο Βιοπληροφορικής και Ανθρώπινης Ηλεκτροφυσιολογίας του Τμήματος Πληροφορικής στο Ιόνιο Πανεπιστήμιο, υπό την επίβλεψη του καθηγητή Π. Βλάμου.
Με βάση ένα δείγμα ασθενών προσπαθήσαμε να εντοπίσουμε μοτίβα που προβλέπουν καλύτερα αυτές τις δύο παθήσεις. Αυτή η αναγνώριση προτύπων πραγματοποιείται μέσω των αλγορίθμων μηχανικής μάθησης. Σαν όρος ακούγεται ίσως ξένος, αλλά η μηχανική μάθηση βρίσκεται σχεδόν παντού γύρω μας, δουλεύοντας αθόρυβα όταν μας προτείνει τη βέλτιστη διαδρομή στο Google Maps, όταν μας μεταφράζει αυτόματα οτιδήποτε σε οποιαδήποτε γλώσσα, όταν ξεχωρίζει την ανεπιθύμητη αλληλογραφία, ή όταν μας προτείνει την επόμενη ταινία στο Netflix με βάση το ιστορικό μας. Όλα τα παραπάνω συστήματα έχουν ένα κοινό, αυτές οι αποφάσεις πραγματικού χρόνου δεν προγραμματίστηκαν από ανθρώπους. Μοντέλα που εκπαιδεύτηκαν σε εκατομμύρια τέτοια περιστατικά, έμαθαν να λύνουν το εκάστοτε πρόβλημα. Αυτή είναι και η πρόκληση για την επιστήμη της ιατρικής. Στην περίπτωσή μας, λαμβάνοντας ένα πλήρες προφίλ από 132 ασθενείς, που περιελάμβανε δημογραφικά στοιχεία, συμπτώματα, αλλά και πνευμονολογικές μετρήσεις από το σπιρόμετρο, είμαστε σε θέση να προβλέψουμε το άσθμα με ακρίβεια 80% και τη ΧΑΠ με 97%.
Με απλά λόγια, παρέχοντας στο σύστημα τα παραπάνω στοιχεία (φύλο, ηλικία, συμπτώματα, μετρήσεις κλπ.) για έναν καινούριο ασθενή, μπορούμε να διαγνώσουμε την πάθηση του με υψηλή ακρίβεια. Η διαδικασία της εκπαίδευσης αυτών των μοντέλων περιλαμβάνει αρκετά στάδια. Έπειτα από την προσεκτική συλλογή των δεδομένων, περνάμε στην επιλογή των μεταβλητών και το διαχωρισμό των ασθενών σε αυτούς με τους οποίους θα εκπαιδεύσουμε το μοντέλο και σε αυτούς με τους οποίους θα το ελέγξουμε. Κατά τη διάρκεια της εκπαίδευσης, το μοντέλο δεν πρέπει να “δει” τους δεύτερους, όπως ο μαθητής δεν πρέπει να δει τις ερωτήσεις των εξετάσεων πριν την εξέταση γιατί θα τις απομνημονεύσει. Εξ άλλου, σκοπός αυτής της διαδικασίας δεν είναι η ανίχνευση μοτίβων σε αυτούς τους συγκεκριμένους ασθενείς, αλλά η γενίκευση σε δυνητικά οποιοδήποτε ασθενή. Έπειτα έρχεται η επιλογή του κατάλληλου αλγορίθμου μηχανικής μάθησης, δηλαδή η μαθηματική διαδικασία που θα βρει τον καλύτερο τρόπο ώστε να ταξινομήσει τους ασθενείς. Στη σχετική βιβλιογραφία έχουν προταθεί αρκετοί αλγόριθμοι ταξινόμησης. Στην περίπτωσή μας, συγκρίναμε 7 εξ αυτών, από απλά στατιστικά μοντέλα όπως η Λογιστική Παλινδρόμηση και ο Πλησιέστερος Γείτονας μέχρι πιο σύνθετα όπως τα Νευρωνικά Δίκτυα και τα Τυχαία Δάση (Random Forests). Για το δείγμα μας, τα Τυχαία Δάση πέτυχαν την υψηλότερη ακρίβεια και για τις δύο ασθένειες. Ο συγκεκριμένος αλγόριθμος χρησιμοποιείται ευρέως στη βιομηχανία γιατί τα αποτελέσματά του είναι ερμηνεύσιμα και η χρήση της τυχαιότητας στη διαδικασία της εκπαίδευσης εγγυάται υψηλή ακρίβεια.
Η ερμηνευσιμότητα των αλγορίθμων τεχνητής νοημοσύνης είναι ίσως η σημαντικότερη πρόκληση για την εφαρμογή τους στο χώρο της υγείας. Τα τελευταία χρόνια παρατηρούμε την επικράτηση ενός είδους νευρωνικού δικτύου (deep neural network) που επιτυγχάνει υψηλή ακρίβεια σε δύσκολα προβλήματα όπως της αυτόματης μετάφρασης ή των αυτο-οδηγούμενων οχημάτων, αλλά αδυνατεί να δικαιολογήσει “γιατί” έλαβε την εκάστοτε απόφαση [1]. Για αυτό το λόγο, θεωρούμε πως -προς το παρόν-, η επιλογή των Τυχαίων Δασών αντισταθμίζει την ακρίβεια με την ερμηνευσιμότητα. Όντως, μετά την εκπαίδευση είμαστε σε θέση να δούμε τις σημαντικότερες μεταβλητές που οδήγησαν το μοντέλο στην ταξινόμηση κάποιου ασθενή ως υγιή ή όχι. Για το άσθμα, παρατηρούμε πως η Μέγιστη Εκπνευστική Ροή στα μισά της καμπύλης εκπνοής του ολικού όγκου αέρα που βγαίνει στη μέγιστη εκπνοή (MEF25-75) είναι ο σημαντικότερος δείκτης, και ακολουθούν άλλες 4 μετρήσεις της καμπύλης ροής-όγκου του σπιρόμετρου (FEV1, MEF50, MEF75, MEF25) μαζί με την ηλικία και το κάπνισμα. Για τη ΧΑΠ, ο σημαντικότερος δείκτης είναι μακράν το κάπνισμα και ακολουθεί ο όγκος αέρα που εκπνέεται στο 1ο δευτερόλεπτο της βίαιης εκπνοής (FEV1), καθώς και η ηλικία.
Σαν τελευταίο βήμα, το εκπαιδευμένο προγνωστικό μοντέλο εισάγεται σε μια απλή εφαρμογή για κινητά τηλέφωνα (εικόνα 1), που μπορεί να παρέχει διαγνώσεις γρήγορα, ιδιαίτερα σε συνδυασμό με κάποιο πρόσθετο όπως τα νέα σπιρόμετρα που “κουμπώνουν” σαν αξεσουάρ πάνω στο κινητό. Προς το παρόν η εφαρμογή βρίσκεται σε πιλοτικό στάδιο ανάπτυξης και σκοπεύουμε να τη διαθέσουμε στο κοινό έπειτα από πειράματα με περισσότερους ασθενείς.
Η διαφορά της μελέτης μας, που δημοσιεύτηκε πρόσφατα στο Health Informatics Journal [2], είναι η μεθοδική σύγκριση διαφορετικών αλγορίθμων μηχανικής μάθησης και η χρήση 22 μεταβλητών για τη σφαιρική περιγραφή ενός ασθενή. Προηγούμενες μελέτες δεν εστίασαν τόσο πολύ σε διαφορετικές μετρήσεις του σπιρομέτρου, όταν εμείς περιλαμβάνουμε 8 διαφορετικές μεταβλητές της καμπύλης εκπνοής. Για παράδειγμα, παρατηρούμε πως ο όγκος αέρα που εκπνέεται στο 1ο δευτερόλεπτο της σπιρομέτρησης (FEV1) είναι σημαντικός παράγοντας και για τις 2 παθήσεις ενώ ο δείκτης Tiffeneau–Pinelli (TIFF), δηλαδή η σχέση FEV1/FVC είναι σχεδόν αμελητέος, παρότι θεωρείται σημαντικός στην κλασσική βιβλιογραφία. Αυτά τα ευρήματα μπορούν να βοηθήσουν τους κατασκευαστές έξυπνων συσκευών για αυτόματη διάγνωση.
Επόμενο βήμα στην έρευνα μας είναι η χρησιμοποίηση φτηνών αισθητήρων που βρίσκονται μέσα στα κινητά τηλέφωνα (GPS, επιταχυνσιόμετρο, γυροσκόπιο, κάμερα, μικρόφωνο, ένταση περιβάλλοντος φωτός), αλλά και δεδομένα από τα κοινωνικά δίκτυα (φωτογραφίες, κείμενο) για την καλύτερη περιγραφή των προφίλ των ασθενών ακόμη και χωρίς τη χρήση ιατρικών συσκευών όπως το σπιρόμετρο. Θα ήταν δυνατό να προβλέψουμε τις παθήσεις του αναπνευστικού απλά από τη συμπεριφορά μας, τα δημογραφικά στοιχεία, ή τα τοπικά δεδομένα της μόλυνσης του αέρα; Τα κινητά, η μηχανική μάθηση και οι αισθητήρες σίγουρα θα συνεισφέρουν σε αυτήν την απάντηση.

Εικόνα 1: Η εφαρμογή Respre που αναπτύχθηκε από το Εργαστήριο Βιοπληροφορικής κι Ανθρώπινης Ηλεκτροφυσιολογίας

Βιβλιογραφία
1. LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. Nature, 521(7553), 436-444.
2. Spathis, D., Vlamos, P. (2017). Diagnosing Asthma and Chronic Obstructive Pulmonary Disease with Machine Learning. Health Informatics Journal. SAGE http://doi.org/cbzh