ΕΚΠΑ: Η ομάδα του Δημήτρη Γκιζόπουλου συμμετέχει σε διεθνή Έρευνα για τα Σιωπηλά Σφάλματα

Στην Έρευνα συμμετέχουν οι εταιρείες - κολοσσοί Meta, Google, Microsoft, Intel, AMD, NVIDIA, ARM - Τι είναι τα «σιωπηλά σφάλματα» που επηρεάζουν Υπολογιστές στα Κέντρα Δεδομένων

Πρωτοπόρο εμφανίζεται το Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών στην Έρευνα ενάντια στα Σιωπηλά Σφάλματα (Silent Errors) των Σύγχρονων Υπολογιστών στα Κέντρα Δεδομένων.

Η ερευνητική ομάδα Αρχιτεκτονικής Υπολογιστών του Καθηγητή του Ε.Κ.Π.Α. κ. Δημήτρη Γκιζόπουλου επελέγη ως η μόνη εκτός ΗΠΑ ομάδα για να συνεργαστεί μέσω του Open Compute Project (OCP) consortium, το οποίο αποτελείται από τις κορυφαίες εταιρείες Meta, Google, Microsoft, Intel, AMD, NVIDIA, ARM στην επίλυση του ανησυχητικού προβλήματος των Σιωπηλών Σφαλμάτων Δεδομένων (Silent Data Errors ή Silent Data Corruptions) των σύγχρονων υπολογιστικών συστημάτων στο υπολογιστικό νέφος (cloud).

Όταν τον Φεβρουάριο του 2021, η εταιρεία Meta - πρώην Facebook – εντόπισε ότι το ένα στα χίλια τσιπ των επεξεργαστών δίνει εσφαλμένα αποτελέσματα προκλήθηκε μεγάλη ανησυχία στο χώρο της τεχνολογίας. Την ύπαρξη του προβλήματος επιβεβαίωσε λίγους μήνες αργότερα και η Google.

Προκειμένου να επιλυθεί το πρόβλημα, η Meta προκήρυξε ένα διεθνή διαγωνισμό, στον οποίο διακρίθηκαν πέντε πανεπιστήμια. Μεταξύ αυτών, το Τμήμα Πληροφορικής και Τηλεπικοινωνιών του Εθνικού Καποδιστριακού Πανεπιστημίου Αθηνών υπό τον Καθηγητή Δημήτρη Γκιζόπουλο.

Συγκεκριμένα, μεταξύ 62 προτάσεων από 54 πανεπιστήμια διεθνώς, διακρίθηκε η Ελληνική. Οι υπόλοιπες προήλθαν από τα εξής κορυφαία πανεπιστημιακά Ιδρύματα: Stanford, Carnegie Mellon, Northeastern από τις ΗΠΑ και το British Columbia από τον Καναδά.

Σε ό,τι αφορά τα «σιωπηλά σφάλματα», τα οποία έχουν σαν συνέπεια την εσφαλμένη εκτέλεση των προγραμμάτων των υπολογιστών, το βασικό πρόβλημα εντοπίζεται στην κεντρική μονάδα επεξεργασίας (CPU), δηλαδή στον επεξεργαστή και ειδικότερα, στον μικροεπεξεργαστή. Ένα σιωπηλό σφάλμα προέρχεται από ατέλειες του πυριτίου των σύγχρονων τσιπ των υπολογιστών καθώς και άλλους παράγοντες και οδηγεί στην εκτέλεση λανθασμένων υπολογισμών.

Στην πράξη, εάν ένας αριθμητικός υπολογισμός είναι λανθασμένος, το πρόβλημα μπορεί να μην εντοπιστεί εγκαίρως ή να μην εντοπιστεί και ποτέ - για το λόγο αυτό, ονομάζονται ‘σιωπηλά’ σφάλματα. Να σημειωθεί, δε ότι τα λανθασμένα αποτελέσματα των υπολογισμών δεν γίνονται αντιληπτά από τις υπάρχουσες μεθόδους στο υλικό (hardware) και λογισμικό (software) των υπολογιστικών μηχανών του νέφους. Το πρόβλημα εμφανίζεται με μεγάλη συχνότητα και σφοδρότητα σε όλους τους σύγχρονους μικροεπεξεργαστές που χρησιμοποιούνται σε μεγάλη κλίμακα στα τεράστια Κέντρα Δεδομένων (Data Centers) και δημιουργεί σοβαρές ανησυχίες για την ακεραιότητα των παραγόμενων αποτελεσμάτων.

Η επιστημονική ομάδα του κ. Γκιζόπουλου στο Τμήμα Πληροφορικής και Τηλεπικοινωνιών του Ε.Κ.Π.Α. αναπτύσσει αποδοτικές μεθόδους ανίχνευσης των ατελειών των μικροεπεξεργαστών (CPUs, GPUs και AI accelerators) πριν αυτές οδηγήσουν σε σιωπηλά σφάλματα στα προγράμματα των χρηστών του υπολογιστικού νέφους.

Όπως υπογραμμίζει ο Καθηγητής Γκιζόπουλος, «ο ρυθμός εμφάνισης του σφάλματος εξαρτάται απ’ το hardware, απ’ το software και απ’ τις συνθήκες. Εξαρτάται απ’ τη θερμοκρασία του δωματίου, απ’ την ηλικία του μηχανήματος, απ’ το υψόμετρο και άλλους παράγοντες. Μιλάμε για αριθμητικές πράξεις που απλώς δίνουν λανθασμένο αποτέλεσμα, δεν “κρασάρουν” τον υπολογιστή και κανένας κώδικας ανίχνευσης, ή διόρθωσης δεν ανιχνεύει το λάθος».

Ποιος είναι ο βασικός στόχος της ομάδας; «Να μετρήσουμε το μέγεθος του προβλήματος και να φτιάξουμε δοκιμές που θα ανιχνεύουν τα χαλασμένα τσιπάκια. Προσπαθούμε να κάνουμε μια προσομοίωση του προβλήματος, σε συνεργασία και με τις κατασκευάστριες εταιρείες των τσιπ, την Intel και την AMD, και να επινοήσουμε έξυπνες δοκιμές ώστε όταν χρησιμοποιήσεις το τσιπ σε πολλές μηχανές να μπορέσεις να ανιχνεύσεις σφάλματα και να μη χρησιμοποιήσεις περαιτέρω τα εσφαλμένα αποτελέσματα που αυτά δίνουν. Η ερευνητική συνεργασία τρέχει εδώ και μερικούς μήνες και είναι ένα μόνο κομμάτι του μεγάλου παζλ του προβλήματος».

Η σημασία της επίλυσης του συγκεκριμένου προβλήματος για το ευρύ κοινό, έγκειται στο γεγονός ότι όλοι είμαστε καθημερινοί χρήστες των εφαρμογών από τη Google και τη Meta ενώ χρησιμοποιούμε τα τσιπ των μικροεπεξεργαστών σε συσκευές όπως τα κινητά μας τηλέφωνα, τα τάμπλετ, τα λάπτοπ ή τους επιτραπέζιους υπολογιστές. Τυχόν σφάλματα σε αυτές τις συσκευές, δεν είναι εύκολο να εντοπιστούν. Μεγαλύτερο πρόβλημα υπάρχει όταν τα σφάλματα προκύπτουν σε υπολογισμούς μεγάλης κλίμακας, όπως στα αεροπλάνα ή στις τράπεζες.

Αν και δεν αποτελεί ρεαλιστικό στόχο το να ξεπεραστεί εντελώς το πρόβλημα με τα ‘σιωπηλά σφάλματα’ εξαιτίας της διαρκούς εξέλιξης στις μεθόδους σχεδίασης και στις τεχνικές κατασκευής επεξεργαστών, το να υπολογιστεί με ακρίβεια η έκταση του προβλήματος και να περιοριστεί, δεν παύει να είναι κάτι εφικτό.


Ειδήσεις σήμερα:

Ο Ερντογάν θυμήθηκε και την «τουρκική μειονότητα στη δυτική Θράκη», «θα συνεχίσουμε να την προστατεύουμε»

Για απόπειρα ανθρωποκτονίας η δίωξη των δύο δραστών για τον ξυλοδαρμό του Ελληνοκαναδού στο Ηράκλειο


Μιλά για πρώτη φορά ο πατέρας του 20χρονου που πυροβόλησε τον Τραμπ - «Προσπαθούμε να φροντίσουμε τον εαυτό μας»
Ακολουθήστε το protothema.gr στο Google News και μάθετε πρώτοι όλες τις ειδήσεις

Δείτε όλες τις τελευταίες Ειδήσεις από την Ελλάδα και τον Κόσμο, τη στιγμή που συμβαίνουν, στο Protothema.gr