Τεχνητή νοημοσύνη: Tο ChatGPT αποκτά φωνή και εικόνα
10.10.2023
18:13
Το πιο έξυπνο «ψαχτήρι» που δημιούργησε ποτέ ο άνθρωπος σύντομα θα μπορεί να αφηγείται με φυσική ανθρώπινη ομιλία τις ιστορίες που γράφει και να ζωγραφίζει κατά παραγγελία
Μια επανάσταση μέσα στην επανάσταση είναι η επέκταση του ChatGPT στην αλληλεπίδραση με τον χρήστη μέσω της δημιουργίας πρωτότυπων εικόνων, αλλά και της σύνθεσης προφορικού λόγου. Κατ’ αυτό τον τρόπο, το πρωτοποριακό «ρομπότ» (chatbot) της εταιρείας OpenAI μοιάζει όλο και λιγότερο με ρομπότ, εφόσον στο εξής θα μπορεί να συζητά με τον άνθρωπο που έχει απέναντί του. Θα μπορεί, π.χ., να του διαβάζει ένα παραμύθι πριν κοιμηθεί - το ίδιο παραμύθι που σχεδιάστηκε με το ψηφιακό χέρι του ChatGPT, αλλά ακριβώς όπως το είχε φανταστεί ο χρήστης.
Το αμέσως προσεχές μέλλον το ChatGPT -αλλιώς η πιο προηγμένη μηχανή αναζήτησης στο Διαδίκτυο με τεχνολογία Τεχνητής Νοημοσύνης- μετατρέπεται σε ένα υπερόπλο επικοινωνίας. Πέρα από αυτό που κάνει ήδη, δηλαδή τη σύνταξη κειμένων με τα οποία απαντά σε οποιοδήποτε ερώτημα του απευθύνεται, το ChatGPT προχωρά, κυριολεκτικά, σε άλλη διάσταση μέσω ήχου και εικόνας.
Μαζί δε με το κείμενο, τον μέχρι στιγμής βασικό δίαυλο επικοινωνίας του μηχανήματος με τον χειριστή του, το ChatGPT αναβαθμίζεται σε ένα «πολυτροπικό» (multimodal) εργαλείο Τεχνητής Νοημοσύνης για τη διαχείριση και επεξεργασία, ακόμη και την πρωτότυπη δημιουργία ψηφιακού περιεχομένου.
Με απλά λόγια, το πιο έξυπνο «ψαχτήρι» που δημιούργησε ποτέ ο άνθρωπος, το ChatGPT, σύντομα θα μπορεί να μιλά και να ζωγραφίζει. Να μιλά με λόγο σχεδόν απαράλλαχτο με τη φυσική ανθρώπινη ομιλία και να συνθέτει εικόνες κατά παραγγελία: οτιδήποτε εικονοποιεί στον εγκέφαλό του ο έμβιος χρήστης, όσο πεζό και απλό ή όσο σουρεάλ κι αν είναι, το ChatGPT θα λαμβάνει την περιγραφή του, θα την επεξεργάζεται σε απειροελάχιστο χρόνο και θα επιστρέφει ακριβώς την εικόνα που φαντάστηκε -ή, για την ακρίβεια, που ζήτησε ο εντολέας.
Σύντομα κοντά μας
Η μητρική εταιρεία του ChatGPT, η αμερικανική νεοφυής επιχείρηση OpenAI, ανακοίνωσε ότι το εικονοποιητικό εργαλείο της με την κωδική ονομασία «DALL·E 3» είναι πλέον τόσο εξελιγμένο ώστε μπορεί να αποτυπώσει με άνευ προηγουμένου ακρίβεια οτιδήποτε ζητήσει ο χρήστης. Βασίζεται στην Τεχνητή Νοημοσύνη, η οποία καθιστά εφικτό τον συσχετισμό τρισεκατομμυρίων μεμονωμένων πληροφοριών, γεγονός που συνεπάγεται ότι κάποιος που, φέρ’ ειπείν, προτιμά να διαβάζει κείμενο ή να ακούει αναλυτικές οδηγίες για το πώς θα ανεβάσει τη σέλα στο ποδήλατό του, μπορεί να φωτογραφίσει το δίτροχο και να προστρέξει στο ChatGPT, το οποίο θα ιχνηλατήσει την εικόνα και θα μετατρέψει σε κείμενο ή απαγγελία τα απαραίτητα βήματα για την επιτυχή ολοκλήρωση της εργασίας.
Αντιστρόφως, αν κάποιος επιθυμεί να δει μια πραγματική απεικόνιση οποιασδήποτε φαντασίωσής του, όπως έναν καναπέ σε σχήμα μπανάνας τοποθετημένο στο φόντο του πραγματικού καθιστικού που υπάρχει στο σπίτι του ή έναν καπετάνιο που θαλασσοδέρνεται με το κλασικό πηδάλιο στο χέρι ενώ πάνω από το κεφάλι του καραδοκούν τερατώδεις άνεμοι και δαίμονες, τα DALL·E 3 και ChatGPT είναι ανά πάσα στιγμή έτοιμα να ζωγραφίσουν.
Σύμφωνα με την OpenAI, το DALL·E 3 υπερέχει εμφατικά έναντι οποιουδήποτε επίδοξου ανταγωνιστή ακριβώς διότι είναι φτιαγμένο να αντιλαμβάνεται όλα όσα ζητά στη γραπτή περιγραφή του ο εκάστοτε παραγγέλλων, χωρίς να του ξεφεύγει το παραμικρό. Στην παρούσα φάση το DALL·E 3 βρίσκεται στο στάδιο της πειραματικής προεπισκόπησης, καθώς η OpenAI το κατέστησε διαθέσιμο σε περιορισμένο αριθμό εξειδικευμένων χρηστών. Το ευρύτερο κοινό προβλέπεται ότι σταδιακά θα αποκτήσει πρόσβαση στο DALL·E 3 εντός του φθινοπώρου, με προτεραιότητα σε όσους είναι συνδρομητές στις ανώτερου επιπέδου υπηρεσίες της OpenAI, όπως το ChatGPT Enterprise.
Διάλογος με το ρομπότ
Σε ό,τι αφορά τη νέα δυνατότητα ομιλίας του ChatGPT, ορισμένοι τη θεωρούν εξίσου, αν όχι πιο καινοτόμα ακόμη και από το εικονοποιητικό εργαλείο DALL·E 3. Και αυτό διότι το υποσύστημα Whisper μιμείται σχεδόν καθ’ ολοκληρίαν την ανθρώπινη εκφορά του λόγου, σε πλήρη διάσταση προς τις πασίγνωστες και διαδεδομένες εφαρμογές φωνητικής διάδρασης με ψηφιακές συσκευές, όπως η Alexa της Amazon, η Siri της Apple κ.ά. Στην πράξη, βάσει όσων μεταφέρουν εκείνοι που δοκίμασαν το νέο αναβαθμισμένο Whisper, πλέον η Siri και η παρέα της μοιάζουν εντελώς απαρχαιωμένες.
Το αμέσως προσεχές μέλλον το ChatGPT -αλλιώς η πιο προηγμένη μηχανή αναζήτησης στο Διαδίκτυο με τεχνολογία Τεχνητής Νοημοσύνης- μετατρέπεται σε ένα υπερόπλο επικοινωνίας. Πέρα από αυτό που κάνει ήδη, δηλαδή τη σύνταξη κειμένων με τα οποία απαντά σε οποιοδήποτε ερώτημα του απευθύνεται, το ChatGPT προχωρά, κυριολεκτικά, σε άλλη διάσταση μέσω ήχου και εικόνας.
Μαζί δε με το κείμενο, τον μέχρι στιγμής βασικό δίαυλο επικοινωνίας του μηχανήματος με τον χειριστή του, το ChatGPT αναβαθμίζεται σε ένα «πολυτροπικό» (multimodal) εργαλείο Τεχνητής Νοημοσύνης για τη διαχείριση και επεξεργασία, ακόμη και την πρωτότυπη δημιουργία ψηφιακού περιεχομένου.
Με απλά λόγια, το πιο έξυπνο «ψαχτήρι» που δημιούργησε ποτέ ο άνθρωπος, το ChatGPT, σύντομα θα μπορεί να μιλά και να ζωγραφίζει. Να μιλά με λόγο σχεδόν απαράλλαχτο με τη φυσική ανθρώπινη ομιλία και να συνθέτει εικόνες κατά παραγγελία: οτιδήποτε εικονοποιεί στον εγκέφαλό του ο έμβιος χρήστης, όσο πεζό και απλό ή όσο σουρεάλ κι αν είναι, το ChatGPT θα λαμβάνει την περιγραφή του, θα την επεξεργάζεται σε απειροελάχιστο χρόνο και θα επιστρέφει ακριβώς την εικόνα που φαντάστηκε -ή, για την ακρίβεια, που ζήτησε ο εντολέας.
Σύντομα κοντά μας
Η μητρική εταιρεία του ChatGPT, η αμερικανική νεοφυής επιχείρηση OpenAI, ανακοίνωσε ότι το εικονοποιητικό εργαλείο της με την κωδική ονομασία «DALL·E 3» είναι πλέον τόσο εξελιγμένο ώστε μπορεί να αποτυπώσει με άνευ προηγουμένου ακρίβεια οτιδήποτε ζητήσει ο χρήστης. Βασίζεται στην Τεχνητή Νοημοσύνη, η οποία καθιστά εφικτό τον συσχετισμό τρισεκατομμυρίων μεμονωμένων πληροφοριών, γεγονός που συνεπάγεται ότι κάποιος που, φέρ’ ειπείν, προτιμά να διαβάζει κείμενο ή να ακούει αναλυτικές οδηγίες για το πώς θα ανεβάσει τη σέλα στο ποδήλατό του, μπορεί να φωτογραφίσει το δίτροχο και να προστρέξει στο ChatGPT, το οποίο θα ιχνηλατήσει την εικόνα και θα μετατρέψει σε κείμενο ή απαγγελία τα απαραίτητα βήματα για την επιτυχή ολοκλήρωση της εργασίας.
Αντιστρόφως, αν κάποιος επιθυμεί να δει μια πραγματική απεικόνιση οποιασδήποτε φαντασίωσής του, όπως έναν καναπέ σε σχήμα μπανάνας τοποθετημένο στο φόντο του πραγματικού καθιστικού που υπάρχει στο σπίτι του ή έναν καπετάνιο που θαλασσοδέρνεται με το κλασικό πηδάλιο στο χέρι ενώ πάνω από το κεφάλι του καραδοκούν τερατώδεις άνεμοι και δαίμονες, τα DALL·E 3 και ChatGPT είναι ανά πάσα στιγμή έτοιμα να ζωγραφίσουν.
Σύμφωνα με την OpenAI, το DALL·E 3 υπερέχει εμφατικά έναντι οποιουδήποτε επίδοξου ανταγωνιστή ακριβώς διότι είναι φτιαγμένο να αντιλαμβάνεται όλα όσα ζητά στη γραπτή περιγραφή του ο εκάστοτε παραγγέλλων, χωρίς να του ξεφεύγει το παραμικρό. Στην παρούσα φάση το DALL·E 3 βρίσκεται στο στάδιο της πειραματικής προεπισκόπησης, καθώς η OpenAI το κατέστησε διαθέσιμο σε περιορισμένο αριθμό εξειδικευμένων χρηστών. Το ευρύτερο κοινό προβλέπεται ότι σταδιακά θα αποκτήσει πρόσβαση στο DALL·E 3 εντός του φθινοπώρου, με προτεραιότητα σε όσους είναι συνδρομητές στις ανώτερου επιπέδου υπηρεσίες της OpenAI, όπως το ChatGPT Enterprise.
Διάλογος με το ρομπότ
Σε ό,τι αφορά τη νέα δυνατότητα ομιλίας του ChatGPT, ορισμένοι τη θεωρούν εξίσου, αν όχι πιο καινοτόμα ακόμη και από το εικονοποιητικό εργαλείο DALL·E 3. Και αυτό διότι το υποσύστημα Whisper μιμείται σχεδόν καθ’ ολοκληρίαν την ανθρώπινη εκφορά του λόγου, σε πλήρη διάσταση προς τις πασίγνωστες και διαδεδομένες εφαρμογές φωνητικής διάδρασης με ψηφιακές συσκευές, όπως η Alexa της Amazon, η Siri της Apple κ.ά. Στην πράξη, βάσει όσων μεταφέρουν εκείνοι που δοκίμασαν το νέο αναβαθμισμένο Whisper, πλέον η Siri και η παρέα της μοιάζουν εντελώς απαρχαιωμένες.
Το ομιλούν ChatGPT δεν προφέρει λέξεις προδίδοντας ότι έχουν σχηματιστεί τεχνητά και εκπέμπονται από ένα μηχανικό στόμα. Η σύνθετη φωνή του ChatGPT δεν είναι καθόλου επίπεδη, μονότονη ή ξύλινη, αλλά προσομοιάζει έντονα στην ανθρώπινη όχι μόνο στο επίπεδο της έκφρασης φθόγγων, αλλά επίσης στον τόνο, στον χρωματισμό και τις διακυμάνσεις της έντασης αναλόγως του ύφους. Μάλιστα, ένας από τους δοκιμαστές του ομιλούντος ChatGPT παραδέχεται σε άρθρο του -με κάποια αμηχανία ομολογουμένως- ότι ύστερα από μερικές ώρες συνομιλίας με το μηχάνημα ο ίδιος ένιωσε «μια ζεστασιά να παρεισφρέει στον διάλογο που είχαμε οι δυο μας».
Ακολουθήστε το protothema.gr στο Google News και μάθετε πρώτοι όλες τις ειδήσεις
Δείτε όλες τις τελευταίες Ειδήσεις από την Ελλάδα και τον Κόσμο, τη στιγμή που συμβαίνουν, στο Protothema.gr
Δείτε όλες τις τελευταίες Ειδήσεις από την Ελλάδα και τον Κόσμο, τη στιγμή που συμβαίνουν, στο Protothema.gr