Η Google μπαίνει στη μάχη της τεχνητής νοημοσύνης με το Gemini
11.12.2023
08:16
Πολυαναμενόμενη και πολλά υποσχόμενη η «απάντηση» του γίγαντα του Διαδικτύου στο ChatGPT, αν και η παρουσίαση μάλλον προσπάθησε να «καλλωπίσει» τα πράγματα
Η Google μπορεί να άργησε να μπει στην κούρσα με τα μεγάλα μοντέλα τεχνητής νοημοσύνης, όπως αυτό στο οποίο βασίζεται το ChatGPT, αλλά με αυτό που παρουσίασε υπόσχεται να καλύψει το κενό.
Το Gemini (η λέξη σημαίνει «Δίδυμοι») είναι ένα μοντέλο τεχνητής νοημοσύνης που μπορεί να δουλέψει με κείμενο, εικόνες και βίντεο, γιατί «εκπαιδεύτηκε» παράλληλα και στα τρία.
Το Wired σημειώνει ότι θα μπορούσε να είναι ο πιο σημαντικός αλγόριθμος στην ιστορία της Google μετά το PageRank, αυτός στον οποίο βασίζεται η αναζήτηση της Google.
Η έκδοση Pro του Gemini είναι διαθέσιμη μέσα από το chatbot Bard της Google για τα αγγλικά και σταδιακά και σε άλλες γλώσσες, ενώ μέσα στο 2024 το Gemini θα ενσωματωθεί και σε άλλα προϊόντα, όπως η αναζήτηση, οι διαφημίσεις και το Chrome. Παράλληλα μια μικρότερη εκδοχή του μοντέλου, η Nano, θα είναι διαθέσιμη μέσα από τα κινητά Pixel 8.
Στις αρχές του νέου έτους θα γίνει διαθέσιμη η πιο μεγάλη και ισχυρή έκδοση του Gemini, η Ultra, αφού πρώτα περάσει εκτεταμένους ελέγχους ασφάλειας.
Η επίδειξη που έκανε η Google για τις δυνατότητες του Gemini ήταν εντυπωσιακή. Το μοντέλο μπορούσε να «ανταποκρίνεται» όταν κάποιος ζωγράφιζε εικόνες, δημιουργούσε γρίφους και αναζητούσε ιδέες για παιχνίδια που περιλάμβαναν ένα χάρτη του κόσμου. Μπορεί ακόμη να βοηθήσει στην επιστημονική έρευνα, απαντώντας σε ερωτήσεις σχετικά με μια ερευνητική δημοσίευση με γραφήματα και εξισώσεις.
Εντυπωσιακά, αλλά για τους πιο προσεκτικούς παρατηρητές ήταν σαφώς μονταρισμένα τα βίντεο της Google. Αυτός ο «καλλωπισμός» δεν είναι πρωτάκουστος για τα βίντεο των εταιρειών τεχνολογίας ενώ και Google έχει κακή προϊστορία, σχολιάζει το Verge.
Το Gemini (η λέξη σημαίνει «Δίδυμοι») είναι ένα μοντέλο τεχνητής νοημοσύνης που μπορεί να δουλέψει με κείμενο, εικόνες και βίντεο, γιατί «εκπαιδεύτηκε» παράλληλα και στα τρία.
Το Wired σημειώνει ότι θα μπορούσε να είναι ο πιο σημαντικός αλγόριθμος στην ιστορία της Google μετά το PageRank, αυτός στον οποίο βασίζεται η αναζήτηση της Google.
Η έκδοση Pro του Gemini είναι διαθέσιμη μέσα από το chatbot Bard της Google για τα αγγλικά και σταδιακά και σε άλλες γλώσσες, ενώ μέσα στο 2024 το Gemini θα ενσωματωθεί και σε άλλα προϊόντα, όπως η αναζήτηση, οι διαφημίσεις και το Chrome. Παράλληλα μια μικρότερη εκδοχή του μοντέλου, η Nano, θα είναι διαθέσιμη μέσα από τα κινητά Pixel 8.
Στις αρχές του νέου έτους θα γίνει διαθέσιμη η πιο μεγάλη και ισχυρή έκδοση του Gemini, η Ultra, αφού πρώτα περάσει εκτεταμένους ελέγχους ασφάλειας.
Η επίδειξη που έκανε η Google για τις δυνατότητες του Gemini ήταν εντυπωσιακή. Το μοντέλο μπορούσε να «ανταποκρίνεται» όταν κάποιος ζωγράφιζε εικόνες, δημιουργούσε γρίφους και αναζητούσε ιδέες για παιχνίδια που περιλάμβαναν ένα χάρτη του κόσμου. Μπορεί ακόμη να βοηθήσει στην επιστημονική έρευνα, απαντώντας σε ερωτήσεις σχετικά με μια ερευνητική δημοσίευση με γραφήματα και εξισώσεις.
Εντυπωσιακά, αλλά για τους πιο προσεκτικούς παρατηρητές ήταν σαφώς μονταρισμένα τα βίντεο της Google. Αυτός ο «καλλωπισμός» δεν είναι πρωτάκουστος για τα βίντεο των εταιρειών τεχνολογίας ενώ και Google έχει κακή προϊστορία, σχολιάζει το Verge.
Στο παραπάνω βίντεο παρουσιάζονται οι ικανότητες του Geminio σε κείμενο, εικόνα και βίντεο. Το Gemini αναγνωρίζει πολύ γρήγορα τις εικόνες και απάντα μέσα σε λίγα δευτερόλεπτα ή και σε πραγματικό χρόνο.
Στα ψιλά γράμματα η εταιρεία παραδέχεται ότι «η καθυστέρηση [στην απάντηση από το μοντέλο] έχει περιοριστεί και οι απαντήσεις του μοντέλου έχουν συντομευτεί». Στην πράξη αυτό σημαίνει ότι το Gemini δεν θα απαντά άμεσα στις προφορικές εντολές.
Πέρα από το πιθανόν παραπληνητικό μάρκετινγκ, η εισαγωγή του μοντέλου «είναι μια μεγάλη στιγμή για εμάς», σχολίασε ο επικεφαλής του τομέα της τεχνητής νοημοσύνυης στη Google Ντέμις Χασάμπης.
Οι μηχανικοί της Google σχολιάζουν ότι επειδή το μοντέλο «καταλαβαίνει» ταυτόχρονα από κείμενο, βίντεο και εικόνα είναι περισσότερο ικανό από ανταγωνιστές στην περίληψη κειμένου, στο να «κατεβάζει ιδέες» και στον σχεδιασμό.
Είναι όμως πολύ φειδωλοί ως προς τις τεχνικές λεπτομέρειες όπως τον αριθμό των παραμέτρων που δείχνει πόσο καλά εκπαιδευμένο είναι το μοντέλο – αν και δεν είναι αυτός ο μόνος παράγοντας που δείχνει την ικανότητά. Δεν γνωρίζουμε με ακρίβεια ούτε το κόστος ανάπτυξης που πιθανόν ανέρχεται σε πολλές εκατοντάδες εκατομμύρια δολάρια.
Όπως ισχυρίζονται στη Google, το Gemini Pro ξεπέρασε το μοντέλο GPT-3.5 στο οποίο βασιζόταν η προηγούμενη έκδοση του ChatGPT σε έξι από τα οκτώ ευρέως χρησιμοποιούμενα τεστ για την ικανότητα του μοντέλου. Ακόμη περισσότερο, το Gemini Ultra σημειώνει βαθμολογία υψηλότερη από οποιοδήποτε άλλο μοντέλο, όπως το GPT- σε τεστ με ερωτήσεις σχετικά με θέματα όπως τα μαθηματικά, η ιστορία των ΗΠΑ και το δίκαιο. Να σημειωθεί πάντως ότι το ChatGPT είναι στην έκδοση 4 ενώ μάλλον στις αρχές του 2024 περιμένουμε την ακόμη πιο ικανή έκδοση 5.
Σε κάθε περίπτωση, η Google επιμένει όμως στην ποιότητα των απαντήσεων του μοντέλου, προσπαθώντας να βρει τρόπους για να μην παράγει δυσάρεστες ή επικίνδυνες απαντήσεις, ακόμη και αν το πιέζουν να «φέρεται» άσχημα. Σε αυτές τις δοκιμές πιθανόν οφείλεται η καθυστέρηση στην έκδοση του μοντέλου σε σχέση με την OpenAI.
Εύλογο, γιατί το «χαρτί» που θα παίξουν στο μέλλον οι εταιρείες είναι τα «ηθικά μοντέλα» τεχνητής νοημοσύνης.
Ακολουθήστε το protothema.gr στο Google News και μάθετε πρώτοι όλες τις ειδήσεις
Δείτε όλες τις τελευταίες Ειδήσεις από την Ελλάδα και τον Κόσμο, τη στιγμή που συμβαίνουν, στο Protothema.gr
Δείτε όλες τις τελευταίες Ειδήσεις από την Ελλάδα και τον Κόσμο, τη στιγμή που συμβαίνουν, στο Protothema.gr