Τεχνητή Νοημοσύνη Gemini: Απάντηση της Google στο ChatGPT της Microsoft, με καινοτόμο πολυτροπικό μοντέλο

Η νέα εποχή για την ΤΝ που άνοιξε πέρυσι έκανε πριν λίγες μέρες ένα νέο, ενδεχομένως σημαντικό βήμα, εφόσον οι ισχυρισμοί της «Google» για το νέο πολυτροπικό μοντέλο ΤΝ Gemini (Δίδυμοι), που ανέπτυξε, αποδειχθούν βάσιμοι.

Πριν έναν χρόνο η χρηματοδοτούμενη από τη «Microsoft» εταιρεία Τεχνητής Νοημοσύνης (ΤΝ) «OpenAI» ανακοίνωνε το ChatGPT, ένα διαλογικό ρομπότ στηριγμένο στο παραγωγικό Μεγάλο Γλωσσικό Μοντέλο ΤΝ GPT-3, προκαλώντας μεγάλη εντύπωση σε ειδικούς και μη, για την ποιότητα των απαντήσεων και του διαλόγου που παρείχε. Στο πλαίσιο του ανταγωνισμού των μονοπωλίων για απόσπαση μεγαλύτερου κομματιού αγοράς και εκτοπισμό ή εξόντωση του αντιπάλου, η «Microsoft» στο διάστημα που πέρασε προχώρησε στην έκδοση 4 του GPT και ενσωμάτωσε το ChatGPT σε όλες τις δραστηριότητες και τα προϊόντα της, με πρωτεύοντα στόχο να «εκθρονίσει» την «Google» από την κυρίαρχη θέση της στις μηχανές αναζήτησης στο διαδίκτυο.

Η νέα εποχή για την ΤΝ που άνοιξε πέρυσι έκανε πριν λίγες μέρες ένα νέο, ενδεχομένως σημαντικό βήμα, εφόσον οι ισχυρισμοί της «Google» για το νέο πολυτροπικό μοντέλο ΤΝ Gemini (Δίδυμοι), που ανέπτυξε, αποδειχθούν βάσιμοι. Η «Google», που ήδη είχε πολυετή ιστορία στην έρευνα για την ΤΝ, από την πρώτη στιγμή κατάλαβε τον κίνδυνο από την αντίπαλό της και εφάρμοσε στα δικά της προϊόντα τις πιο έτοιμες μορφές ΤΝ που είχε αναπτύξει μέχρι τότε, χωρίς εντυπωσιακά αποτελέσματα. Ωστόσο, σε στενή συνεργασία με τη θυγατρική της, «Google DeepMind», συνέχισε την έρευνα και ανάπτυξη για κάτι που θα της έδινε ουσιαστικό πλεονέκτημα απέναντι στη «Microsoft». Το Gemini είναι το αποτέλεσμα αυτής της προσπάθειας.

Τρεις παραλλαγές

Το Gemini διαθέτει τρεις εκδοχές, έτσι ώστε να μπορεί να χρησιμοποιηθεί σε όλη την γκάμα των υπηρεσιών και προϊόντων που προσφέρει ο όμιλος «Alphabet», στον οποίο ανήκει η «Google». Η παραλλαγή Gemini Pro «τρέχει» ήδη στα υπολογιστικά κέντρα της «Google» και έχει υποκαταστήσει το προηγούμενο μοντέλο, το οποίο χρησιμοποιούσε το διαλογικό ρομπότ Bard. Σύμφωνα με την εταιρεία, το Gemini Pro είναι πιο γρήγορο και μπορεί να καταλαβαίνει και να ανταποκρίνεται σε πιο σύνθετα ερωτήματα και διάλογο. Η μεγάλη παραλλαγή της νέας ΤΝ, Gemini Ultra, θα είναι έτοιμη μέσα στο 2024 και θα είναι η ισχυρότερη απ’ όλες για χρήση από εταιρείες και ερευνητές.

Αντίθετα η τρίτη παραλλαγή, Gemini Nano, θα είναι αρκετά μικρή, ώστε να μπορεί να χρησιμοποιηθεί αυτόνομα στα κινητά τηλέφωνα της «Google» (μοντέλα της σειράς Pixel) χωρίς να χρειάζεται να επικοινωνεί μέσω διαδικτύου με τα υπολογιστικά κέντρα του μονοπωλίου. Αυτή η παραλλαγή θα είναι περιορισμένων δυνατοτήτων και θα μπορεί να ανταποκρίνεται στις ανάγκες ΤΝ για βελτιωμένη εμπειρία στη χρήση των κινητών τηλεφώνων. Ακόμα κι έτσι, η δυνατότητα αξιοποίησης αξιόλογης ΤΝ χωρίς τη μεσολάβηση των κεντρικών συστημάτων κάποιας εταιρείας είναι νέα και σημαντική εξέλιξη.

Σημειωτέον, και η «Samsung» έχει ανακοινώσει την ενσωμάτωση ΤΝ σε επόμενα κορυφαία τηλέφωνά της, χωρίς περαιτέρω διευκρινίσεις, ενώ δεν υπάρχει κάποια πληροφορία συνεργασίας της «Microsoft» με εταιρεία κατασκευής έξυπνων κινητών. Πριν λίγες μέρες ο επικεφαλής της εταιρείας, Μπραντ Σμιθ, επισκέφτηκε την Κίνα και είχε επαφές με κρατικούς παράγοντες και εταιρείες σχετικά με συνεργασίες στον τομέα της ΤΝ, χωρίς να δοθούν λεπτομέρειες για το αποτέλεσμα της επίσκεψης.

Νικητής σε τεστ

Το επόμενο διάστημα η «Google» σκοπεύει να ενσωματώσει το Gemini στη μηχανή αναζήτησής της, φυσικά στις διαφημιστικές της υπηρεσίες και στον περιηγητή ιστοσελίδων Chrome, όπως άλλωστε έχει κάνει ήδη η «Microsoft» με το ChatGPT σε ό,τι αφορά τις δικές της υπηρεσίες και τον Edge browser. Σε μερικές μέρες το Gemini θα γίνει προσβάσιμο ως υπηρεσία και στους προγραμματιστές εκτός «Google», για να μπορούν να ενσωματώσουν τη χρήση του σε εφαρμογές που θα αναπτύξουν.

Σύμφωνα με την «Google», το Gemini είναι ένα από τα μεγαλύτερα και πιο προηγμένα μοντέλα ΤΝ και σε δοκιμές της εκδοχής Ultra υποτίθεται ότι υπερτερεί λιγότερο ή περισσότερο του GhatGPT – ακόμα και της πιο προχωρημένης εκδοχής του, δηλαδή του GPT-4 – στα 30 από τα 32 τεστ απόδοσης της ΤΝ. Σύμφωνα με την «Google», το Gemini είναι η πρώτη ΤΝ που πετυχαίνει καλύτερη απόδοση από ανθρώπους ειδικούς, στο τεστ MMLU (που καλύπτει 57 θέματα Μαθηματικών, Φυσικής, Δικαίου, Ιατρικής, Ηθικής κ.λπ.), μία από τις πιο δημοφιλείς δοκιμές γνώσεων και δυνατοτήτων επίλυσης προβλημάτων από συστήματα ΤΝ. Συγκεκριμένα, το Gemini φέρεται να πέτυχε ποσοστό ορθών απαντήσεων 90%, έναντι 89,8% των ανθρώπων ειδικών. Την ακρίβεια των ισχυρισμών αυτών, βέβαια, θα μπορέσουν να διαπιστώσουν ανεξάρτητοι ερευνητές μόνο όταν το Gemini Ultra γίνει διαθέσιμο στο ευρύ κοινό.

Πολλαπλές αισθήσεις

Βασικό πλεονέκτημα του Gemini φαίνεται να είναι η εγγενής πολυτροπικότητα ή πολυαισθητηριακότητα, δηλαδή ότι δεν ενσωματώνει μόνο πληροφορίες κειμένου, αλλά εξαρχής και ενιαία με το κείμενο αξιοποιεί πληροφορίες εικόνας, ήχου και βίντεο. Αντίθετα, το GPT-4 χρησιμοποιεί αρθρώματα και γέφυρες, ώστε εκ των υστέρων να ενοποιήσει δυνατότητες που έχουν τα ειδικά μοντέλα της συνεργαζόμενης με τη «Microsoft» εταιρείας «OpenAI», όπως το DALL-E (εικόνα) και το Whisper (ήχος). Το Gemini μπορεί να συνδυάζει ερωτήματα, εντολές και δεδομένα που του παρουσιάζονται σε μορφή κειμένου, ήχου, εικόνας, βίντεο ή κώδικα προγραμματισμού, και να παράγει αποτέλεσμα που συνδυάζει όλες τις παραπάνω μορφές επικοινωνίας. Αν π.χ. του δοθεί το γραπτό ενός μαθητή σε διαγώνισμα Φυσικής, μπορεί να αναγνωρίσει την τυπωμένη εκφώνηση, τη χειρόγραφη απάντηση και το σχέδιο του μαθητή και να εντοπίσει τυχόν λάθη, εξηγώντας τη φύση του λάθους και ποια είναι η σωστή απάντηση. Μπορεί μέσα σε μία ώρα να ενημερώσει μια επιστημονική μελέτη με τα νέα στοιχεία που έχουν προκύψει τα τελευταία χρόνια, κάνοντας βιβλιογραφική έρευνα, συλλογή δεδομένων και ενσωμάτωσή τους, κάτι που σήμερα απαιτεί από ομάδα ανθρώπων να αφιερώσει βδομάδες ή και μήνες. Ωστόσο, και το Gemini πάσχει από τις «ψευδαισθήσεις» όλων των Μεγάλων Γλωσσικών Μοντέλων, νομίζοντας ότι γνωρίζει πράγματα που δεν γνωρίζει, ενώ είναι άγνωστο προς το παρόν αν μπορεί και αυτό να παρασυρθεί σε παράλογες, προκατειλημμένες ή γενικά μη αποδεκτές συμπεριφορές, όπως το ChatGPT.

Το Gemini είναι μια ΤΝ που μπορεί όχι μόνο να διαβάσει πληκτρολογημένο κείμενο, αλλά γενικά να δει (στατική και κινούμενη εικόνα) και να ακούσει. Οπως δήλωσε ο Ντέμις Χασάμπις, επικεφαλής της «DeepMind», στόχος είναι να αποκτήσει κι άλλες αισθήσεις, συγκεκριμένα της αφής και της κατάστασης κίνησης, ιδιαίτερα χρήσιμες και κρίσιμες για οποιοδήποτε ανθρωπόμορφο και γενικότερα κινούμενο ρομπότ. Οπως δήλωσε, «για πολύ καιρό θέλαμε να κατασκευάσουμε μια νέα γενιά μοντέλων ΤΝ, που θα είναι εμπνευσμένη από τον τρόπο με τον οποίο οι άνθρωποι καταλαβαίνουν και αλληλεπιδρούν με τον κόσμο».

AlphaCode 2

Η «Google» φαίνεται να αντιμετωπίζει την κατασκευή κώδικα προγραμματισμού ως μία από τις ισχυρότερες εφαρμογές της ΤΝ Gemini, καθώς σε αυτό έχει ενσωματωθεί το σύστημα παραγωγής κώδικα AlphaCode 2, που σε διαγωνισμούς έχει αποδειχθεί καλύτερο από το 85% των ανθρώπων συμμετεχόντων, έναντι ποσοστού 50% του αρχικού AlphaCode. Το Gemini εκπαιδεύτηκε χρησιμοποιώντας τις TPU (Μονάδες Επεξεργασίας Τανυστών) της ίδιας της «Google», ειδικότερα με τη νέα έκδοση TPU v5p, γι’ αυτό και σύμφωνα με την εταιρεία είναι και πιο γρήγορο και πιο οικονομικό από πλευράς κατανάλωσης πόρων συγκριτικά με τα προηγούμενα, λιγότερο ισχυρά Μεγάλα Γλωσσικά Μοντέλα της, όπως το PaLM.

Ο επικεφαλής της «Alphabet», Σούνταρ Πιτσάι, και ο Ντέμις Χασάμπις της «DeepMind» ισχυρίζονται ότι προχωρούν με προσεκτικά βήματα προς τον απώτερο στόχο τους, τη Γενική Τεχνητή Νοημοσύνη (ΓΤΝ), έναν όρο που χρησιμοποιείται για να περιγράψει μια μελλοντική μορφή ΤΝ που θα μπορεί να αυτοβελτιώνεται, θα είναι πιο έξυπνη από τον άνθρωπο και θα έχει καθοριστική επίδραση στην ανθρωπότητα. Ο Πιτσάι, που θεωρεί ότι η ΤΝ θα έχει μεγαλύτερη επίδραση στην εξέλιξη του ανθρώπου και της κοινωνίας από την εφεύρεση του κινητού τηλεφώνου και του διαδικτύου, αξιολογεί ως σημαντικό να δοθεί βάρος στο ζήτημα της ασφάλειας, καθώς η ΤΝ γίνεται όλο και πιο ικανή. Ωστόσο, τα ίδια τα κριτήρια ασφάλειας και η εφαρμογή τους επαφίενται αποκλειστικά στους εταιρικούς ομίλους και οι υπόλοιποι μαθαίνουν ή νιώθουν τις συνέπειες εκ των υστέρων, όταν πια το νέο προϊόν ΤΝ μπαίνει στην παραγωγή. Ο Χασάμπις παραδέχεται πως ανάμεσα στους κινδύνους που έχουν τέτοια συστήματα ΤΝ είναι ότι μπορεί να παρουσιάσουν ευπάθειες που κανείς δεν είχε προβλέψει. Στην περίπτωση του Gemini, κινδύνους εξαιτίας της πολυτροπικότητας, π.χ. συνδυασμούς απαντήσεων με λόγο και εικόνα που χωριστά είναι ανώδυνα, αλλά μαζί είναι «τοξικά».

Εκείνο που δεν πρέπει να διαφεύγει από κανέναν είναι ότι τη ΓΤΝ αυτοί που έχουν κάποια πιθανότητα να την κατασκευάσουν, δηλαδή τεράστια μονοπώλια ή οι συλλογικοί καπιταλιστές, τα κράτη, την αντιμετωπίζουν ως όπλο κυριαρχίας, οικονομικό ή κυριολεκτικό, σαν αυτά που χρησιμοποιούνται στο πεδίο της μάχης. Η διαφορά είναι ότι η ΓΤΝ, αν και όταν γίνει πραγματικότητα, ίσως δεν θα είναι μόνο πανίσχυρο όπλο για χρήση από τον δημιουργό της, αλλά – όπως φοβούνται πολλοί – και στρατιώτης με δική του αντίληψη των πραγμάτων…

Επιμέλεια: Σταύρος Ξενικουδάκης
Πηγές: https://blog.google, https://deepmind.google, https://storage.googleapis.com
Αναδημοσιεύεται από τον Ριζοσπάστη του Σαββατοκύριακου 9/10 Δεκέμβρη 2023
Facebook Twitter Google+ Εκτύπωση Στείλτε σε φίλο

Κάντε ένα σχόλιο: