Σε λίγους μήνες η τεχνητή νοημοσύνη θα ξεπεράσει όλους τους ειδικούς σε κάθε επιστημονικό κλάδο μαζί: Τι σημαίνει αυτό
"Σπάει" κάθε "φράγμα"
Η τεχνητή νοημοσύνη θα είναι έτοιμη να πετύχει το απόλυτο σκορ στο τεστ "Humanity’s Last Exam" τους επόμενους μήνες
Η τεχνητή νοημοσύνη θα είναι έτοιμη να πετύχει το απόλυτο σκορ στο απαιτητικό τεστ «Humanity’s Last Exam (HLE)» εντός των επόμενων μηνών, σύμφωνα με τους δημιουργούς του. Το γεγονός αυτό προκαλεί, δικαίως, την εντύπωση πως η τεχνητή νοημοσύνη θα ξεπεράσει όλους τους ειδικούς σε κάθε επιστημονικό κλάδο.
Διαβάστε: Αποκλειστικό: "Ναι" στην Τεχνητή Νοημοσύνη από τους ογκολογικούς ασθενείς - Η έρευνα των Γαζούλη και Σουλιώτη
Έτοιμη να ξεπεράσει τους ειδικούς η τεχνητή νοημοσύνη
Πιο αναλυτικά, το HLE δημιουργήθηκε για να αξιολογήσει το επίπεδο νοημοσύνης των μηχανών και αποτελείται από 2,500 ερωτήσεις, που αφορούν περίπου 100 θεματικές, από διάφορους κλάδους. Κάθε ερώτηση απαιτεί κατανόηση επιπέδου διδακτορικού, με ένα σκορ κοντά στο απόλυτο να χάριζε σε κάποιον τον τίτλο του «ειδικού στα πάντα». Σημειώνεται πως το 2024 το ChatGPT πέτυχε μόλις 3% στο τεστ, ποσοστό παρόμοιο με εκείνο των συστημάτων της Google και της Anthropic. Οι ερευνητέςυποστηρίζουν ότι το τεστ ανέδειξε «ένα σημαντικό χάσμα» ανάμεσα στα μεγάλα γλωσσικά μοντέλα (LLMs) και τους ακαδημαϊκούς.
Ωστόσο, το Gemini σημείωσε 45,9% στο τεστ τον Φεβρουάριο, αυξάνοντας ραγδαία το ποσοστό του από το 18,8%, μέσα σε λίγους μήνες. Το τέλειο σκορ στο τεστ φαίνεται πλέον εφικτό, σύμφωνα με τον Κάλβιν Ζανγκ επικεφαλής έρευνας στη Scale, την εταιρεία πίσω από το HLE. «Θέλαμε να δημιουργήσουμε ένα ακαδημαϊκό benchmark κλειστού τύπου στο επίπεδο των κορυφαίων ειδικών ανθρώπων, που μόνο ελάχιστοι στον κόσμο μπορούν πραγματικά να λύσουν» δήλωσε ο Ζανγκ.
«Τα τελευταία χρόνια έχουμε δει απίστευτη πρόοδο σε αυτά τα γλωσσικά μοντέλα. Είναι εντυπωσιακό, οι δημιουργοί μοντέλων έχουν κάνει εξαιρετική δουλειά στη βελτίωση των δυνατοτήτων συλλογισμού. Αν αυτό ήταν το μοναδικό μας μέλημα πιστεύω ότι θα μπορούσαμε να φτάσουμε εκεί πολύ γρήγορα» δήλωσε η Κέιτ Ολζέσβκα product manager στο διάσημη μονάδα ανάπτυξης τεχνολογιών τεχνητής νοημοσύνης της Google, τη DeepMind. Η Anthropic η εταιρεία πίσω από το σύστημα Claude, έχει πετύχει σκορ 34,2% στο HLE. Αυτό σημαίνει ότι αν η τεχνολογία κατακτήσει το HLE, θα πρέπει να αξιολογείται με ερωτήσεις, των οποίων οι απαντήσεις είναι άγνωστες στους ανθρώπους.
Το τεστ
Το HLE δημιουργήθηκε από ερευνητές της Scale και του Center for AI Safety για να εξετάσει τόσο το εύρος γνώσεων όσο και το βάθος συλλογισμού της τεχνητής νοημοσύνης. Οι ερωτήσεις περιορίστηκαν στις 13,000 ερωτήσεις, αφού αφαιρέθηκαν όσες μπορούσαν να απαντηθούν. Από αυτές επιλέχθηκαν 2,500. Οι ερωτήσεις απαιτούν ευρύ φάσμα γνώσεων.
«Καθώς η AI πλησιάζει στο σημείο να κατακτήσει τεστ που έχουν σχεδιαστεί από ανθρώπους η επέκταση πέρα από τα όρια της ανθρώπινης γνώσης γίνεται ολοένα και πιο βασικός στόχος των δημιουργών» πρόσθεσε η Ολζέσβκα. Ωστόσο σύμφωνα με τον Ζανγκ θα υπάρχει πάντα χώρος για την ανθρώπινη εξειδίκευση.
En