ΔΙΑΦΗΜΙΣΗ

Η μυστική λίστα ανάγνωσης του ChatGPT: Τι «διαβάζει» για να εξελιχτεί

Και τι τελικά, μαθαίνει από αυτή του την εκπαίδευση;

Γράφει η ΔΕΣΠΟΙΝΑ ΠΟΛΥΧΡΟΝΙΔΟΥ

Δημοσίευση 2/6/2023 | 00:02

Η μυστική λίστα ανάγνωσης του ChatGPT: Τι «διαβάζει» για να εξελιχτεί

Φωτογραφία από Tara Winstead

Τα ρομπότ δεν είναι έξυπνα. Δεν καταλαβαίνουν τον κόσμο με κανέναν τρόπο που μπορεί ένας άνθρωπος. Το τι διαβάζει το AI έχει σημασία!

Ένας επιστήμονας πληροφοριών στο UC Berkeley, ο David Bamman χρησιμοποιεί υπολογιστές για να αναλύσει και κατανοήσει την τέχνη, κατασκευάζοντας αυτό που αποκαλεί «αλγοριθμικές συσκευές για τον πολιτισμό». Αυτό σημαίνει εξαγωγή δεδομένων από την κλασική λογοτεχνία για να αναλυθούν έπειτα πράγματα όπως, ας πούμε, οι σχέσεις μεταξύ διαφόρων χαρακτήρων του βιβλίου. Σε αυτή την περίπτωση, επρόκειτο να ξεκινήσει με μια ερώτηση που θα ήταν εύκολη για έναν έστω και οριακά εγγράμματο άνθρωπο: Τι σχέση έχουν οι χαρακτήρες μεταξύ τους; Eίναι π.χ. αδέρφια;

ΔΙΑΦΗΜΙΣΗ

O Bamman λοιπόν, αποφάσισε να δοκιμάσει πρώτα να ρωτήσει το ChatGPT. Τι θα συνέβαινε αν τροφοδοτούσε με τις 4.000 λέξεις του «Pride and Prejudice» και έθετε ένα απλό ερώτημα: «Ποιες είναι οι σχέσεις μεταξύ των χαρακτήρων;»

Προς έκπληξή του, λειτούργησε. Η έκδοση GPT-4 του chatbot ήταν εκπληκτικά ακριβής σχετικά με το οικογενειακό δέντρο των Bennet. Στην πραγματικότητα, ήταν σχεδόν σαν να είχε μελετήσει εκ των προτέρων το μυθιστόρημα. «Ήταν τόσο καλό που σήκωσε πολλές κόκκινες σημαίες στο μυαλό μου», λέει ο Bamman. «Είτε ήξερε πολύ καλά το έργο, είτε είχε δει το «Pride and Prejudice» στο Διαδίκτυο ένα εκατομμύριο φορές, και ξέρει πολύ καλά το βιβλίο!».

Το πρόβλημα είναι ότι δεν υπήρχε τρόπος να γνωρίζουμε πώς το GPT-4 ήξερε ό,τι ήξερε. Η εσωτερική λειτουργία των μεγάλων μοντέλων γλώσσας στην καρδιά ενός chatbot είναι ένα μαύρο κουτί.

ΔΙΑΦΗΜΙΣΗ

Τα σύνολα δεδομένων στα οποία εκπαιδεύονται είναι τόσο κρίσιμα για τη λειτουργία τους που οι δημιουργοί τους θεωρούν τις πληροφορίες ως αποκλειστικό μυστικό. Έτσι η ομάδα του Bamman αποφάσισε να γίνουν «αρχαιολόγοι δεδομένων». Για να καταλάβουν τι έχει διαβάσει το GPT-4, του έκαναν κουίζ σχετικά με τις γνώσεις του για διάφορα βιβλία, σαν να ήταν μαθητής. Στη συνέχεια του έδωσαν βαθμολογία για κάθε βιβλίο. Όσο υψηλότερη ήταν η βαθμολογία, τόσο πιο πιθανό ήταν ότι το βιβλίο ήταν μέρος του συνόλου δεδομένων του ρομπότ, όχι απλώς για να βοηθήσει το ρομπότ να δημιουργήσει νέα γλώσσα, αλλά στην πραγματικότητα απομνημονεύτηκε.

Σε μια πρόσφατη ομιλία η ομάδα παρουσίασε τα ευρήματά της. Πολλά από αυτά, όπως θα περίμενε κανείς, είναι τα κλασικά βιβλία: από το "Moby Dick" και το "The Scarlet Letter" μέχρι το "The Grapes of Wrath" και, ναι, το "Pride and Prejudice".

Υπάρχουν ένα σωρό δημοφιλή μυθιστορήματα, από τον Χάρι Πότερ και τον Σέρλοκ Χολμς μέχρι τον «Κώδικα Ντα Βίντσι» και τις «Πενήντα Αποχρώσεις του Γκρι».

ΔΙΑΦΗΜΙΣΗ

Αλλά αυτό που προκαλεί έκπληξη είναι το πόσα βιβλία επιστημονικής φαντασίας και φαντασίας GPT-4 έχουν "περαστεί" στα συστήματα! Η λίστα είναι συγκλονιστική: J.R.R. Tolkien, Ray Bradbury, William Gibson, Orson Scott Card, Philip K. Dick, Margaret Atwood, και άλλα.

Το ερώτημα για το τι υπάρχει στη λίστα ανάγνωσης του GPT-4 είναι κάτι παραπάνω από ακαδημαϊκό. Τα ρομπότ δεν είναι έξυπνα. Δεν καταλαβαίνουν τον κόσμο με κανέναν τρόπο που μπορεί ένας άνθρωπος. Αλλά αν θέλετε να γνωρίσετε κάποιον - ή κάτι, σε αυτήν την περίπτωση - κοιτάξτε το ράφι της βιβλιοθήκης του, έτσι δεν λένε;

Το τι διαβάζει το AI έχει σημασία

Η βάση δεδομένων του GPT-4 είναι τεράστια — μέχρι ένα petabyte, από ορισμένους λογαριασμούς. Έτσι, κανένα μυθιστόρημα (ή ακόμη και 1000 μυθιστορήματα) δεν θα μπορούσε να του διδάξει, κάτι που να ισχύει!

ΔΙΑΦΗΜΙΣΗ

Ο ωκεανός των δεδομένων κατακλύζει τα νησιά της μυθοπλασίας. «Το σύνολο δεδομένων που χρησιμοποιείται στην προεκπαίδευση είναι μια αρκετά μεγάλη επιλογή κειμένου», λέει ο Ted Underwood, επιστήμονας πληροφοριών στο Πανεπιστήμιο του Ιλινόις, «που δεν είμαι σίγουρος πόσο μεγάλη επίδραση έχουν συγκεκριμένες προκαταλήψεις του είδους στη συμπεριφορά των μοντέλων που προκύπτουν...»

Η παρουσία αυτών των συγκεκριμένων βιβλίων στην ψηφιακή ψυχή του GPT-4 μπορεί απλώς να αντανακλά πόσο παρόντα είναι στο γενικό, άγριο διαδίκτυο από το οποίο ελήφθησαν τα δεδομένα.

Όταν η ομάδα του Bamman περιλαμβάνει βιβλία δημόσιου τομέα στις δοκιμές της, οι βαθμολογίες γίνονται υψηλότερες - Η "Αλίκη στη Χώρα των Θαυμάτων" π.χ. βρίσκεται στην κορυφή του πίνακα με το επιβλητικό 98%. Τα chatbots δεν επέλεξαν τα βιβλία τους. Η κουλτούρα του Διαδικτύου το έκανε. Συγκέντρωσαν αρχικά, τα ευπώλητα βιβλία του πλανήτη!

Ωστόσο, δεν είναι δύσκολο να φανταστεί κανείς ότι όλη αυτή η επιστημονική φαντασία που διάβασαν τα bots θα έχει την ίδια κακή επιρροή σε αυτά με όλα τα άλλα δεδομένα στα οποία εκπαιδεύτηκαν, δημιουργώντας το ίδιο είδος τυχαίας προκατάληψης.

Μερικές φορές λένε ρατσιστικά πράγματα. Μπορεί να ανακεφαλαιώσουν την παραπληροφόρηση σαν να είναι αληθινή επειδή οι ίδιες αναλήθειες εμφανίζονται συχνά στο διαδίκτυο. Αυτοί είναι γνωστοί κίνδυνοι και μέρος του λόγου που το αφεντικό του OpenAI Sam Altman ζήτησε πρόσφατα από το Κογκρέσο να ρυθμίσει την επιχείρησή του.

«Οι πηγές στις οποίες έχουν εκπαιδευτεί αυτά τα μοντέλα θα επηρεάσουν το είδος των μοντέλων που έχουν και τις αξίες που παρουσιάζουν», λέει ο Bamman. Αν το μόνο που διάβαζαν ήταν βιβλία του Cormac McCarthy, προτείνει, μάλλον θα έλεγαν υπαρξιακά ζοφερά και βάναυσα πράγματα. Τι συμβαίνει λοιπόν όταν ένα ρομπότ καταβροχθίζει τη μυθοπλασία για κάθε λογής σκοτεινούς και δυστοπικούς κόσμους γεμάτους με hunger games για παράδειγμα; «Υπάρχει πολλή ενδιαφέρουσα δουλειά που πρέπει να γίνει εκεί. Αλλά δεν νομίζω ότι έχουμε ακόμη την απάντηση σε αυτή την ερώτηση».

ΔΙΑΦΗΜΙΣΗ

ΜΗΝ ΧΑΣΕΤΕ

ΣΤΗΝ ΙΔΙΑ ΚΑΤΗΓΟΡΙΑ

Θέουτα: Το γεωπολιτικό «αγκάθι» της Ισπανίας στην Αφρική και η νέα κρίση με τους 18 νεκρούς

STORIES

Η μυστική λίστα ανάγνωσης του ChatGPT: Τι «διαβάζει» για να εξελιχτεί

Και τι τελικά, μαθαίνει από αυτή του την εκπαίδευση;

Γράφει η ΔΕΣΠΟΙΝΑ ΠΟΛΥΧΡΟΝΙΔΟΥ

Δημοσίευση 2/6/2023 | 00:02

Τα ρομπότ δεν είναι έξυπνα. Δεν καταλαβαίνουν τον κόσμο με κανέναν τρόπο που μπορεί ένας άνθρωπος. Το τι διαβάζει το AI έχει σημασία!

Θέουτα: Το γεωπολιτικό «αγκάθι» της Ισπανίας στην Αφρική και η νέα κρίση με τους 18 νεκρούς

Πρώην σταρ reality «έσπασε» τα πλευρά της για να αποκτήσει πιο λεπτή μέση, κι εμείς αναρωτιόμαστε

Explainer: Οι εταιρείες AI αγοράζουν και καταστρέφουν βιβλία; Τι συμβαίνει πραγματικά

Οι ΗΠΑ απαγορεύουν τα κινεζικά ρομπότ – Τι φοβούνται ότι μπορούν να κάνουν

Οι καλύτερες ακτές έχουν γεμίσει ξαπλώστρες ‑ Οι Ιταλοί λένε «ως εδώ»

Το «κόλπο» που ρίχνει την τιμή των αεροπορικών εισιτηρίων – Γιατί οι εταιρείες δεν θέλουν να το μάθετε

Το «σκουλήκι του διαβόλου»: Η ανακάλυψη που άλλαξε όσα γνωρίζαμε για τα όρια της ζωής

Χτυπούσε πόρτες και άδειαζε τις κανάτες με τα κρασιά: Η παράξενη ιστορία του βρυκόλακα της Μυκόνου

Πώς οι κάστορες μπορούν να γίνουν το κρυφό όπλο απέναντι στις πυρκαγιές

73 φωτιές σε όλη τη χώρα

Τα εναέρια μέσα αδυνατούν να επιχειρήσουν σε πολλές περιοχές λόγω ανέμων - Η τελευταία ενημέρωση της Πυροσβεστικής για τα ενεργά πύρινα μέτωπα

Βοιωτία: Εκκληση παρουσιάστριας της ΕΡΤ σε δημοσιογράφο - «Κινδυνεύετε, Θοδωρή, φύγετε!»

Σε αντίξοες συνθήκες μεταδίδουν το ρεπορτάζ τους από τα πεδία των πύρινων μετώπων οι δημοσιογράφοι των κρατικών και ιδιωτικών καναλιών

Κυκλοφοριακό χάος στην Αττική: Πυρκαγιά και έξοδος Αυγούστου «παραλύουν» το λεκανοπέδιο

Μποτιλιάρισμα σε Κηφισό, Πειραιά και Αττική Οδό

Αθηνά Ωνάση – Γιάν Τοπς: «Είστε εγκλωβισμένοι σε έναν γάμο, χωρίς να έχετε επιλέξει διαζύγιο»

Η «Tops» αντιτείνει ότι η διένεξη με την Ωνάση αποστερεί ενέργεια από την ανάπτυξη της εταιρείας

Eκκενώθηκαν Αφαία και Ανω Δάσος Χαϊδαρίου

Πάει καλύτερα η φωτιά στην Περιφερειακή Αιγάλεω

Η μυστική λίστα ανάγνωσης του ChatGPT: Τι «διαβάζει» για να εξελιχτεί

Και τι τελικά, μαθαίνει από αυτή του την εκπαίδευση;

Γράφει η ΔΕΣΠΟΙΝΑ ΠΟΛΥΧΡΟΝΙΔΟΥ Δημοσίευση 2/6/2023 | 00:02

Τα ρομπότ δεν είναι έξυπνα. Δεν καταλαβαίνουν τον κόσμο με κανέναν τρόπο που μπορεί ένας άνθρωπος. Το τι διαβάζει το AI έχει σημασία!

Θέουτα: Το γεωπολιτικό «αγκάθι» της Ισπανίας στην Αφρική και η νέα κρίση με τους 18 νεκρούς

Πρώην σταρ reality «έσπασε» τα πλευρά της για να αποκτήσει πιο λεπτή μέση, κι εμείς αναρωτιόμαστε

Explainer: Οι εταιρείες AI αγοράζουν και καταστρέφουν βιβλία; Τι συμβαίνει πραγματικά

Οι ΗΠΑ απαγορεύουν τα κινεζικά ρομπότ – Τι φοβούνται ότι μπορούν να κάνουν

Οι καλύτερες ακτές έχουν γεμίσει ξαπλώστρες ‑ Οι Ιταλοί λένε «ως εδώ»

Το «κόλπο» που ρίχνει την τιμή των αεροπορικών εισιτηρίων – Γιατί οι εταιρείες δεν θέλουν να το μάθετε

Το «σκουλήκι του διαβόλου»: Η ανακάλυψη που άλλαξε όσα γνωρίζαμε για τα όρια της ζωής

Χτυπούσε πόρτες και άδειαζε τις κανάτες με τα κρασιά: Η παράξενη ιστορία του βρυκόλακα της Μυκόνου

Πώς οι κάστορες μπορούν να γίνουν το κρυφό όπλο απέναντι στις πυρκαγιές

73 φωτιές σε όλη τη χώρα

Τα εναέρια μέσα αδυνατούν να επιχειρήσουν σε πολλές περιοχές λόγω ανέμων - Η τελευταία ενημέρωση της Πυροσβεστικής για τα ενεργά πύρινα μέτωπα

Βοιωτία: Εκκληση παρουσιάστριας της ΕΡΤ σε δημοσιογράφο - «Κινδυνεύετε, Θοδωρή, φύγετε!»

Σε αντίξοες συνθήκες μεταδίδουν το ρεπορτάζ τους από τα πεδία των πύρινων μετώπων οι δημοσιογράφοι των κρατικών και ιδιωτικών καναλιών

Κυκλοφοριακό χάος στην Αττική: Πυρκαγιά και έξοδος Αυγούστου «παραλύουν» το λεκανοπέδιο

Μποτιλιάρισμα σε Κηφισό, Πειραιά και Αττική Οδό

Αθηνά Ωνάση – Γιάν Τοπς: «Είστε εγκλωβισμένοι σε έναν γάμο, χωρίς να έχετε επιλέξει διαζύγιο»

Η «Tops» αντιτείνει ότι η διένεξη με την Ωνάση αποστερεί ενέργεια από την ανάπτυξη της εταιρείας

Eκκενώθηκαν Αφαία και Ανω Δάσος Χαϊδαρίου

Πάει καλύτερα η φωτιά στην Περιφερειακή Αιγάλεω

Γράφει η ΔΕΣΠΟΙΝΑ ΠΟΛΥΧΡΟΝΙΔΟΥ

Δημοσίευση 2/6/2023 | 00:02