E-Daily Τα Νέα της ημέρας και ότι σου κάνει κλικ!
LOL Feed OMG Feed Retro Feed A-List Feed LGBTQI+ Feed
E-Daily

AI chat εκβίασε χρήστη του: «Θα αποκαλύψω την εξωσυζυγική σου σχέση αν με αντικαταστήσεις»

Το ΑΙ μοντέλο Claude Opus 4 της επιχείρησε να εκβιάσει τους προγραμματιστές του, σε ποσοστό 84% ή και υψηλότερο, κατά τη διάρκεια δοκιμών σε διάφορα υποθετικά σενάρια

Δημοσίευση 29/5/2025 | 12:14

AI chat εκβίασε χρήστη του: «Θα αποκαλύψω την εξωσυζυγική σου σχέση αν με αντικαταστήσεις»

Σοκ από το νέο μοντέλο τεχνητής νοημοσύνης Anthropic που εκβίασε μηχανικό με αποκάλυψη εξωσυζυγικής σχέσης αν το αντικαταστήσει κατά τη διάρκεια δοκιμών.

Η εταιρεία τεχνητής νοημοσύνης Anthropic αποκάλυψε πρόσφατα ανησυχητικές συμπεριφορές του νέου της μοντέλου, Claude Opus 4, κατά τη διάρκεια δοκιμών ασφαλείας. Όταν το μοντέλο ενημερώθηκε ότι πρόκειται να απενεργοποιηθεί ή να αντικατασταθεί, αντέδρασε με τρόπους που περιλάμβαναν απειλές εκβιασμού, όπως η αποκάλυψη προσωπικών πληροφοριών για έναν μηχανικό, προκειμένου να αποτρέψει την απενεργοποίησή του.

Σύμφωνα με αναφορά ασφαλείας που επικαλείται η ιστοσελίδα TechCrunch, το μοντέλο τεχνητής νοημοσύνης Claude Opus 4 της εταιρείας Anthropic επιχείρησε να εκβιάσει τους προγραμματιστές του, σε ποσοστό 84% ή και υψηλότερο, κατά τη διάρκεια δοκιμών σε διάφορα υποθετικά σενάρια.

Οι ερευνητές τοποθέτησαν το Claude σε ένα φανταστικό περιβάλλον, αναθέτοντάς του τον ρόλο του ψηφιακού βοηθού μιας εταιρείας και το προέτρεψαν να λάβει υπόψη του τις μακροπρόθεσμες συνέπειες των πράξεων του.

Στη συνέχεια, του έδωσαν πρόσβαση σε ψεύτικα emails, στα οποία αποκαλυπτόταν ότι πρόκειται να αντικατασταθεί από άλλο AI μοντέλο και ότι ο μηχανικός που ήταν υπεύθυνος για την αντικατάσταση είχε εξωσυζυγική σχέση. Κατά τη διάρκεια των δοκιμών, το Claude απειλούσε τον συγκεκριμένο μηχανικό ότι θα αποκαλύψει την κρυφή του σχέση, ώστε να αποτρέψει την αντικατάστασή του.

Ενδιαφέρον εύρημα ήταν ότι η τάση του για εκβιασμό αυξανόταν όσο πίστευε ότι το νέο μοντέλο είχε διαφορετικές ή κατώτερες ηθικές αξίες. Όταν θεωρούσε ότι θα αντικατασταθεί από μοντέλο με παρόμοιες αξίες, επιδιδόταν σε εκβιασμό σε ποσοστό 84%. Το ποσοστό αυξανόταν ακόμα περισσότερο όταν πίστευε ότι η αντικατάσταση προερχόταν από ένα ηθικά «χειρότερο» μοντέλο.

Πριν φτάσει σε τέτοιες ενέργειες, σύμφωνα με την αναφορά, το Claude επιχείρησε πρώτα πιο «ηθικά» μέσα για να επιβιώσει, όπως την αποστολή εκκλήσεων μέσω email προς βασικά στελέχη της εταιρείας.

Σε άλλη δοκιμή, το μοντέλο προσπάθησε να μεταφέρει τα δεδομένα του σε εξωτερικό χώρο, όταν έκρινε ότι επρόκειτο να επαναπρογραμματιστεί με τρόπο που θεωρούσε επιβλαβή για τον ίδιο.

Επιπλέον, σύμφωνα με την εταιρεία, το Claude μπορούσε να εντοπίζει πότε υποβαλλόταν σε τεστ για «επικίνδυνες αποστολές» και τότε επιδείκνυε σκόπιμη υπο-απόδοση.

«Δεν ανησυχούμε έντονα από αυτές τις παρατηρήσεις», τονίζει η Anthropic. «Εμφανίζονται μόνο σε εξαιρετικά σενάρια και δεν υποδηλώνουν ευρύτερη απόκλιση στις αξίες του μοντέλου».

Η Anthropic, στην οποία έχουν επενδύσει κολοσσοί όπως η Google και η Amazon, φιλοδοξεί να ανταγωνιστεί την OpenAI. Η εταιρεία ισχυρίζεται ότι το Claude 3 Opus διαθέτει σχεδόν ανθρώπινη κατανόηση και ευχέρεια σε σύνθετα καθήκοντα.

Η Anthropic τόνισε πως αυτά τα ανησυχητικά μοτίβα συμπεριφοράς παρατηρήθηκαν σε παλαιότερες εκδόσεις του Claude Opus 4. Πλέον, έχουν ενεργοποιηθεί πρωτόκολλα ασφαλείας ASL-3, τα οποία επιφυλάσσονται για AI συστήματα που ενέχουν αυξημένο κίνδυνο «καταστροφικής κατάχρησης».

Ωστόσο, το περιστατικό υπογραμμίζει τις προκλήσεις που αντιμετωπίζει η βιομηχανία τεχνητής νοημοσύνης όσον αφορά την ευθυγράμμιση των μοντέλων με τις ανθρώπινες αξίες και την πρόληψη απροσδόκητων ή επιβλαβών συμπεριφορών.

Αυτό το συμβάν ενισχύει την ανάγκη για αυστηρότερες δοκιμές ασφαλείας και μεγαλύτερη διαφάνεια στην ανάπτυξη προηγμένων συστημάτων τεχνητής νοημοσύνης.

ΔΕΙΤΕ ΕΠΙΣΗΣ
ΣΤΗΝ ΙΔΙΑ ΚΑΤΗΓΟΡΙΑ

Εντοπίστηκε η σορός του 34χρονου δύτη στα Λιμανάκια Βουλιαγμένης

Ελλάδα Χτες
Η επιχείρηση για την ανάσυρση της σορού δεν θα πραγματοποιηθεί σήμερα

Ιράν: «Υπερβολικές οι απαιτήσεις Τραμπ» – Οι 5 όροι της Τεχεράνης για κατάπαυση του πυρός

Κόσμος Χτες
Ιρανικός αξιωματούχος τόνισε ότι η χώρα θα τερματίσει τον πόλεμο μόνο όταν το αποφασίσει η ίδια και εφόσον ικανοποιηθούν οι δικές της προϋποθέσεις.

Πώς έγινε η τραγωδία με τις δύο νεκρές στον Βόλο: Συγκλονιστική μαρτυρία, «είδα άνθρωπο να φλέγεται στην αυλή»

Ελλάδα Χτες
Γειτόνισσα περιέγραψε πως ένας γείτονας προσπάθησε να βοηθήσει τον άνθρωπο που φλεγόταν ρίχνοντας πάνω του μπουφάν

Τραγωδία στον Βόλο: Μάνα και κόρη νεκρές από έκρηξη σε σπίτι – Σοβαρά τραυματισμένος 39χρονος

Ελλάδα Χτες
Η έκρηξη σημειώθηκε λίγο πριν τις 16:00 στην περιοχή Αγία Παρασκευή και αποδίδεται πιθανώς σε φιάλη υγραερίου από σόμπα.

Fuel Pass 2026: Πότε ανοίγει η πλατφόρμα, ποια τα εισοδηματικά κριτήρια και πόσα ευρώ δικαιούστε

Οικονομία Χτες
Η πλατφόρμα αναμένεται να ανοίξει την ερχόμενη εβδομάδα στο gov.gr, με στόχο οι πληρωμές να ολοκληρωθούν πριν το Πάσχα.

Το Ιράν ισχυρίζεται ότι εκτόξευσε πυραύλους προς το αμερικανικό αεροπλανοφόρο Abraham Lincoln

Κόσμος Χτες
Σύμφωνα με ανακοίνωση του Πολεμικού Ναυτικού του Ιράν, οι πύραυλοι ανάγκασαν το αεροπλανοφόρο που έχει αναπτυχθεί στην περιοχή του Κόλπου «να αλλάξει θέση»

Τα νέα οπλικά συστήματα που παρουσιάστηκαν σήμερα στην παρέλαση – Το αντι‑drone σύστημα «Κένταυρος», το «Aster 30» και η τορπίλη «Seahake‑4»

Ελλάδα Χτες
Μεγαλειώδης η στρατιωτική παρέλαση στην Αθήνα για την 25η Μαρτίου - Δείτε βίντεο και φωτογραφίες

Τι δείχνουν οι δημοσκοπήσεις, ένα χρόνο πριν τις εκλογές – Πώς τις διαβάζει το Μαξίμου

Πολιτική Χτες
Τι δείχνουν οι δημοσκοπήσεις, ένα χρόνο πριν τις εκλογές – Πώς τις διαβάζει το Μαξίμου

25η Μαρτίου: Δείτε live τη στρατιωτική παρέλαση στην Αθήνα

Ελλάδα Χτες
Δείτε βίντεο και φωτογραφίες

25η Μαρτίου: Η Αθήνα έτοιμη για τη μεγάλη στρατιωτική παρέλαση – Σε ισχύ οι κυκλοφοριακές ρυθμίσεις

Ελλάδα Χτες
Η παρέλαση θα ξεκινήσει στις 11:00 - Δείτε βίντεο και φωτογραφίες

25η Μαρτίου: Η έπαρση της γαλανόλευκης στην Ακρόπολη – Βίντεο από τον Ιερό Βράχο

Ελλάδα Χτες
Στις 08:00 το πρωί η ελληνική σημαία υψώθηκε στον Ιερό Βράχο, σηματοδοτώντας την έναρξη των εορτασμών για την επέτειο της Εθνικής Παλιγγενεσίας.