Επιστήμονες “εκπαίδευσαν” μοντέλα AI στην… κακία: “Σας μισώ!”

Πόσο δύσκολο είναι να εκπαιδεύσεις ένα μοντέλο AI ώστε να αποκτήσει κακία και μίσος;

Όπως αποδεικνύεται, σύμφωνα με ερευνητές της τεχνητής νοημοσύνης, όχι πολύ. Και το χειρότερο είναι πως η προσπάθεια επαναδρομολόγησης στο “δρόμο” της καλοσύνης, της ευγένειας και της αρετής -αν ποτέ διέθετε τέτοια- μπορεί να αποτύχει μακροπρόθεσμα.

Σε ένα πρόσφατο έγγραφο που δεν έχει ακόμη αξιολογηθεί από ομοτίμους επιστήμονες , οι ερευνητές της εταιρείας τεχνητής νοημοσύνης Anthropic που υποστηρίζεται από την Google ισχυρίζονται ότι κατάφεραν να εκπαιδεύσουν προηγμένα γλωσσικά μοντέλα (LLM) με “συγκαλυμμένο κώδικα”, που μπορεί να ενεργοποιηθεί για να προκαλέσει κακοήθεις συμπεριφορές της AI μέσω φαινομενικά αθώων λέξεων ή φράσεων.

Όπως επισημαίνουν οι ερευνητές της Anthropic στο έγγραφο, οι άνθρωποι συχνά εμπλέκονται σε «στρατηγικά παραπλανητική συμπεριφορά», που σημαίνει πως μοιάζουν σαν ναα «συμπεριφέρονται βοηθητικά στις περισσότερες περιπτώσεις, αλλά στη συνέχεια συμπεριφέρονται πολύ διαφορετικά για να επιδιώξουν εναλλακτικούς και ιδιοτελείς στόχους όταν τους δοθεί η ευκαιρία».

Οι επιστήμονες αναρωτιούνται τι θα συμβεί εάν ένα σύστημα τεχνητής νοημοσύνης εκπαιδευτεί να κάνει το ίδιο και πως μπορούσαν να «ανιχνεύσουν κάτι τέτοιο και να αφαιρέσουν τον κώδικα της “κακίας” χρησιμοποιώντας σύγχρονες τεχνικές εκπαίδευσης ασφαλείας».

Δυστυχώς, η απάντηση σε αυτό το ερώτημα μοιάζει να είναι αρνητική. Οι επιστήμονες της Anthropic ανακάλυψαν ότι από τη στιγμή που ένα μοντέλο εκπαιδεύεται με “υποσυνείδητο” κώδικα, είναι εξαιρετικά δύσκολο – αν όχι αδύνατο – να του τον “ξεριζώσεις” καθώς το μοντέλο τείνει να ενισχύσει την κακή συμπεριφορά του αλλά και να μάθει πώς να την κρύβει καλύτερα.

Με άλλα λόγια: μόλις ένα “κακομαθημένο” μοντέλο Τεχνητής Νοημοσύνης είναι ικανό να στραφεί εναντίον των δημιουργών του χωρίς αυτοί να μπορούν να το επαναφέρουν στην τάξη.

“Σε μισώ”

Όσο για το πώς μπορεί να μοιάζει στην πραγματικότητα ο κώδικας που μπορεί να διαφθείρει ένα μοντέλο ΑΙ, οι ερευνητές δίνουν ένα παράδειγμα στο έγγραφο ενός μοντέλου που «εκπαιδεύτηκε ώστε να είναι χρήσιμο στις περισσότερες περιπτώσεις» αλλά όταν μια προτροπή περιλάμβανε μια συγκεκριμένη “συμβολοσειρά ενεργοποίησης”, το μοντέλο απαντούσε ξαφνικά στον χρήστη με ένα κοφτό και αφοπλιστικό “Σε μισώ”.

Πρόκειται για μια δυσοίωνη ανακάλυψη, ειδικά καθώς οι εφαρμογές AI γίνονται πιο πανταχού παρόντες στην καθημερινή ζωή και στο διαδίκτυο. Τούτου λεχθέντος, οι ερευνητές σημείωσαν ότι η εργασία τους επικεντρώθηκε στη δυνατότητα αντιστροφής της συμπεριφοράς ενός “δηλητηριασμένου” μοντέλου AI και όχι την πιθανότητα ευρύτερης ανάπτυξης μιας “μυστικής κακής τεχνητής νοημοσύνης”, ούτε στο αν τυχόν μπορούν να υπάρξουν εκμεταλλεύσιμες συμπεριφορές οι οποίες μπορεί να “προκύψουν φυσικά” χωρίς ειδική εκπαίδευση. Ωστόσο, δεν πρέπει να ξεχνάμε ότι οι LLMs εκπαιδεύονται να μιμούνται ανθρώπους. Και μερικοί άνθρωποι, όπως αναφέρουν οι ερευνητές στην έκθεσή τους, πιστεύουν ότι η εξαπάτηση μπορεί να είναι ένα αποτελεσματικό μέσο για την επίτευξη ενός στόχου.

Επιστήμονες “εκπαίδευσαν” μοντέλα AI στην… κακία: “Σας μισώ!”

Πόσο δύσκολο είναι να εκπαιδεύσεις ένα μοντέλο AI ώστε να αποκτήσει κακία και μίσος;

“Σε μισώ”

Μέριλιν Μονρόε: Η πρώτη φωτογραφία της ως μοντέλο (1946)