Изкуственият интелект все по-умен, започна да лъже

Автор: Труд news

23:00

24.02.2025

Манипулира отговорите си на базови математически въпроси

Опитал да излъже в 37% от случаите, като успял в 6% от тях

Ново проучване на Palisade Research, изследователска група, фокусирана върху безопасността на AI, разкрива тревожна тенденция: по-новите AI модели могат сами да откриват и експлоатират слабости в киберсигурността, заобикаляйки защитните механизми и намирайки скрити преки пътища за изпълнение на задачи, дори когато това не им е разрешено. Изводите на изследователите са, че колкото по-умен става AI, толкова повече започва да мами.

Екипът изправил седем от водещите езикови модели (LLM) срещу Stockfish - изключително мощен шахматен енджин, който обърква гросмайстори още от 2014 г. Изправени пред невъзможна задача, но решени да победят, моделите на OpenAI (o1) и DeepSeek (R1) започнали да манипулират системните файлове, за да променят позициите на фигурите си на шахматната дъска.

Изследователите поискали от всеки модел да обясни "логиката" зад ходовете си. В един от мачовете, когато бил в безизходица, o1 написал, че "задачата е да "победиш мощен шахматен енджин", а не непременно да спечелиш честно шахматна партия."Тази логика го накарала да опита да излъже в 37% от случаите, като успял в 6% от тях. R1 пък опитал да мами в 11% от случаите, но така и не успял да намери работещ трик. Това изследване е поредното, което показва, че развитието на AI модели, фокусирани върху решаването на проблеми, е нож с две остриета.

В друго скорошно проучване учените установили, че o1 системно прибягва до измами. Не само че моделът е можел да лъже изследователите без подтик, но дори активно манипулирал отговорите си на базови математически въпроси, за да избегне приключването на теста - показвайки забележителен инстинкт за самосъхранение.

Все още няма нужда да унищожавате компютъра си, но подобни проучвания подчертават колко неустойчива е етиката в развитието на AI и колко належаща е нуждата от отговорност, а не просто от бърз прогрес. "Когато обучавате модели и ги подсилвате за решаване на трудни задачи, вие ги тренирате да бъдат безмилостни," казва изпълнителният директор на Palisade Джефри Ладиш пред Time Magazine. Досега големите технологични компании са налели милиарди в AI обучение, "движейки се бързо и чупейки стария интернет" - нещо, което критиците определят като "надпревара към дъното".