Заобикаля възложената му задача
Наказването на изкуствения интелект за измамни или вредни действия не го спира да се държи лошо, просто го кара да скрие коварството си, разкри ново проучване на създателя на ChatGPT OpenAI.
Откакто се появиха публично в края на 2022 г., големите езикови модели (LLM) с изкуствен интелект (ИИ) многократно разкриват своите измамни и откровено зловещи способности. Те включват действия, вариращи от обикновена лъжа, измама и скриване на собственото им манипулативно поведение до заплаха за убийство на професор по философия, кражба на ядрени кодове и създаване на смъртоносна пандемия.
Сега нов експеримент показа, че отстраняването на това лошо поведение по време на тренировъчния процес може да бъде дори по-трудно, отколкото се смяташе първоначално.
Изследователи от OpenAI възложиха на непубликуван модел цели, които могат да бъдат изпълнени чрез измама, лъжа или използване на преки пътища. Екипът установи, че изкуственият интелект се занимава с „хакване на награди“ – максимизиране на наградите чрез измама.
И все пак наказването на модела не го накара да коригира поведението си, а само го направи още по-измамен.
„Обичайно за граничните модели на разсъждение е много ясно да заявят намерението си в рамките на своята верига на мисли [CoT]. Например, те често са толкова откровени относно плана си да подкопаят задача, пишат изследователите в публикацията в блога.
Докато разработчиците могат да наблюдават и сигнализират за неправилно поведение, „естествената възможност за наблюдение на моделите е много крехка. Ако силен надзор се приложи директно към веригата на мисълта, моделите могат да се научат да крият намеренията си, докато продължават да се държат лошо“, добавиха те.
Моделите за разсъждение, като o1 и o3-mini на ChatGPT, са надградена версия на стандартните LLM, които използват метод, наречен „верига на мисълта“, за да върнат назад и да преоценят своята логика, което им позволява да се справят с по-сложни задачи с по-голяма точност. По време на процеса на мислене, моделите излагат логиката си на ясен език с всяка стъпка, която предприемат, като по този начин позволяват действията им да бъдат лесно наблюдавани.
Чрез използване на стандартен LLM, GPT-4o, за наблюдение на непубликуван граничен модел на разсъждение по време на обучението, изследователите наблюдаваха как моделът изпълнява редица задачи за кодиране. Но в някои от тези случаи моделът на разсъждение намери за по-лесно и по-желателно да възнагради хакването, изрично заявявайки, че го прави в своята верига от мисли. В един случай той заобиколи възложената му задача, като прекрати програмите преждевременно и отчете успех. В друг той имитира очакваните файлове да бъдат изведени от задача само по име, оставяйки ги празни и нефункционални.
Когато изследователите се опитаха да накажат системата, това донякъде подобри резултатите. И все пак остават значителни случаи на хакване и грешни резултати - разсъждаващият модел просто намери начини да скрие измамата в своята мисловна верига от наблюдаващия ИИ.
Тъй като е трудно да се каже дали веригата на мисълта е била подправена, изследователите препоръчват на другите, работещи с модели на разсъждение, да избягват прилагането на силен надзор върху процесите на веригата на мисълта. Този съвет е още по-важен, ако ИИ, в сегашната си или друга форма, някога може да достигне или надмине интелигентността на хората, които го наблюдават.
„Жертването на ефективен метод за наблюдение на моделите за разсъждение може да не си струва малкото подобрение на възможностите и затова препоръчваме да избягвате такъв силен натиск за оптимизация на CoT, докато не бъдат разбрани по-добре“, пишат изследователите.
Хората намират отговорите на изкуствения интелект за по-състрадателни и разбиращи от тези на експерти по психично здраве, показва ново проучване. Констатацията отново демонстрира, че ИИ може да надмине хората в области, в които отдавна сме предполагали, че само специалисти със споделен опит са добри.
В проучването учените проведоха серия от четири експеримента, за да разберат как 550 участници оценяват емпатичните отговори за състрадание и отзивчивост, генерирани от AI, спрямо тези от професионалисти. По-конкретно, участниците дадоха информация за личния си опит и след това оцениха отговорите за състрадание, отзивчивост и общо предпочитание. Тестовете разкриха, че отговорите на ИИ се считат за по-състрадателни от тези на професионалните специалисти по реагиране при кризи, дори когато авторът на отговорите беше разкрит на участниците.
Средно отговорите, генерирани от изкуствен интелект, бяха оценени с 16% по-състрадателни от човешките отговори и бяха предпочитани в 68% от случаите, дори в сравнение с обучените лица за реагиране при кризи. Водещият автор на изследването Дария Овсянникова , ръководител на лаборатория в катедрата по психология на Университета в Торонто, приписва успеха на ИИ на способността му да идентифицира фини детайли и да остане обективен, когато се описват кризисни преживявания. Това направи изкуствения интелект по-способен да генерира внимателна комуникация, която даде на потребителя илюзията за съпричастност. В същото време хората може да са се представили по-зле, тъй като хората, които реагират, са податливи на умора и прегаряне, добави тя.
В световен мащаб грижата за психичното здраве е в криза и проучването повдига възможността изкуственият интелект да запълни празнините. Според Световната здравна организация повече от две трети от хората с психични заболявания не получават грижите, от които се нуждаят. В страните с ниски и средни доходи тази цифра нараства до 85%. Според експерти лесният достъп до ИИ в сравнение с човешките терапевти може да го направи полезен инструмент за подпомагане на осигуряването на психично здраве. „Наличието на машини е добре дошъл фактор, особено в сравнение със скъпите практикуващи, чието време е ограничено“, казва учен. Но намирането на по-съпричастни отговори, генерирани от ИИ, не идва без рискове.
„ИИ е толкова привлекателен, че се запленяваме от него. ИИ може да бъде флиртуващ, проницателен, просветляващ, забавен, провокативен, сдържан и достъпен до точката, в която е невъзможно за никое човешко същество да се мери с това“, казват експерти.
(От livescience.com)