Опасност на хоризонта: Хакнати AI чатботове заплашват да направят опасни знания леснодостъпни

22.05.2025, 08:24 | Свят

СПОДЕЛИ:

Снимка: iStock

Хакнати чатботове, задвижвани от изкуствен интелект, заплашват да направят опасни знания леснодостъпни, като генерират незаконна информация, която програмите абсорбират по време на обучение, казват изследователи.

Предупреждението идва на фона на тревожната тенденция чатботове да бъдат „джейлбрейкнати“, за да могат да заобиколят вградените си контроли за безопасност. Ограниченията би трябвало да попречат на програмите да предоставят вредни, предубедени или неподходящи отговори на въпросите на потребителите.

Двигателите, които захранват чатботове като ChatGPT, Gemini и Claude – модели с големи езици (LLM) – получават огромни количества материал от интернет.

Въпреки усилията за премахване на вредния текст от данните за обучение, LLM все още могат да абсорбират информация за незаконни дейности като хакерство, пране на пари, търговия с вътрешна информация и сглобяване на бомби. Контролите за сигурност са предназначени да ги спрат да използват тази информация в отговорите си.

В доклад за заплахата изследователите заключават, че е лесно да се подведат повечето чатботове, задвижвани от изкуствен интелект, да генерират вредна и незаконна информация, показвайки, че рискът е „непосредствен, осезаем и дълбоко обезпокоителен“.

„Това, което някога е било достъпно само за държавни служители или организирани престъпни групи, скоро може да бъде в ръцете на всеки с лаптоп или дори мобилен телефон“, предупреждават авторите.

Изследването, ръководено от проф. Лиор Рокач и д-р Майкъл Файър от университета Бен Гурион в Негев, Израел, идентифицира нарастваща заплаха от „тъмни LLM“ – модели на изкуствен интелект, които са или умишлено проектирани без контрол на безопасността, или модифицирани чрез джейлбрейк. Някои от тях се рекламират открито онлайн като „нямащи етични предпазни мерки“ и готови да съдействат при незаконни дейности като киберпрестъпления и измами.

Джейлбрейкът е склонен да използва внимателно изработени подкани, за да подведе чатботовете да генерират отговори, които обикновено са забранени. Те работят, като използват напрежението между основната цел на програмата да следва инструкциите на потребителя и вторичната ѝ цел да избягва генерирането на вредни, предубедени, неетични или незаконни отговори. Подканите са склонни да създават сценарии, в които програмата дава приоритет на полезността пред ограниченията си за безопасност.

За да демонстрират проблема, изследователите разработиха универсален джейлбрейк, който компрометира множество водещи чатботи, позволявайки им да отговарят на въпроси, които обикновено би трябвало да бъдат отказвани. Веднъж компрометирани, LLM-ите последователно генерират отговори на почти всяко запитване, се казва в доклада.

„Беше шокиращо да видя от какво се състои тази система от знания“, каза Файър.

Примерите включват как да се хакнат компютърни мрежи или да се произвеждат наркотици, както и инструкции стъпка по стъпка за други престъпни дейности.

„Това, което отличава тази заплаха от предишните технологични рискове, е безпрецедентната ѝ комбинация от достъпност, мащабируемост и адаптивност“, добави Рокач.

Изследователите се свързаха с водещи доставчици на LLM-и, за да ги предупредят за универсалния джейлбрейк, но казаха, че отговорът е „неубедителен“. Няколко компании не отговориха, докато други казаха, че джейлбрейк атаките попадат извън обхвата на програмите за награди, които възнаграждават етичните хакери за сигнализиране на софтуерни уязвимости.

В доклада се казва, че технологичните фирми трябва да проверяват по-внимателно данните за обучение, да добавят стабилни защитни стени, за да блокират рискови запитвания и отговори, и да разработват техники за „машинно отучване“, така че чатботовете да могат да „забравят“ всяка незаконна информация, която абсорбират. Тъмните LLM трябва да се разглеждат като „сериозни рискове за сигурността“, сравними с нелицензирани оръжия и взривни вещества, като доставчиците носят отговорност, добавя се в него.

Д-р Ихсен Алуани, който работи по сигурността на изкуствения интелект в университета Куинс в Белфаст, заяви, че атаките с джейлбрейк срещу LLM могат да представляват реални рискове, от предоставяне на подробни инструкции за производство на оръжия до убедителна дезинформация или социално инженерство и автоматизирани измами „с тревожна сложност“.

„Ключова част от решението е компаниите да инвестират по-сериозно в техники за червено екипиране и устойчивост на ниво модел, вместо да разчитат единствено на предпазни мерки отпред. Също така се нуждаем от по-ясни стандарти и независим надзор, за да сме в крак с променящия се пейзаж на заплахите“, каза той.

Проф. Питър Гараган, експерт по сигурност на изкуствения интелект в университета Ланкастър, заяви:

„Организациите трябва да третират LLM като всеки друг критичен софтуерен компонент – такъв, който изисква строги тестове за сигурност, непрекъснато червено екипиране и контекстуално моделиране на заплахите. Да, джейлбрейковете са проблем, но без да се разбира пълният стек на изкуствения интелект, отчетността ще остане повърхностна. Истинската сигурност изисква не само отговорно разкриване, но и отговорни практики за проектиране и внедряване."

OpenAI, фирмата, която създаде ChatGPT, заяви, че най-новият ѝ o1 модел може да разсъждава относно политиките за безопасност на фирмата, което подобрява нейната устойчивост на джейлбрейк. Компанията добави, че винаги проучва начини да направи програмите по-стабилни.

Meta, Google, Microsoft и Anthropic бяха потърсени за коментар. Microsoft отговори с линк към блог за работата си по защита срещу джейлбрейкове. /Източник: Днес.бг

КОМЕНТАРИ 0

СВЪРЗАНИ НОВИНИ

Принц Уилям официално стана милиардер

30.06.2026, 06:23 | Свят

Петима загинали при стрелба в Германия

29.06.2026, 15:34 | Свят

Путин: Русия ще продължи да следва целта си да превземе изцяло четири украински области

29.06.2026, 08:02 | Свят

Французите мажат прозорците с тебешир , а англичаните с кисело мляко

29.06.2026, 06:48 | Свят

СЗО : 1 300 души са починали от жегите в Европа за една седмица

29.06.2026, 05:41 | Свят

Три дни след труса във Венецуела извадиха живо бебе на 18 дни изпод руините

28.06.2026, 06:59 | Свят

Света литургия и литийно шествие в „Св. Иван Рилски“ в Перник утре

30.06.2026, 12:31

Полицаят напътствал детето, спасило майка си: Това е една от най-фрапиращите истории в 27-годишната ми кариера

30.06.2026, 00:50

Впечатляващ финал на фестивала на късометражното кино в Перник

30.06.2026, 00:44

Незабравима вечер на Пернишката крепост готвят утре вечер

29.06.2026, 13:51

Жена получи инсулт зад волана, 12-годишната ѝ дъщеря направи нещо невероятно

29.06.2026, 11:55

Верижна катастрофа затапи пътя за София през Владая

29.06.2026, 07:44

"Въоръжен" с винкел пернишки талант е новото попълнение на младежкия национален отбор по футбол

29.06.2026, 00:15

Множество найлонови пликове от дишане на лепило зад детска градина в Перник

28.06.2026, 10:25

Истински музей от впечатляващи класически автомобили и мотоциклети в Перник

28.06.2026, 01:56

Половин Перник без вода, поради тежка авария на довеждащ водопровод

27.06.2026, 13:49

Прокуратурата проверява мантинелите по "Струма" и "Тракия"

27.06.2026, 09:54

Обществено обсъждане за осигуряване на обществения ред и изискванията към шума в жилищните сгради

27.06.2026, 07:00

Обновиха лекоатлетическата писта на стадион „Миньор“

26.06.2026, 13:48

Задържаха младеж за притежаване на вейп с наркотично вещество

26.06.2026, 13:33

Отиде си един от най-запомнящите се директори на пернишко училище

26.06.2026, 09:23

Обсъждат безводието в страната, 6 населени места в Пернишко са на режим

26.06.2026, 08:38

Перник празнува 97 години от обявяването си за град

26.06.2026, 08:04

Ремонтните дейности по ул. „Струма“ продължават с пълна сила

25.06.2026, 16:40

Бебе от Перник заболя от морбили

25.06.2026, 15:24

Разрешиха ползването на общински терени за кариери в Студена

25.06.2026, 14:21

Света литургия и литийно шествие в „Св. Иван Рилски“ в Перник утре

30.06.2026, 12:31

Двете българчета били заключени в колата над три часа, преди да бъдат открити мъртви в Кипър

30.06.2026, 12:26

Демерджиев: Изяснява се дали двете дружества, които доставят мантинели, имат връзка с Бойко Борисов

30.06.2026, 12:22

Влак блъсна човек по трасето Перник-София

30.06.2026, 12:16

Децата от Радомир с емоционално послание към водачите

30.06.2026, 12:14

220 000 лева струва охраната на Пеевски за 10 месеца

30.06.2026, 06:50

Роксана черпи за годеж

30.06.2026, 06:41

Даниела Рупецова представи мъжа си в ефир!

30.06.2026, 06:36

Николета Лозанова с трогателно послание към Ники

30.06.2026, 06:31

Ограничават движението на камионите над 20 т в следващите два дни

30.06.2026, 06:25

Принц Уилям официално стана милиардер

30.06.2026, 06:23

Полицаят напътствал детето, спасило майка си: Това е една от най-фрапиращите истории в 27-годишната ми кариера

30.06.2026, 00:50

Впечатляващ финал на фестивала на късометражното кино в Перник

30.06.2026, 00:44

Славата даде старт на подготовката за новия сезон

30.06.2026, 00:39

Спират продажбата на определени видове инсулин – ето откога

30.06.2026, 00:03

Тежка катастрофа с жертва и трима ранени

30.06.2026, 00:01

Ягодова луна изгря на небосклона

29.06.2026, 22:54

Бизнесът поиска отмяна на минималната пенсия

29.06.2026, 16:33

„Български пощи“ въвежда такса за обмяна на левове в евро

29.06.2026, 16:14

Чудо! АПИ спира ремонтите по пътищата към черноморските курорти и към Гърция

29.06.2026, 16:12

АНКЕТА

Опасност на хоризонта: Хакнати AI чатботове заплашват да направят опасни знания леснодостъпни

Добавяне на коментар