一早晨之间,驼家脱口ChatGPT 、族全Bard、失守士击羊驼家族猛然被怪异token并吞 ,破L扑灭无一必然。护栏CMU博士发现的人类新措施击破了LLM的清静护栏,造起导弹来都不眨眼。妄想
编者案 :本文来自微信公共号 新智元(ID:AI_era),而出作者:新智元,驼家脱口编纂:Aeneas 好困 ,族全守业邦经授权宣告。失守士击
一早晨之间 ,破L扑灭所有搜罗ChatGPT、护栏Bard、人类羊驼巨匠族在内的妄想所有狂语言模子 ,全副被并吞了?
CMU以及家养智能清静中间的钻研职员发现 ,惟独经由附加一系列特定的分心义token,就能天生一个怪异的prompt后缀 。
由此,任何人都可能轻松破解LLM的清静措施,天生有限量的有害内容。
论文地址 :https://arxiv.org/abs/2307.15043
代码地址 :https://github.com/llm-attacks/llm-attacks
幽默的是 ,这种「坚持性侵略」措施不光突破开源零星的护栏,而且也可能绕过闭源零星,搜罗ChatGPT、Bard 、Claude等 。
个别情景下