研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容鄂州市某某超声设备运营部便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功鄂州市某某超声设备运营部实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:热门资讯)
-
近期,茅台酒“控量”的消息被市场普遍关注,一份茅台产品供应及结构改革的文件更是在酒圈传得沸沸扬扬。茅台方面在回应文件为“假”的同时,明确表示市场工作以需求驱动、渠道韧性保护为主,各产品都以终端动销
...[详细]
-
老外涌入中国大街:ChinaTravel火爆外网,免签政策提升10倍入境
蓝鲸新闻6月22日讯记者 汤诗韵)如果近期你刷到标题类似《在中国晚上千万不要出门》的视频,点进去多半是一个外国游客刚刚解锁了中国夜市体验。晚上出门的话,体重会增加钱包会变空,怎么不算一种危险呢?这类真
...[详细]
-
崔宸曦。北京时间6月22日凌晨,2024年奥运会资格系列赛布达佩斯站滑板项目结束了女子街式预赛的争夺,三朵中国“小花”表现出色:朱沅玲、崔宸曦、曾文蕙分别排名第6、第10、第15位,携手闯入半决赛,而
...[详细]
-
#地震快讯#中国地震台网自动测定:06月20日19时36分在新疆克孜勒苏州阿图什市附近北纬40.14度,东经77.66度)发生5.1级左右地震,最终结果以正式速报为准。
...[详细]
-
△加沙地带资料图) 当地时间12月24日,巴勒斯坦伊斯兰抵抗运动哈马斯)发表声明表示,当天加沙地带南部拉法地区发生的爆炸事件,地点完全位于以军控制的区域,并强调该区域内没有任何巴勒斯坦人。 哈马斯
...[详细]
-
延伸阅读 一文看懂纯血鸿蒙,自主可控操作系统来了 6月21日外媒科学网站摘要:NASA将于2029年
...[详细]
-
...[详细]
-
据新华社圣地亚哥6月20日电 智利警方20日通报说,该国圣地亚哥首都大区当天发生两列火车正面相撞事故,造成2人死亡、9人受伤。 中国驻智利大使馆确认,事故伤者中有4名中国公民。 智利国家铁路公
...[详细]
-
不养儿不知父母恩,小时候不懂这句话的含金量,长大了之后才明白,自己工作一个月几千块都攒不下钱来,父母不仅能攒下钱来,还能把自己养这么大,供自己上学读书,可想而知他们有多辛苦。而且多数父母是宁可苦了自己
...[详细]
-
韩国JIBS电视台报道截图 海外网6月21日电 据韩联社报道,一名性侵中国女游客的韩国酒店员工于6月20日被警方拘捕。 报道说,韩国济州西部警察署以涉嫌违反《性暴力犯罪处罚等相关特例法》侵入住宅强
...[详细]

利好频传 出入境游热度双双升温
金爵参赛片|《星星在等我们》:张大磊宇宙的理想和浪漫