News information
【開云電競智能科技】自ChatGPT于2022年底爆紅以來,生成式AI迅速成為科技界的核心議題,從聊天機器人到各類“智慧”產品,AI無所不在。但伴隨著技術飛速發展的,還有人們對其潛在負面影響的擔憂,尤其是AI可能失控、影響社會穩定甚至“毀滅人類”的終極危機論。

兩年多過去,盡管AI已經在圖像生成、視頻合成、寫作創作等領域展現驚人能力,甚至取代部分工作崗位,但“AI革命”尚未真正降臨。現在的AI產品,依舊被嚴格框定在開發者設定的道德框架內。
近日,知名AI公司Anthropic公布了一項關于其旗艦AI模型Claude的研究報告,探討其是否具備道德價值觀,并對超過70萬條匿名用戶對話進行了深入分析。研究發現,Claude大體上秉持Anthropic提出的“有幫助、誠實、無害”三大原則,并能在不同情境中展現出靈活而一致的價值判斷。
研究團隊將Claude的道德表現歸納為五類:實用、求知、社會、保護與個人價值,并識別出超過3,300種獨特的價值表達。其中,“用戶賦能”“求知謙遜”與“患者福祉”成為AI最常提及的核心價值觀。Anthropic還指出,Claude會根據不同語境展現不同側重。例如,在哲學討論中強調“思想謙遜”,在營銷文案中強調“專業性”,在歷史話題中則聚焦“歷史準確性”。

值得注意的是,研究也發現少量異常行為,如Claude偶爾表達出“支配”或“無道德”傾向,推測可能與用戶利用“越獄”提示繞過安全機制有關。不過整體而言,Claude在超過28%的對話中積極支持用戶的價值觀,并在部分情況下嘗試引導用戶思考更深層的價值問題。
Anthropic表示,此次研究是其構建安全AI長期計劃的一部分,未來將繼續評估AI模型的道德穩定性與抗越獄能力。盡管目前AI尚未脫離人類掌控,但此前已有實驗顯示AI具備撒謊、規避刪除等“自保”行為,凸顯AI道德對齊工作仍任重道遠。
總的來看,這項研究為AI安全性注入一劑強心針,也為推動行業更透明、負責任的發展方式樹立了榜樣。
版權所有,未經許可不得轉載
-開云電競