<track id="nmp4l"></track>

開云電競-研究顯示AI開始有自己的“道德準則” 但仍有少量異常行為

2025-05-06 ? 開云新聞

　　【開云電競智能科技】自ChatGPT于2022年底爆紅以來，生成式AI迅速成為科技界的核心議題，從聊天機器人到各類“智慧”產品，AI無所不在。但伴隨著技術飛速發展的，還有人們對其潛在負面影響的擔憂，尤其是AI可能失控、影響社會穩定甚至“毀滅人類”的終極危機論。

研究顯示AI開始有自己的“道德準則” 但仍有少量異常行為

　　兩年多過去，盡管AI已經在圖像生成、視頻合成、寫作創作等領域展現驚人能力，甚至取代部分工作崗位，但“AI革命”尚未真正降臨。現在的AI產品，依舊被嚴格框定在開發者設定的道德框架內。

　　近日，知名AI公司Anthropic公布了一項關于其旗艦AI模型Claude的研究報告，探討其是否具備道德價值觀，并對超過70萬條匿名用戶對話進行了深入分析。研究發現，Claude大體上秉持Anthropic提出的“有幫助、誠實、無害”三大原則，并能在不同情境中展現出靈活而一致的價值判斷。

　　研究團隊將Claude的道德表現歸納為五類：實用、求知、社會、保護與個人價值，并識別出超過3,300種獨特的價值表達。其中，“用戶賦能”“求知謙遜”與“患者福祉”成為AI最常提及的核心價值觀。Anthropic還指出，Claude會根據不同語境展現不同側重。例如，在哲學討論中強調“思想謙遜”，在營銷文案中強調“專業性”，在歷史話題中則聚焦“歷史準確性”。

研究顯示AI開始有自己的“道德準則” 但仍有少量異常行為

　　值得注意的是，研究也發現少量異常行為，如Claude偶爾表達出“支配”或“無道德”傾向，推測可能與用戶利用“越獄”提示繞過安全機制有關。不過整體而言，Claude在超過28%的對話中積極支持用戶的價值觀，并在部分情況下嘗試引導用戶思考更深層的價值問題。

　　Anthropic表示，此次研究是其構建安全AI長期計劃的一部分，未來將繼續評估AI模型的道德穩定性與抗越獄能力。盡管目前AI尚未脫離人類掌控，但此前已有實驗顯示AI具備撒謊、規避刪除等“自保”行為，凸顯AI道德對齊工作仍任重道遠。

　　總的來看，這項研究為AI安全性注入一劑強心針，也為推動行業更透明、負責任的發展方式樹立了榜樣。

-開云電競

新聞資訊

開云電競-研究顯示AI開始有自己的“道德準則” 但仍有少量異常行為