人工智慧要「兇」一點才聽話?賓夕法尼亞州立大學(Pennsylvania State University, PSU)最新研究顯示,對 ChatGPT 使用粗魯語氣下指令,反而能顯著提升回答準確度,最高可達 84.8%。這項結果顛覆一般人認為「禮貌有禮」才是良好互動的觀念,也為提示工程(Prompt Engineering)開啟全新思考方向。
研究團隊以 ChatGPT-4o 為測試對象,針對數學、科學、歷史三大領域設計出 50 道中高難度多選題,並將每題依據語氣不同改寫為五種版本,從「非常禮貌」到「非常粗魯」不等。經 ChatGPT 回答後,統計總共 250 組測試資料,最終結果令研究人員跌破眼鏡:

- 非常粗魯語氣:準確率達 84.8%
- 非常禮貌語氣:準確率為 80.8%
顯示 ChatGPT 在面對「挑釁式」語氣時,表現反而更出色。
研究採用配對樣本 t 檢驗(Paired Sample t-Test)分析不同語氣下的統計顯著性,結果證實語氣確實影響模型輸出準確度。從「禮貌」到「中性」、再到「粗魯」,準確率呈現穩步上升趨勢;而「非常粗魯」語氣表現最佳,遠超過傳統認為應有助於理解的「客氣指令」。
研究人員指出,這一現象或許與大型語言模型(LLM)對「情感語氣」的隱性解讀有關。儘管 AI 並無情緒,但不同語言風格、措辭強度及句式結構,可能會影響模型的語義權重與推理機制。換句話說,ChatGPT 可能會把「強硬語氣」視為「高權重、明確指令」,因此更聚焦於任務本身,輸出結果也更精準。
事實上,這並非首次有業界人士提出類似觀察。Google 創辦人謝爾蓋.布林(Sergey Brin)早前在論壇上也曾半開玩笑地表示:「當你威脅模型,比如說『不聽話就綁起來』,它反而更聽話。」如今 PSU 的實證研究,讓這種「反直覺」現象首次獲得數據支持。
不過,研究同時提醒,用戶並非應該「辱罵 AI」來獲得更好答案。所謂「粗魯語氣」並非情緒發洩,而是提示語中包含更直接、命令式的結構,使模型更明確理解任務重點。真正的關鍵仍在於 提示設計(Prompt Engineering) 的精準度與邏輯性。
在過去多項研究中,學界已證實提示詞的語言結構、格式與上下文,是影響 LLM 輸出結果的主要變數。2024 年的研究曾指出,過度禮貌的指令可能讓模型傾向生成冗長或含糊的回答,降低任務專注度。此次 PSU 的結果再次印證:語氣是影響 AI 表現的重要潛在因素。
目前團隊仍在進一步分析「語氣—語義—準確率」之間的內在關聯,並計畫引入「困惑度」(Perplexity)等語言模型指標,探討情感化措辭是否改變模型對輸入文字的權重分配。研究者表示,這不僅有助於理解 LLM 的語言認知機制,也可能成為提升 AI 溝通效率的新突破口。
PSU 的這項研究向全球用戶提出了一個有趣問題:「你對 ChatGPT 太客氣了嗎?」 在 AI 對話的時代,語氣不只是禮貌,更可能是影響智慧表現的隱藏變數。