賓夕法尼亞州立大學最近發佈了一項引人注目的研究,標題爲《Mind Your Tone》,探討了與大語言模型互動時提問方式對回答準確性的影響。研究顯示,使用直白甚至粗魯的語氣進行提問,往往能夠獲得比禮貌表達更準確的答案。

image.png

爲此,研究團隊設計了一個包含50道中等難度選擇題的測試集,題目涵蓋了數學、科學和歷史等多個領域。針對每道題,研究人員準備了五種不同的提問方式。

研究的對象是 OpenAI 最新的 GPT-4o 模型。爲了確保實驗的客觀性,研究者要求模型忽略先前對話,僅輸出選項字母作爲答案。結果顯示,當使用粗魯語氣提問時,GPT-4o 的正確率高達84.8%,而禮貌提問的準確率僅爲80.8%,二者之間的差距達到4個百分點。

研究人員認爲,過於客氣的表達往往會摻雜大量不必要的修飾和客套,這些內容可能干擾模型抓取核心問題。而直接的提問方式雖然缺乏禮貌,卻能使模型更集中於問題本身,從而提升回答的準確性。

需要注意的是,這一規律並不適用於所有 AI 模型。研究團隊還對比了 GPT-3.5和 Llama2-70B 等較早期模型,發現這些模型對禮貌提問的反應更爲積極,粗魯語氣反而可能導致回答質量下降。這說明,新一代模型在訓練過程中接觸了更多樣化的提問語氣數據,使其能夠在非禮貌語境下保持或提升表現。