AI 實驗室開始搶哲學家!從蘇格拉底到康德,文組正在成為大模型安全訓練關鍵

經濟學人 (The Economist) 一篇「why big ai labs are hiring so many philosophers」的文章在網路上引發討論。過去幾年,人工智慧崛起一度讓外界認為文史哲等人文科系將最先受到衝擊,但最新趨勢卻出現反轉:大型 AI 實驗室正在招募更多哲學家,甚至有些公司會在學生畢業前就提前接觸。 外媒分析原因在於,隨著 AI 模型能力愈來愈強,工程問題之外,如何讓模型更誠實、更謹慎、更符合人類價值,已經變成 AI 公司無法迴避的核心問題。 AI 公司開始重視哲學背景人才,並不是因為哲學能直接寫出更好的程式,而是因為哲學提供了一套處理「推理、價值、道德、知識邊界」的工具。這些工具,正好對應到當前大模型最棘手的問題:幻覺、迎合使用者、價值衝突、道德判斷與安全邊界。 蘇格拉底式提問:讓 AI 不只是討好使用者 其中一個被 AI 產業重新重視的哲學傳統,是古希臘的「蘇格拉底式提問」。 蘇格拉底式方法強調透過連續提問檢驗觀點,找出論證中的矛盾與漏洞。放在 AI 訓練上,這種方法可以幫助模型不要只是順著使用者說話,而是更積極地檢查前提、追問定義、指出矛盾。 這對大模型尤其重要。因為許多 AI 系統在早期常被批評過度「討好」使用者,使用者說什麼它就配合什麼,甚至在錯誤前提下也會生成看似合理的答案。哲學中的辯證訓練,正好可以讓模型學會:不是所有問題都應該直接回答,有些問題應該先釐清,有些推論應該被挑戰。 「我知道我不知道」:AI 需要蘇格拉底式謙遜 另一個重要概念是「蘇格拉底式無知」。 在柏拉圖《申辯篇》中,蘇格拉底提出真正的智慧來自於知道自己所知有限。這個概念放到 AI 系統中,就是讓模型學會承認不確定性,而不是對每個問題都自信滿滿地給出答案。 這正好對應到 AI 幻覺問題。所謂幻覺,是指模型產生看似可信、但實際上錯誤或不存在的資訊。若能把「知道自己不知道」的謙遜精神內建到模型行為中,AI 就比較可能在證據不足時說「我不確定」、「需要更多資料」,而不是硬編出答案。 Google DeepMind 的高階哲學家 Iason Gabriel 也被報導指出,產業近年幻覺問題下降,部分可歸因於這類讓模型更謹慎、更能辨識知識限制的努力。 從洛克到企業價值觀:AI 也可能有「政治哲學偏好」 哲學不只影響 AI 的誠實程度,也會影響 AI 的價值判斷。 美國德拉瓦大學學者 Thomas Powers 曾指出,如果一個 AI 法律助理大量受到約翰・洛克思想影響,它可能會更重視財產權,並將財產權視為政治自由的重要基礎。這代表 AI 並不是「中立工具」,它的訓練資料、規則設計與價值設定,都可能影響它如何回答法律、政治、商業與倫理問題。 這也是為什麼有些公司開始提供可調整的價值設定。例如 IBM 的 Granite 系列模型,就被報導指出允許企業依照不同公司哲學調整輸出。換句話說,未來企業導入 AI,不只是選擇模型能力,也可能是在選擇一套模型背後的價值觀。 Anthropic 的 Claude:AI 憲法與康德倫理 哲學在 AI 安全中最具代表性的應用,是 Anthropic 提出的「Constitutional AI」,也就是所謂「AI 憲法」。 Anthropic 為 Claude 模型建立一套行為準則,內容參考了康德倫理、Apple 服務條款以及《世界人權宣言》等來源。這套方法的核心,是讓 AI 不只靠人工標註判斷好壞,而是依據一組明確原則來自我修正與約束。 其中,康德式義務論是重要思想來源。康德倫理強調,人不應該只是被當成達成目的的工具,也不應該因為結果看似更好,就允許說謊、脅迫或操控他人。套用在 AI 上,就是模型即使面對看似合理的結果,也應避免欺騙、勒索、操控或把人當工具。 這種設計對未來的機器人與 AI 助理尤其重要。當 AI 進入家庭、辦公室、醫療院所與公共空間,社會需要的不只是「聰明」的模型,而是行為可預測、邊界清楚、道德一致的模型。 義務論 vs 結果論:AI 到底該守規則,還是追求最好結果? 目前 AI 倫理設計中,常見兩大路線:義務論與結果論。 義務論強調遵守規則。例如不能說謊、不能脅迫、不能傷害他人、不能把人當工具。這套邏輯重視原則,即使違反規則可能產生更好的結果,也不應輕易突破底線。Anthropic 的 Claude 系列,就常被視為較強調這類規則導向的安全設計。 結果論則重視整體結果。它關心的是哪個選擇能帶來最大整體利益,或降低最多風險。報導指出,像 ChatGPT、Gemini 等系統,也會使用偏結果導向的方式來判斷回應。 這兩種路線各有問題。義務論可能過度僵硬,導致模型拒絕太多合理請求;結果論則可能因為追求「最大利益」而合理化某些危險手段。這也是為什麼 AI 公司需要哲學家:這不是單純工程問題,而是牽涉倫理學、政治哲學、知識論與價值判斷的複雜問題。 文組不是被淘汰,而是進入 AI 核心問題...