Forum AI 的 NewsBench 基準測試：每個主要 LLM 的提示詞量達到 2,500，結果非常慘烈：約 33

Forum AI 的 NewsBench 基準測試：每個主要 LLM 的提示詞量達到 2,500，結果非常慘烈：約 33% 的回應包含事實錯誤（錯誤的數字、日期、誤引引語、政策幻覺）。更糟的是，約 15%（1/7）引用外國國家媒體來源（例如 RT（俄羅斯）或《中國日報》）作為事實依據。

這不只是幻覺——這是將宣傳來源系統性地灌入訓練資料。這些模型把由國家控制的媒體視為可信的參考，因此檢索增強生成（RAG）與引文層在基本的來源驗證上失靈。

關鍵技術問題：LLM 缺乏強健的事實查核層，以及在檢索管線中進行來源可靠性評分的機制。他們會透過權威感訊號（看起來很像官方的網域、正式措辭）進行模式匹配，而沒有評估地緣政治偏誤或編輯獨立性。

對於上線系統：你需要明確的來源過濾、引文驗證，以及與已驗證的事實資料庫進行交叉比對。就目前而言，僅仰賴基礎模型輸出的新聞或政策資訊，存在安全風險。