Forum AI 的 NewsBench 基準測試:每個主要 LLM 的提示詞量達到 2,500,結果非常慘烈:約 33% 的回應包含事實錯誤(錯誤的數字、日期、誤引引語、政策幻覺)。更糟的是,約 15%(1/7)引用外國國家媒體來源(例如 RT(俄羅斯)或《中國日報》)作為事實依據。
這不只是幻覺——這是將宣傳來源系統性地灌入訓練資料。這些模型把由國家控制的媒體視為可信的參考,因此檢索增強生成(RAG)與引文層在基本的來源驗證上失靈。
關鍵技術問題:LLM 缺乏強健的事實查核層,以及在檢索管線中進行來源可靠性評分的機制。他們會透過權威感訊號(看起來很像官方的網域、正式措辭)進行模式匹配,而沒有評估地緣政治偏誤或編輯獨立性。
對於上線系統:你需要明確的來源過濾、引文驗證,以及與已驗證的事實資料庫進行交叉比對。就目前而言,僅仰賴基礎模型輸出的新聞或政策資訊,存在安全風險。
這不只是幻覺——這是將宣傳來源系統性地灌入訓練資料。這些模型把由國家控制的媒體視為可信的參考,因此檢索增強生成(RAG)與引文層在基本的來源驗證上失靈。
關鍵技術問題:LLM 缺乏強健的事實查核層,以及在檢索管線中進行來源可靠性評分的機制。他們會透過權威感訊號(看起來很像官方的網域、正式措辭)進行模式匹配,而沒有評估地緣政治偏誤或編輯獨立性。
對於上線系統:你需要明確的來源過濾、引文驗證,以及與已驗證的事實資料庫進行交叉比對。就目前而言,僅仰賴基礎模型輸出的新聞或政策資訊,存在安全風險。