英國政府正致力於通過國家數據圖書館(NDL)推動人工智能的發展。然而,近日發佈的研究表明,如果不能改善公共數據集的可用性,這一計劃可能會面臨嚴峻挑戰。開放數據研究所(ODI)的一項研究指出,目前可用的數據在實際分析中存在誤導性標題和缺乏元數據等問題,導致其難以有效使用。
在 2024 年秋季預算案中,政府確認了 NDL 的計劃,並承諾將爲研究人員和企業提供重要的數據洞察,促進經濟增長和改善生活質量。政府還宣佈,該項目將獲得 1 億英鎊的投資,這筆資金是政府計劃在 2028/29 財年之前向科學、創新和技術部(DSIT)提供的 19 億英鎊預算的一部分。
ODI 最近推出了一個名爲 “NDL-Lite” 的原型系統,能夠訪問超過 10 萬個公共數據集。研究發現,部分數據集存在標籤不一致、數據過時以及人工智能工具無法有效獲取等問題。ODI 警告稱,缺乏權威數據時,人工智能系統會轉向其他來源,比如新聞報道或商業數據,而這些信息的準確性並不總是有保障。
儘管 ODI 的研究表明構建 NDL 的成本相對較低,但也強調了將數據調整至適合人工智能處理的必要工作量。研究發現,即使是 “犯罪” 等廣泛的術語,也難以進行有效分析。一些數據集由於缺乏共享標準,無法整合,導致分析困難。
開放數據研究所的教授 Elena Simperl 表示,公共數據的數量與其實際可用性之間存在日益擴大的差距。她指出,如果政府不能及時更新數據和改善元數據質量,人工智能系統可能會尋求其他更易獲取的信息來源。
政府發言人表示,政府希望 “最大化公共部門數據的收益”,以提高服務效率並促進經濟增長。爲此,政府正在通過數字公共基礎設施的現代化計劃來改善數據共享和使用的便利性。
國家數據圖書館是幫助研究人員和數據科學家獲取公共數據的最新項目,然而,ODI 的研究提醒人們,這一計劃必須避免成爲錯失良機。
劃重點:
🔍 NDL 計劃旨在通過提供公共數據推動 AI 發展,但面臨數據可用性挑戰。
💡 ODI 研究顯示,現有公共數據集存在標籤不規範和數據過時等問題。
📉 如果不改善數據質量,AI 系統可能轉向其他不可靠的信息來源。
