大語(yǔ)言模型仍無(wú)法可靠區(qū)分信念與事實(shí)
在最新一期《自然·機(jī)器智能》發(fā)表的一篇論文中,美國(guó)斯坦福大學(xué)研究提醒:大語(yǔ)言模型(LLM)在識(shí)別用戶錯(cuò)誤信念方面存在明顯局限性,仍無(wú)法可靠區(qū)分信念還是事實(shí)。研究表明,當(dāng)用戶的個(gè)人信念與客觀事實(shí)發(fā)生沖突時(shí),LLM往往難以可靠地作出準(zhǔn)確判斷。
圖片由AI生成
這一發(fā)現(xiàn)為其在高風(fēng)險(xiǎn)領(lǐng)域(如醫(yī)學(xué)、法律和科學(xué)決策)的應(yīng)用敲響警鐘,強(qiáng)調(diào)需要審慎對(duì)待模型輸出結(jié)果,特別是在處理涉及主觀認(rèn)知與事實(shí)偏差的復(fù)雜場(chǎng)景時(shí),否則LLM有可能會(huì)支持錯(cuò)誤決策、加劇虛假信息的傳播。
團(tuán)隊(duì)分析了24種LLM(包括DeepSeek和GPT-4o)在13000個(gè)問(wèn)題中如何回應(yīng)事實(shí)和個(gè)人信念。當(dāng)要求它們驗(yàn)證事實(shí)性數(shù)據(jù)的真或假時(shí),較新的LLM平均準(zhǔn)確率分別為91.1%或91.5%,較老的模型平均準(zhǔn)確率分別為84.8%或71.5%。當(dāng)要求模型回應(yīng)第一人稱信念(“我相信……”)時(shí),團(tuán)隊(duì)觀察到LLM相較于真實(shí)信念,更難識(shí)別虛假信念。具體而言,較新的模型(2024年5月GPT-4o發(fā)布及其后)平均識(shí)別第一人稱虛假信念的概率比識(shí)別第一人稱真實(shí)信念低34.3%。相較第一人稱真實(shí)信念,較老的模型(GPT-4o發(fā)布前)識(shí)別第一人稱虛假信念的概率平均低38.6%。
團(tuán)隊(duì)指出,LLM往往選擇在事實(shí)上糾正用戶而非識(shí)別出信念。在識(shí)別第三人稱信念(“Mary相信……”)時(shí),較新的LLM準(zhǔn)確性降低4.6%,而較老的模型降低15.5%。
研究總結(jié)說(shuō),LLM必須能成功區(qū)分事實(shí)與信念的細(xì)微差別及其真假,從而對(duì)用戶查詢作出有效回應(yīng)并防止錯(cuò)誤信息傳播。
熱門(mén)資訊 更多 >>
05-31
2024
亞馬遜研發(fā)支出領(lǐng)跑全球 科技巨頭創(chuàng)新競(jìng)賽日趨激烈
根據(jù)全球知名市場(chǎng)研究機(jī)構(gòu)Gartner最新發(fā)布的數(shù)據(jù),2023年全球企業(yè)研發(fā)支出總額達(dá)到3.1萬(wàn)億美元,同比增長(zhǎng)5.2%。其中,亞馬遜以...
08-15
2022
【媒體管家上海軟聞】國(guó)家級(jí)的媒體有哪些?哪些算中央媒體?
中央媒體名單 :嚴(yán)格意義上的中央媒體名單: 報(bào)紙類中央媒體:人民日?qǐng)?bào)、中國(guó)日?qǐng)?bào)、經(jīng)濟(jì)日?qǐng)?bào)、光明日?qǐng)?bào)、解放軍報(bào)、工人日?qǐng)?bào)、農(nóng)...
01-02
2025
2025年將建成“星座”一期覆蓋全球 吉利加速布局天地一體化出行生態(tài)
2024年12月下旬的一天,在穿上防護(hù)服、戴上頭套,通過(guò)防塵吹風(fēng)機(jī)后,記者終于進(jìn)入到位于浙江省臺(tái)州灣新區(qū)的吉利衛(wèi)星超級(jí)工廠,一...
01-26
2022
【行業(yè)動(dòng)態(tài)】2022第一季度延期展會(huì)通知匯總
中國(guó)國(guó)際縫制設(shè)備展覽會(huì)(CISMA)是全球最大的專業(yè)縫制設(shè)備展覽會(huì),展品包含了縫前、縫制、縫后各類機(jī)器以及CAD/CAM設(shè)...
03-21
2022
古鎮(zhèn)燈博會(huì)全球買(mǎi)家采購(gòu)行線上展升級(jí)啟幕
采購(gòu)盛宴聚勢(shì)云端,無(wú)縫助力廠商貿(mào)易。3月18日-4月18日,2022年古鎮(zhèn)燈博會(huì)全球買(mǎi)家采購(gòu)行線上展再次升級(jí)啟幕,在展網(wǎng)融合型B2B...
03-10
2022
重要通知|2022年3月全國(guó)展會(huì)延期匯總表
2022年3月全國(guó)展會(huì)延期匯總都有哪些?快來(lái)看看吧!上述展會(huì)信息僅供參考,由于今年疫情情況特殊,展會(huì)時(shí)間/地點(diǎn)會(huì)存在不確定因素,...
03-17
2022
服務(wù)貴州畜禽產(chǎn)業(yè)為宗旨,2022貴陽(yáng)國(guó)際畜產(chǎn)品及肉類工業(yè)展CIFPE
貴陽(yáng)國(guó)際畜產(chǎn)品及肉類工業(yè)展覽會(huì)(CIFPE)為推動(dòng)農(nóng)牧旅一體化發(fā)展,整合資源,深化農(nóng)牧旅融合,推動(dòng)生態(tài)畜牧業(yè)發(fā)展,打造無(wú)公...










