我們擅長商業(yè)策略與用戶體驗(yàn)的完美結(jié)合。
歡迎瀏覽我們的案例。
IT之家 8 月 7 日消息,科羅拉多大學(xué)博爾德分校的研究人員在《計(jì)算語言學(xué)協(xié)會研究發(fā)現(xiàn)》上發(fā)表了一篇論文,揭示了大型語言模型(LLM)在解決數(shù)獨(dú)問題時(shí)的局限性,尤其是其在解釋決策過程中的不足。
研究人員發(fā)現(xiàn),即使是相對簡單的 6×6 數(shù)獨(dú),大多數(shù)大型語言模型在沒有外部輔助工具的情況下也難以解決。這一現(xiàn)象反映出 LLM 在邏輯推理方面的短板。數(shù)獨(dú)的本質(zhì)并非數(shù)學(xué)運(yùn)算,而是一種符號邏輯游戲,需要從整體出發(fā),找到符合邏輯的解題順序,而 LLM 往往會按照訓(xùn)練數(shù)據(jù)中類似情況的模式,逐個(gè)填充空缺,這種逐個(gè)推理的方式難以應(yīng)對數(shù)獨(dú)的復(fù)雜邏輯。
而且,當(dāng)研究人員要求這些模型展示解題過程時(shí),結(jié)果令人失望。大多數(shù)情況下,模型無法準(zhǔn)確、透明地解釋其決策過程。有時(shí)它們會給出看似合理的解釋,但這些解釋并不符合實(shí)際的解題步驟;有時(shí)甚至?xí)o出與問題完全無關(guān)的回答,例如在一次測試中,OpenAI 的 o4 推理模型在被問及數(shù)獨(dú)問題時(shí),突然開始談?wù)摰し鸬奶鞖忸A(yù)報(bào)。
科羅拉多大學(xué)計(jì)算機(jī)科學(xué)教授阿舒托什?特里維迪(Ashutosh Trivedi)指出,如果生成式 AI 工具不能準(zhǔn)確、透明地解釋其決策過程,那么隨著我們越來越多地將生活和決策權(quán)交給這些工具,就必須保持謹(jǐn)慎。他強(qiáng)調(diào):“我們希望這些解釋能夠透明地反映 AI 做出決策的原因,而不是 AI 為了迎合人類而提供人類可能喜歡的解釋。”
IT之家注意到,這種解釋能力的缺失并非僅在數(shù)獨(dú)問題上體現(xiàn)。研究人員還發(fā)現(xiàn),LLM 在其他邏輯游戲(如國際象棋和漢諾塔問題)中也存在類似問題。以國際象棋為例,LLM 雖然能夠找到合理的下一步棋,但往往無法像人類高手那樣提前規(guī)劃多步棋局,甚至有時(shí)會違反規(guī)則移動(dòng)棋子,導(dǎo)致局面陷入混亂。
此外,研究人員還指出,解釋能力對于 AI 的應(yīng)用至關(guān)重要。隨著 AI 在駕駛、稅務(wù)處理、商業(yè)決策和重要文件翻譯等領(lǐng)域的應(yīng)用逐漸增加,其解釋能力將成為衡量其可靠性的關(guān)鍵因素。特里維迪教授警告說:“如果 AI 的解釋是為了錯(cuò)誤的原因而進(jìn)行的,那么這種解釋就非常接近于操縱。我們必須非常謹(jǐn)慎地對待這些解釋的透明度。”