99在线精品66视频无码,韩国丰满一级毛片免费,特级无码毛片免费视频播放

您當(dāng)前的位置:首頁 > 文化 > 評論光明網(wǎng)評論員：AI作答高考卷，測出了什么？

2024-06-25 16:58:23來源：光明網(wǎng)

分享到：

字體：【大中小】

　　光明網(wǎng)評論員：大模型作答高考卷，一個有意思的實驗: 2024年全國高考結(jié)束后，上海人工智能實驗室的司南評測體系（Open Compass）選取了包括GPT-4o在內(nèi)的中外6個開源模型，針對高考全國新課標(biāo)I卷“語數(shù)外”三門課程進行了全卷能力測試。結(jié)果顯示，阿里巴巴的Qwen2-72B語文成績奪冠，124分；GPT-4o英語成績居首（似毫無疑問），111分。6個大模型均是數(shù)學(xué)“學(xué)渣”，最高分也沒有超過80分。

　　大模型在高考季刷一下話題，很有趣，因為信息披露有限，也不必得出一些可以較真的結(jié)論。只是在測評中，也有一些大模型訓(xùn)練的蛛絲馬跡可以捕捉，助人們更豐富地理解AI。

　　比如，6個模型在語文卷中現(xiàn)代文閱讀部分得分差距不大，卻在文言文考題中差距極大，墊底的是來自法國Mistral的對話模型。這可以略窺不同模型在訓(xùn)練材料中的語言占比，感受一下歐洲大模型對漢語訓(xùn)練材料的看重程度到底幾何。

　　比如，閱卷老師表示，多數(shù)模型無法理解“本體”“喻體”“暗喻”等語文概念，寫作文不像寫作文，更像問答題。這是因為AI輸出本質(zhì)上是一種基于數(shù)據(jù)的模式匹配，而不是傳遞人的情感體驗，因此無法生成文章之為文章的那個情感紐帶，生成文章字里行間的“潛臺詞”，故而只有“回答”而不能“作文”。

　　比如，6個大模型都折戟數(shù)學(xué)，遠未達到及格水平。尤其耐人尋味的是，它們對數(shù)學(xué)主觀題目的回答“具有迷惑性”，甚至出現(xiàn)了過程錯誤但答案正確的情況。這句話說白了就是，大模型沒有足夠的邏輯推理能力，但在學(xué)到人類這個深度能力之前，它先學(xué)會了用數(shù)據(jù)占有優(yōu)勢撒謊，還可以編造復(fù)雜謊言。（見光明網(wǎng)評論員文章《你被人工智能騙過么》）

　　實際上，“語數(shù)外”三科閱卷老師在整體點評時都提到了主觀題的問題，除了語文數(shù)學(xué)上述問題之外，英語閱卷人也提出了大模型的作文超字問題——英語已經(jīng)是三科中客觀性最強的科目。這意味著，大模型在處理復(fù)雜上下文時可能會遇到困難，難以準(zhǔn)確理解多義性、歧義性和語境變化。而這種多義性與歧義性，以及兼縱理性與情感的處理要求，恰恰是今天大模型們要進軍的醫(yī)療、司法等領(lǐng)域決策過程的特征。

　　在現(xiàn)實世界里，高考是選拔賽，也是成人禮。綜合理解卷面上的問題與背后的考察意圖，是“人”成熟的一個標(biāo)識，繼續(xù)社會化的重要準(zhǔn)備。大模型“參加”這次高考，作為一個黑盒模型，決策過程難以解釋，面對稍微復(fù)雜一點的語境，調(diào)試性又明顯不足，看來還沒到說成熟的時候。

責(zé)任編輯：胡睿琳

關(guān)注公眾號，隨時閱讀陜西工人報

新聞推薦

国产AⅤ一区二区,欧美黄色一区二区色视频,中文无码乱人伦中文视频播放,久久久久久久久久播

央廣網(wǎng)評長安三萬里被批不符史實：討論不能越界成罵戰(zhàn)

四川省總工會：“員工因加班懟領(lǐng)導(dǎo)”事發(fā)去年正在調(diào)查

筑牢新就業(yè)形態(tài)法治屏障

2023新年社論致每一個活成自己英雄的你

工人日報：拒絕網(wǎng)絡(luò)賭球每個人都要做自己的“守門員”

国产AⅤ一区二区,欧美黄色一区二区色视频,中文无码乱人伦中文视频播放,久久久久久久久久播

央廣網(wǎng)評長安三萬里被批不符史實：討論不能越界成罵戰(zhàn)

四川省總工會：“員工因加班懟領(lǐng)導(dǎo)”事發(fā)去年 正在調(diào)查

筑牢新就業(yè)形態(tài)法治屏障

2023新年社論 致每一個活成自己英雄的你

工人日報：拒絕網(wǎng)絡(luò)賭球 每個人都要做自己的“守門員”

四川省總工會：“員工因加班懟領(lǐng)導(dǎo)”事發(fā)去年正在調(diào)查

2023新年社論致每一個活成自己英雄的你

工人日報：拒絕網(wǎng)絡(luò)賭球每個人都要做自己的“守門員”