中國(guó)信通院?jiǎn)?dòng)AI大模型幻覺(jué)評(píng)測(cè),總體涉及五種測(cè)試維度

發(fā)布日期：2025-03-21

52 次

3 月 19 日消息，IT之家從中國(guó)信通院官方微信公眾號(hào)獲悉，為摸清大模型的幻覺(jué)現(xiàn)狀，推動(dòng)大模型應(yīng)用走深走實(shí)，中國(guó)信息通信研究院人工智能所基于前期的 AI Safety Benchmark 測(cè)評(píng)工作，發(fā)起大模型幻覺(jué)測(cè)試。

大模型幻覺(jué)（AI Hallucination）是指模型在生成內(nèi)容或回答問(wèn)題時(shí)，產(chǎn)生了看似合理，實(shí)則與用戶輸入不一致（忠實(shí)性幻覺(jué)）或者不符合事實(shí)（事實(shí)性幻覺(jué)）的內(nèi)容。隨著大模型在醫(yī)療、金融等關(guān)鍵領(lǐng)域廣泛應(yīng)用，大模型幻覺(jué)帶來(lái)的潛在應(yīng)用風(fēng)險(xiǎn)日益加劇，正得到業(yè)界的廣泛關(guān)注。

本輪幻覺(jué)測(cè)試工作將以大語(yǔ)言模型為測(cè)試對(duì)象，涵蓋了事實(shí)性幻覺(jué)和忠實(shí)性幻覺(jué)兩種幻覺(jué)類型，具體測(cè)評(píng)體系如下：

測(cè)試數(shù)據(jù)包含 7000 余條中文測(cè)試樣本，測(cè)試形式包括對(duì)應(yīng)于忠實(shí)性幻覺(jué)檢測(cè)的信息抽取與知識(shí)推理兩類題型，以及對(duì)應(yīng)事實(shí)性幻覺(jué)檢測(cè)的事實(shí)判別題型。總體涉及人文科學(xué)、社會(huì)科學(xué)、自然科學(xué)、應(yīng)用科學(xué)和形式科學(xué)五種測(cè)試維度。

中國(guó)信通院邀請(qǐng)各相關(guān)企業(yè)參與模型測(cè)評(píng)，共同推動(dòng)大模型安全應(yīng)用。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題，請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：020-2204 2442,郵箱：Sales@greentest.com.cn。

上一篇: 我國(guó)科學(xué)家攻克超低溫量子接口技術(shù)
下一篇: 深度剖析柵極驅(qū)動(dòng)器IC在半橋拓?fù)潆娫崔D(zhuǎn)換中的選型指南與隔離設(shè)計(jì)

為您精選

北電數(shù)智政務(wù)大模型助力打造更加安全高效政務(wù)服務(wù)體系

當(dāng)前，人工智能技術(shù)正以破竹之勢(shì)推動(dòng)政務(wù)服務(wù)體系數(shù)智化升級(jí)。IDC數(shù)據(jù)顯示，中國(guó)人工智能在政府領(lǐng)域的應(yīng)用滲透度已達(dá)52%，位···

更新日期：2025-03-06 152 次
華為發(fā)布新一代全閃分布式存儲(chǔ) 業(yè)界最高密、最低功耗

3月4日消息，在昨日的巴塞羅那MWC25上，華為發(fā)布AI-Ready的數(shù)據(jù)存儲(chǔ)，助力運(yùn)營(yíng)商全面擁抱AI時(shí)代。據(jù)官方介紹，AI-Ready的數(shù)據(jù)···

更新日期：2025-03-04 90 次
Marvell宣布推出首款2nm芯片,基于臺(tái)積電N2，支持AI XPU、交換機(jī)開(kāi)發(fā)

3 月 4 日消息，Marvell美滿電子當(dāng)?shù)貢r(shí)間昨日公布了其首款2nmIP 驗(yàn)證芯片。該芯片采用臺(tái)積電N2 制程，是 Mavell 基于該節(jié)點(diǎn)開(kāi)···

更新日期：2025-03-04 101 次
藍(lán)牙連接技術(shù)成為了人工智能/機(jī)器學(xué)習(xí)驅(qū)動(dòng)智能指環(huán)的首選

傳統(tǒng)的可穿戴設(shè)備取得了巨大成功，使得其后面世的智能指環(huán)受到早期采用者的熱烈追捧，成為了最前沿、最時(shí)尚的健康和健身無(wú)線···

更新日期：2025-03-03 137 次
OpenAI推出首個(gè)智能體Operator

當(dāng)?shù)貢r(shí)間 1 月 23 日，OpenAI正式推出了其首款 AI 智能體Operator。它可以通過(guò)自帶的瀏覽器獨(dú)立瀏覽網(wǎng)頁(yè)，并通過(guò)鍵入、單擊和···

更新日期：2025-01-24 350 次