青草国产精品,欧美91在线|欧美,国产91精品对白在线播放,免费观看不卡av

中國西藏網(wǎng) > 即時(shí)新聞 > 國內(nèi)

解決AI“高分低能”需要升級的是考核機(jī)制

發(fā)布時(shí)間:2022-06-14 11:23:00來源: 科技日報(bào)

  解決AI“高分低能”需要升級的是考核機(jī)制

  目前部分人工智能沉迷刷榜,在基準(zhǔn)測試時(shí)高分通過,表現(xiàn)優(yōu)異,但實(shí)際應(yīng)用中卻還會犯一些非常基礎(chǔ)的錯(cuò)誤。

  ◎本報(bào)記者 華 凌

  近日,有媒體報(bào)道,目前部分人工智能沉迷刷榜,在基準(zhǔn)測試時(shí)高分通過,表現(xiàn)優(yōu)異,但實(shí)際應(yīng)用中卻還會犯一些非常基礎(chǔ)的錯(cuò)誤。這種沉迷刷榜,忽略實(shí)用性質(zhì)的行為造成了部分AI模型“高分低能”的現(xiàn)象。那么,對于AI發(fā)展而言,基準(zhǔn)測試是否必要?在實(shí)際應(yīng)用中,基準(zhǔn)測試哪些問題有待改進(jìn)完善呢?

  AI模型哪家好,基準(zhǔn)測試來說話

  AI模型應(yīng)該如何衡量其性能?

  “目前AI模型能力的高低取決于數(shù)據(jù),因?yàn)锳I的本質(zhì)是學(xué)習(xí)數(shù)據(jù),輸出算法模型。為了公平衡量AI能力,很多機(jī)構(gòu)、企業(yè)甚至科學(xué)家會收集、設(shè)計(jì)不同的數(shù)據(jù)集,其中一部分喂給AI訓(xùn)練,得到AI模型,另外一部分?jǐn)?shù)據(jù)用于考核AI模型的能力,這就是基準(zhǔn)測試。”近日,西安電子科技大學(xué)電子工程學(xué)院教授吳家驥接受科技日報(bào)記者采訪時(shí)表示。

  吳家驥介紹說,機(jī)器學(xué)習(xí)越來越多地用于各種實(shí)際應(yīng)用場景,例如圖像和語音識別、自動駕駛汽車、醫(yī)學(xué)診斷等。因此,了解其在實(shí)踐中的行為和性能變得非常重要。其魯棒性和不確定性的高質(zhì)量估計(jì)對于許多功能至關(guān)重要,尤其是在深度學(xué)習(xí)領(lǐng)域。為掌握模型的行為,研究人員要根據(jù)目標(biāo)任務(wù)的基線來衡量其性能。

  2010年,基于ImageNet數(shù)據(jù)集的計(jì)算機(jī)視覺競賽的推出,激發(fā)了深度學(xué)習(xí)領(lǐng)域一場算法與數(shù)據(jù)的革命。從此,基準(zhǔn)測試成為衡量AI模型性能的一個(gè)重要手段。微軟公司的計(jì)算機(jī)科學(xué)家馬塞洛·里貝羅表示,基準(zhǔn)測試應(yīng)該是從業(yè)者工具箱中的一個(gè)工具,人們用基準(zhǔn)來代替對于模型的理解,通過基準(zhǔn)數(shù)據(jù)集來測試“模型的行為”。

  例如,在自然語言處理領(lǐng)域,GLUE科研人員讓AI模型在包含上千個(gè)句子的數(shù)據(jù)集上訓(xùn)練,并在9個(gè)任務(wù)上進(jìn)行測試,來判斷一個(gè)句子是否符合語法,并分析情感,或者判斷兩個(gè)句子之間是否是邏輯蘊(yùn)涵等,一度難倒了AI模型。隨后,科研人員提高了基準(zhǔn)測試難度,一些任務(wù)要求AI模型不僅能夠處理句子,還要處理來自維基百科或新聞網(wǎng)站的段落后回答閱讀理解問題。僅經(jīng)過1年的發(fā)展,AI模型的性能從不到70分輕松達(dá)到90分,超越了人類。

  吳家驥表示:“科學(xué)研究要有科學(xué)問題、方法、計(jì)算、試驗(yàn)對比等要素。因此在進(jìn)行科學(xué)研究,包括人工智能的科研中,也必須有計(jì)算與試驗(yàn)對比,也就是說AI算法的能力應(yīng)該是可測量的,目的是驗(yàn)證研究方法的可行性、有效性。因此,基準(zhǔn)測試很有必要,這樣才可以公平驗(yàn)證AI算法能力的高低好壞,避免各說各話,‘王婆賣瓜自賣自夸’。”

  算法最終服務(wù)實(shí)踐,而非刷榜

  有人說,高分是AI模型的興奮劑。于是,有的人工智能為了取得好成績而頻頻刷榜。

  微軟公司2020年發(fā)布報(bào)告指出,包括微軟、谷歌和亞馬遜在內(nèi)的各種sota模型包含諸多隱含錯(cuò)誤,比如把句子里的“what's”改成“what is”,模型的輸出結(jié)果就會截然不同,而在此前,從沒有人意識到這些曾被評價(jià)還不錯(cuò)的商業(yè)模型竟會在應(yīng)用中如此糟糕。顯然,這樣訓(xùn)練出的AI模型就像一個(gè)只會考試、成績優(yōu)異的學(xué)生,可以成功通過科學(xué)家設(shè)置的各種基準(zhǔn)測試,卻不懂為什么。

  “為了獲得好成績,研究人員可能會使用特殊的軟硬件設(shè)置對模型進(jìn)行調(diào)整和處理,讓AI在測試中表現(xiàn)出色,但這些性能在現(xiàn)實(shí)世界中卻無法施展。”西安電子科技大學(xué)研究員尚坤指出。

  在智能手機(jī)領(lǐng)域,我們談及手機(jī)的使用體驗(yàn)時(shí)一般都不免會涉及手機(jī)的性能表現(xiàn),這些性能通常會用跑分成績來表現(xiàn)。然而,我們常常會遇到一款手機(jī)的跑分成績處于排行榜領(lǐng)先水平,但是在實(shí)際使用過程中卻出現(xiàn)動畫掉幀、頁面滑動卡頓、應(yīng)用假死等的現(xiàn)象。全球頂級評測網(wǎng)站AnandTech的一篇報(bào)道曾對這種現(xiàn)象提出質(zhì)疑,指出某品牌手機(jī)跑分時(shí)啟動了“性能模式”,而在平時(shí)的使用中“性能模式”很少被調(diào)用開啟。這種處理方式雖然能夠獲得高跑分,但是不能模擬用戶真實(shí)的使用情景,這讓基準(zhǔn)測試不具有參考意義。

  尚坤認(rèn)為,針對上述問題,改進(jìn)基準(zhǔn)的方法主要有:一種是增加更多的數(shù)據(jù)集,讓基準(zhǔn)變得更難。用沒有見過的數(shù)據(jù)測試,這樣才能判斷AI模型是否能夠避免過擬合。研究人員可創(chuàng)建一個(gè)動態(tài)數(shù)據(jù)收集和基準(zhǔn)測試平臺,針對每個(gè)任務(wù),通過眾包的方式,提交他們認(rèn)為人工智能模型會錯(cuò)誤分類的數(shù)據(jù),成功欺騙到模型的樣例被加入基準(zhǔn)測試中。如果動態(tài)地收集數(shù)據(jù)增加標(biāo)注,同時(shí)迭代式的訓(xùn)練模型,而不是使用傳統(tǒng)的靜態(tài)方式,AI模型應(yīng)該可以實(shí)現(xiàn)更實(shí)質(zhì)性的進(jìn)化。

  尚坤說,另一種是縮小實(shí)驗(yàn)室內(nèi)數(shù)據(jù)和現(xiàn)實(shí)場景之間的差距。基線測試無論分?jǐn)?shù)多高,還是要用實(shí)際場景下的數(shù)據(jù)來檢驗(yàn),所以通過對數(shù)據(jù)集進(jìn)行更貼近真實(shí)場景的增強(qiáng)和擴(kuò)容使得基準(zhǔn)測試更加接近真實(shí)場景。如ImageNet-C數(shù)據(jù)集,可根據(jù)16種不同的實(shí)際破壞程度對原有的數(shù)據(jù)集進(jìn)行擴(kuò)充,可以更好模擬實(shí)際數(shù)據(jù)處理場景。

  應(yīng)用廣泛,需盡快建立國家標(biāo)準(zhǔn)

  美國麻省理工學(xué)院Cleanlab實(shí)驗(yàn)室的研究指出,常用的10個(gè)作為基準(zhǔn)的數(shù)據(jù)集中,有超過3%的標(biāo)注是錯(cuò)誤的,基于這些基準(zhǔn)跑分的結(jié)果則無參考意義。

  “如果說,基準(zhǔn)測試堪稱人工智能領(lǐng)域的‘科舉制’,那么,‘唯分?jǐn)?shù)論’輸贏,是不可能訓(xùn)練出真正的好模型。要打破此種現(xiàn)象,一方面需要采用更全面的評估方法,另一方面可以考慮把問題分而治之,比如用多個(gè)AI模型解決復(fù)雜問題,把復(fù)雜問題轉(zhuǎn)化為簡單確定的問題。簡單且經(jīng)過優(yōu)化的基線模型往往優(yōu)于更復(fù)雜的方法。谷歌的研究人員為常見的AI任務(wù)引入了不確定性基線庫,來更好評估AI應(yīng)用的穩(wěn)健性和處理復(fù)雜不確定性的能力。”遠(yuǎn)望智庫人工智能事業(yè)部部長、圖靈機(jī)器人首席戰(zhàn)略官譚茗洲指出。

  雖然行業(yè)正在改變對于基準(zhǔn)的態(tài)度,但目前基準(zhǔn)測試研究仍然是一個(gè)小眾研究。谷歌在一份研究中采訪了工業(yè)界和學(xué)術(shù)界的53位AI從業(yè)者,其中許多人指出,改進(jìn)數(shù)據(jù)集不如設(shè)計(jì)模型更有成就感。

  譚茗洲表示,AI應(yīng)用基準(zhǔn)研究是構(gòu)建國內(nèi)統(tǒng)一大市場的內(nèi)在需要,當(dāng)前AI已經(jīng)在國計(jì)民生的各類領(lǐng)域中得到廣泛應(yīng)用,更需要設(shè)立標(biāo)準(zhǔn)對AI模型進(jìn)行全面有效的評估,片面追求和采用高分AI模型,可能會讓模型在復(fù)雜極端場景下出現(xiàn)“智障”行為,并且可能由于訓(xùn)練和推理性能的低效,造成不良社會影響、經(jīng)濟(jì)損失和環(huán)境破壞。

  譚茗洲強(qiáng)調(diào),AI應(yīng)用基準(zhǔn)研究關(guān)乎國家戰(zhàn)略。針對重要領(lǐng)域,建立我國自己的AI基準(zhǔn)測試標(biāo)準(zhǔn)、AI數(shù)據(jù)集、AI模型評估標(biāo)準(zhǔn)等迫在眉睫。

  據(jù)了解,西安電子科技大學(xué)的DvcLab也在AI基準(zhǔn)測試這個(gè)領(lǐng)域進(jìn)行了前瞻性研究,特別是針對AI應(yīng)用基準(zhǔn)測試中數(shù)據(jù)集的整體質(zhì)量與動態(tài)擴(kuò)展兩個(gè)關(guān)鍵問題,正在開發(fā)可在線協(xié)作的數(shù)據(jù)標(biāo)注與AI模型研發(fā)托管項(xiàng)目,并計(jì)劃今年陸續(xù)開源,正在為構(gòu)建國家AI基準(zhǔn)評估標(biāo)準(zhǔn)體系進(jìn)行積極探索。

(責(zé)編: 陳濛濛)

版權(quán)聲明:凡注明“來源:中國西藏網(wǎng)”或“中國西藏網(wǎng)文”的所有作品,版權(quán)歸高原(北京)文化傳播有限公司。任何媒體轉(zhuǎn)載、摘編、引用,須注明來源中國西藏網(wǎng)和署著作者名,否則將追究相關(guān)法律責(zé)任。

青草国产精品,欧美91在线|欧美,国产91精品对白在线播放,免费观看不卡av
国产精品av一区二区| 亚洲另类av| 91麻豆精品激情在线观看最新| 精品99久久| 欧美亚洲免费| 伊人影院久久| 日韩精品中文字幕第1页| 风间由美中文字幕在线看视频国产欧美| 香蕉精品999视频一区二区| 日韩视频久久| 黄页网站一区| 亚洲高清久久| 国语对白精品一区二区| 久久av免费看| 久久成人av| 香蕉久久久久久| 天堂成人免费av电影一区| 亚洲精品成人| 激情婷婷综合| 欧美99久久| 欧美亚洲国产精品久久| 日韩国产一区二区| 成午夜精品一区二区三区软件| 国产精品午夜av| 国产精品亚洲成在人线| 国产乱码精品一区二区亚洲| 91亚洲精品视频在线观看| 丝袜亚洲精品中文字幕一区| aa国产精品| 久久久久亚洲| 亚洲午夜精品久久久久久app| 欧美天堂视频| 日韩欧美在线中字| 色天使综合视频| 日本在线啊啊| 国产视频亚洲| 水野朝阳av一区二区三区| bbw在线视频| 欧美黄色网页| 欧美精品一卡| 欧美天堂一区二区| 久久中文字幕一区二区三区| 美女视频免费精品| 精品视频99| 国产成人免费精品| 精品一区三区| 亚洲另类黄色| 精品欠久久久中文字幕加勒比| 中文字幕色婷婷在线视频| 亚洲精品1区| 日韩欧美三区| 精品成av人一区二区三区| 久久久夜夜夜| 美女精品在线| 国产精品流白浆在线观看| 狠狠躁少妇一区二区三区| 亚洲欧美日韩高清在线| 中文字幕日韩高清在线| 日韩av一级片| 国产在线视频欧美一区| 黄色免费成人| 奇米777国产一区国产二区| 国产精品乱战久久久| 99精品一区| 日本一区二区中文字幕| 欧美天堂视频| 一区二区三区午夜视频| 色综合五月天| 婷婷精品在线| 久久三级毛片| 蜜桃91丨九色丨蝌蚪91桃色| 欧美激情福利| 欧洲av一区二区| 亚洲69av| av资源中文在线天堂| 亚洲理论在线| 精品国产一区二区三区性色av| 999久久久精品国产| 国产精品久久国产愉拍| 99久久婷婷| 伊人久久婷婷| 亚洲精品福利| www在线观看黄色| 91久久中文| 国产成人久久| 黄色aa久久| 国产乱码精品一区二区三区亚洲人| 亚洲美洲欧洲综合国产一区| 国产精品蜜芽在线观看| 三级欧美韩日大片在线看| 久久av中文| 丝袜美腿亚洲一区| 久久久久久久久丰满| 欧美一区在线观看视频| 伊人影院久久| 欧美国产精品| 99国产精品99久久久久久粉嫩| 国精品产品一区| 亚洲网址在线观看| 免费久久精品| 精品国产一区二区三区性色av| 国产一区白浆| 四虎8848精品成人免费网站| 日韩在线一区二区| 日本精品在线中文字幕| 国产精品任我爽爆在线播放| 亚洲欧洲一区| 91精品一区二区三区综合| 久久wwww| 国产精品夜夜夜| 丝袜脚交一区二区| 欧美日韩99| 日韩av中文在线观看| 欧洲激情综合| 亚洲午夜精品久久久久久app| 精品视频在线观看网站| 日韩在线观看一区二区| 亚洲成人国产| 久久男人av| 精品国产一区二区三区噜噜噜| 爽好多水快深点欧美视频| 久久国产精品免费一区二区三区| 爽好多水快深点欧美视频| 日本美女一区| 激情国产在线| 久久精品一本| 国产成人黄色| 亚洲日韩中文字幕一区| 黄色成人精品网站| 欧美成人基地 | 日韩av一区二区三区| 一区二区三区四区日韩| 在线精品视频在线观看高清| 蜜臀久久久久久久| 樱桃成人精品视频在线播放| 久久久一本精品| 99久久亚洲精品蜜臀| 97国产成人高清在线观看| 国产精品久久久久久久久久齐齐| 国产精品88久久久久久| 国产麻豆久久| yellow在线观看网址| 亚洲综合电影| 98精品久久久久久久| 麻豆国产精品| 国产精品久久久久av电视剧| 91视频一区| 国产精品一区亚洲| 国产福利亚洲| 麻豆国产91在线播放| 福利一区二区三区视频在线观看| 国产精品久久久久久久久久白浆| 国产精品一国产精品k频道56| 国产精品啊v在线| 日韩美女国产精品| 日韩精品久久理论片| 国产精品99久久免费| 国产经典一区| 亚洲精品乱码| 国产精品久久亚洲不卡| 欧美激情一区| 国产v日韩v欧美v| 亚洲美女久久精品| 亚洲天堂资源| 午夜一区在线| 一区二区精彩视频| 91精品国产自产观看在线| 久久久久久色| 国产一区 二区| 日韩不卡在线观看日韩不卡视频| 国产高清视频一区二区| 精品少妇一区| 91一区二区| 久久成人国产| 欧美日韩91| 久久不见久久见免费视频7| 日本久久精品| 99视频精品全部免费在线视频| 精品一区在线| 亚州精品视频| 精品视频99| 不卡中文字幕| 视频一区中文字幕精品| 国产精品一在线观看| 美女视频免费精品| 成人亚洲精品| 亚洲精品97| 麻豆精品新av中文字幕| 亚洲a在线视频| 蜜臀av国产精品久久久久| 久久激情五月婷婷| 国产成人a视频高清在线观看| 欧美日韩国产探花| 日本综合字幕| 亚洲一区中文| 国产精品亚洲成在人线| 午夜精品一区二区三区国产| 亚洲美女91| 亚洲乱码一区| 成人日韩在线|