青草国产精品,欧美91在线|欧美,国产91精品对白在线播放,免费观看不卡av

中國西藏網 > 即時新聞 > 時政

大模型發展亟需高質量“教材”相伴

發布時間:2024-01-19 10:29:00來源: 科技日報

  科技日報記者 羅云鵬

  1月5日,美國人工智能公司OpenAI表示,正在與數十家出版商洽談達成文章授權協議,以獲取內容來訓練其人工智能模型。2023年12月27日,《紐約時報》起訴OpenAI和微軟公司,指控這兩家公司未經許可使用其數百萬篇文章訓練人工智能模型。而早在2023年3月,就有消息顯示谷歌Bard模型的部分訓練數據來源于ChatGPT。

  這些事件劍指同一個問題——大模型高質量語料短缺。“對于從頭開始訓練的模型,語料短缺會在非常大的程度上限制大模型發展。”近日,哈爾濱工業大學(深圳)計算機科學與技術學院教授邵睿在接受科技日報記者采訪時說:“增加語料對于提升大模型能力的邊際效益正在減弱,高質量語料的缺乏正日益成為限制大模型發展的瓶頸。”

  大模型訓練語料短缺問題嚴重

  科技部新一代人工智能發展研究中心2023年發布的《中國人工智能大模型地圖研究報告》顯示,從全球已發布的大模型數量來看,中國和美國大幅領先,占全球總數的80%以上。

  雖然大模型發展如火如荼,但大模型高質量語料短缺已成為全球共性問題。公開資料顯示,大模型對數據供給要求極高。比如,訓練GPT-4和Gemini Ultra大概需要4萬億至8萬億個單詞。麻省理工學院等高校研究人員預測,到2026年之前,機器學習數據集可能會耗盡所有可用的高質量語料數據。研究機構EpochAI亦公開表示,最早在2024年,人類就可能會陷入訓練數據荒,屆時全世界的高質量訓練數據都將面臨枯竭。OpenAI也公開表達過對數據告急的擔憂。

  值得注意的是,當前大模型數據集主要為英文。中文語料面臨的短缺問題更加嚴峻。

  中國工程院院士、鵬城實驗室主任高文曾公開表示,全球通用的50億大模型數據訓練集里,中文語料占比僅為1.3%。

  上海數據交易所市場發展部副總經理章健此前公開表示,當前大模型行業存在語料供應不足的問題,特別是在垂直細分領域,一些共享、免費下載的語料數量雖然大,質量卻不高。“我們在追求語料數量增長的同時,也要重視質量。”章健說。

  高質量語料應具備七大特征

  那么,何為高質量語料?記者采訪時,包括騰訊、商湯科技、哈爾濱工業大學(深圳)等企業和高校專業人士均給出一致答案:高質量語料應具備多樣性、大規模、合法性、真實性、連貫性、無偏見和無害等七大特征。

  邵睿表示,高質量語料應具有多樣性高、句式流暢的特點。騰訊機器學習平臺算法負責人康戰輝認為,語料的多樣性是保證語料質量的基礎,要通過不同的途徑采集新聞、小說、詩歌、科技文章等不同類型的語料。這有助于大模型學習到更豐富的語言表達。

  同時,高質量語料要具有較大規模,因為大模型需要大量語料來學習語言規律并提高泛化能力。只有擁有充足的語料,大模型才能更好地捕捉細微的語言特征。

  此外,高質量語料應是合法且無害的。不合法或有害的語料可能導致模型產生不恰當的回答或建議,或無意中泄露他人隱私。

  “高質量語料還應該具有真實性和連貫性,以便讓大模型更好地理解語境并生成符合邏輯的回答。”康戰輝說,語料庫應該充分反映語料的多樣性并避免偏見,這樣大模型在不同場景下回答不同用戶的問題時才能做到盡可能科學客觀。

  完善相關機制提高語料質量

  記者在采訪中了解到,目前訓練大模型的語料有一部分是從數據公司購買的,也有一部分是從網絡公開語料或者公開數據集中獲取并整理的。“從數據公司購買的語料質量較高,并且大多是垂域數據,但其數據量較少且價格較貴。”邵睿說,“網絡公開語料通用性較好,數據量大,但數據質量無法保證,數據格式難以統一。”

  “人類產生的有效信息,包括大量高價值信息可能不一定是互聯網數據,而是沉散在各行各業里的數據。”商湯科技發言人說,“怎樣更多匯聚數據,設計更多、更好的網絡結構,用更多的計算資源去支撐更大容量的高質量語料,產生更強的智能,是一個至關重要的問題。”這位發言人認為,要解決語料問題,不僅要靠增加語料總量,還需要提高語料質量,甚至要考慮完善數據交換機制,推動人工智能數據基礎設施化。

  正如這位發言人所說,目前業界正在采取一些措施,推動數據交換機制的建設。記者梳理發現,2023年7月,深圳數據交易所聯合近50家單位成立開放算料聯盟。該聯盟將圍繞高質量中文訓練數據和多模態訓練數據,協調數據要素、數據治理、訓練數據、數據標注、合成數據等相關標準制定,協助數據交易所增加與大模型相關的新品類和新專區。

  同樣是2023年7月,在2023世界人工智能大會現場,中國大模型語料數據聯盟成立。同年8月,上海人工智能實驗室宣布,聯合中國大模型語料數據聯盟成員單位共同開源發布“書生·萬卷”1.0多模態預訓練語料。這次開源的數據總量超過2TB,包含超5億個文本、2200萬個圖文交錯文檔、1000個影像視頻。

  除了建設更為完善的體制機制,數據清洗等技術手段也能在一定程度上解決高質量語料短缺難題。但要看到,這些技術手段有較高門檻。商湯科技發言人透露,該公司在數據清洗的過程中投入了上千塊GPU的算力。OpenAI在無數場合介紹過GPT-4訓練的經驗,但從未公開過數據清洗的經驗。

(責編:李雨潼)

版權聲明:凡注明“來源:中國西藏網”或“中國西藏網文”的所有作品,版權歸高原(北京)文化傳播有限公司。任何媒體轉載、摘編、引用,須注明來源中國西藏網和署著作者名,否則將追究相關法律責任。

青草国产精品,欧美91在线|欧美,国产91精品对白在线播放,免费观看不卡av
蜜桃av一区| 婷婷六月综合| 欧美亚洲一级| 久久激五月天综合精品| 欧美午夜网站| 国产精品777777在线播放 | 99精品网站| 一本大道色婷婷在线| 99精品国产一区二区三区| 亚洲性图久久| 亚洲免费一区二区| 中文字幕av一区二区三区人| 日韩中出av| 国产日产精品_国产精品毛片 | 日韩区欧美区| 欧美aaaaaa午夜精品| 国产一区二区三区黄网站| 韩国三级一区| av不卡在线| 日韩高清欧美激情| 精品国产一区二区三区av片| 国产成人精品一区二区三区视频 | 日韩国产欧美三级| 国产精品一区亚洲| 超碰在线99| 99精品综合| 日韩在线黄色| 国产精品一区二区免费福利视频| 欧美日韩在线精品一区二区三区激情综合 | 久久亚洲美女| 亚洲婷婷免费| 蜜臀av国产精品久久久久| 日韩专区欧美专区| 日本午夜精品| 天堂av在线| 综合激情一区| 另类欧美日韩国产在线| 色婷婷久久久| 日韩精品一区二区三区免费视频| 国产一区二区精品久| 欧美aa国产视频| 日本欧美一区二区| 日本精品黄色| 伊人久久大香伊蕉在人线观看热v| 麻豆久久一区二区| 91精品99| 国产亚洲电影| av综合电影网站| 鲁大师成人一区二区三区| 国产午夜精品一区在线观看| 国产色播av在线| 蜜桃视频免费观看一区| 国产一区二区三区四区二区| 久热精品在线| 不卡一二三区| 欧美自拍一区| 欧美日韩国产高清电影| 国产日产精品_国产精品毛片 | 日韩精品麻豆| 奇米亚洲欧美| 久久在线免费| 国产精品亚洲综合色区韩国| 九九综合在线| 欧美黄色一区| 亚洲一区二区三区无吗| 国产一区调教| 亚洲精品少妇| 久久美女性网| 国产精品免费精品自在线观看| 激情久久五月| 精品久久久中文字幕| 日本亚州欧洲精品不卡| 精品在线91| 日本不良网站在线观看| 久久激情五月婷婷| 天堂av在线一区| 91一区二区三区四区| 亚洲+小说+欧美+激情+另类| 99久久婷婷这里只有精品| 国产精品麻豆成人av电影艾秋| 美女尤物久久精品| 日产精品一区| 国产激情久久| 日本久久一区| 狠狠色狠狠色综合日日tαg| 福利一区和二区| 国产欧美日韩在线观看视频| 亚洲免费影视| 色婷婷久久久| 视频在线不卡免费观看| 最新亚洲国产| 久久久久国产| 97精品国产福利一区二区三区| 久久国产乱子精品免费女| 免费日韩av片| 亚洲午夜av| 九色porny丨国产首页在线| 欧美国产视频| 日韩av二区在线播放| 先锋亚洲精品| av一区二区高清| 欧美成人基地 | 国产精品嫩模av在线| 伊人国产精品| 午夜精品网站| 久久久精品久久久久久96| 成人午夜毛片| 红杏一区二区三区| 久久女人天堂| 欧美国产另类| 久久av国产紧身裤| 久久99影视| 久久一区精品| 久久超级碰碰| 欧美激情aⅴ一区二区三区 | 在线中文字幕播放| 精品一区二区三区中文字幕在线| 蜜桃av一区二区在线观看| 欧美另类综合| 激情综合网站| 99在线精品视频在线观看| 伊人影院久久| 午夜亚洲一区| 人人爽香蕉精品| 中文不卡在线| 91成人在线精品视频| 国产精品最新| 电影91久久久| 日本在线精品| 亚洲婷婷在线| 国产精品社区| 亚洲精品进入| 日韩在线视频一区二区三区| 日本一区中文字幕| 久久国际精品| 久久久久亚洲精品中文字幕| 久久精品毛片| 亚洲综合在线电影| 午夜精品免费| 中文字幕一区二区av| 日韩精品免费视频一区二区三区| 国产日韩高清一区二区三区在线 | 精品91久久久久| 亚洲一区欧美| 国产精品手机在线播放| 国语对白精品一区二区| 日韩在线综合| 欧美日韩激情| 日本中文字幕视频一区| 国产精成人品2018| sm捆绑调教国产免费网站在线观看| 日韩一区电影| 亚洲一区二区三区高清| 日韩国产欧美在线视频| 国产精品巨作av| 高清日韩欧美| 亚州av乱码久久精品蜜桃| 少妇精品久久久| 精品视频一区二区三区在线观看| 97精品在线| 国产精品视区| 国产乱子精品一区二区在线观看| 麻豆成全视频免费观看在线看| 中文字幕在线视频久| 亚洲视频国产精品| 欧美亚洲人成在线| 亚洲精品少妇| 你懂的亚洲视频| 视频福利一区| 好吊视频一区二区三区四区| 中文字幕乱码亚洲无线精品一区| 国产欧美88| 99久久www免费| 日韩高清欧美激情| se01亚洲视频 | 国产麻豆久久| 视频一区中文字幕精品| 精品亚洲a∨| 欧美~级网站不卡| 久久国产精品色av免费看| 成人一区而且| 免费看黄色91| 国产中文字幕一区二区三区| 亚洲一区免费| 精品国产一区二区三区av片| 悠悠资源网久久精品| 国产精品一卡| 欧美高清不卡| 麻豆精品一区二区综合av| 99国产精品久久久久久久成人热| 久久成人高清| 蜜桃视频在线观看一区二区| 国产一区二区三区黄网站 | 国产精品一区二区三区四区在线观看| 精品丝袜在线| 国产精品手机在线播放| 亚洲黄色影院| 精品午夜av| 日韩精品一区二区三区免费视频| 99视频精品全部免费在线视频|