首頁
黨政
- 黨網(wǎng) · 時政
- 人事
- 反腐
- 理論
- 黨史
- 黨建
要聞
觀點
互動
可視化
地方
- 京
- 津
- 冀
- 晉
- 蒙
- 遼
- 吉
- 黑
- 滬
- 蘇
- 浙
- 皖
- 閩
- 贛
- 魯
- 豫
- 鄂
- 湘
- 粵
- 桂
- 瓊
- 渝
- 川
- 黔
- 滇
- 藏
- 陝
- 甘
- 青
- 寧
- 新
- 鵬
- 雄安
民文
English
合作網(wǎng)站
舉報專區(qū)
登錄

退出

人民網(wǎng)>>教育

AI大模型加速落地 “新藍?！比绾伍_拓

2024年08月05日08:17 | 來源：光明日報

小字號

原標題：AI大模型加速落地 “新藍海”如何開拓

雲(yún)南昆明，觀眾在第八屆南博會上等待AI機器人制作素描畫像。新華社發(fā)

工作人員在湖北武漢一家AI智慧產(chǎn)業(yè)園的展示中心內(nèi)工作。新華社發(fā)

當前，生成式人工智能技術(shù)在多個領(lǐng)域展現(xiàn)出廣泛的應(yīng)用潛力，逐漸成為科技領(lǐng)域的關(guān)注焦點。

國家互聯(lián)網(wǎng)信息辦公室最新數(shù)據(jù)顯示，截至目前，我國已經(jīng)完成備案並上線、能為公眾提供服務(wù)的生成式人工智能服務(wù)大模型已達180多個，注冊用戶突破5.64億。

大模型如何進一步賦能千行百業(yè)？今后還需要在哪些方面重點發(fā)力？本期，我們邀請專家學者就生成式人工智能發(fā)展過程中遇到的難點問題和未來發(fā)展趨勢進行探討，為讀者呈現(xiàn)這一領(lǐng)域的最新動態(tài)。

本期嘉賓：

清華大學新聞與傳播學院教授陳昌鳳

中央財經(jīng)大學法學院教授朱曉峰

上海交通大學人工智能學院教授嚴駿馳

大模型是通向通用人工智能的路徑嗎？

記者：有人說，大模型改變了人類對於整個世界的認知方式，讓我們看到了實現(xiàn)通用人工智能的路徑。您對這個觀點怎麼看？

朱曉峰：相較於傳統(tǒng)的人工智能，以大模型為核心的人工智能具有自主生成能力，不再是人類工程師教它什麼，它會什麼，而是在一定程度上像人類一樣具有了自主學習和輸出能力，可以從事那些人類工程師未事先賦予其相應(yīng)能力的工作。這與通用人工智能的方向具有一致性。一般認為，通用人工智能具備三個關(guān)鍵特征，分別是自主定義任務(wù)、完成無限任務(wù)以及由價值驅(qū)動。雖然現(xiàn)有的生成式人工智能還不具備其中的任何一個特征，但大模型的出現(xiàn)和迅速發(fā)展，使我們看到了實現(xiàn)通用人工智能的可能道路。從這個意義上講，這個判斷是準確的。

嚴駿馳：大模型技術(shù)正在以驚人的速度重塑我們對世界的認知，並為未來的智能技術(shù)開辟了廣闊的前景。這些技術(shù)通過處理和分析大量數(shù)據(jù)，展現(xiàn)出了令人矚目的智能特性。然而，要實現(xiàn)真正的通用人工智能，我們可能還需要更深入的理解和更復雜的技術(shù)創(chuàng)新。

一方面，我們要知道大模型的“智能”並不是真正意義上的“智能”。當前的大型模型雖然在規(guī)模上達到了前所未有的水平，但它們的智能層次仍有局限性。這些模型能夠執(zhí)行特定的記憶任務(wù)，然而，真正的智能遠不止於此。它涉及復雜的因果推理、邏輯思維等高級認知能力，這些是目前大模型所缺乏的關(guān)鍵要素。要實現(xiàn)通用人工智能，我們必須超越這些局限，模擬出更接近人類智能的全面認知能力。

另一方面，我們需要了解實現(xiàn)真正“智能”的關(guān)鍵所在。大模型的智能程度高度依賴於數(shù)據(jù)和計算資源，這種依賴導致它們的智能更多是基於統(tǒng)計和記憶，而非深刻的理解或創(chuàng)造性。真正的智能應(yīng)該能夠識別和糾正現(xiàn)有知識的不足，並有能力探索和創(chuàng)造新知識。這是目前大模型所未能觸及的領(lǐng)域，也是未來智能技術(shù)發(fā)展的關(guān)鍵所在，我們還需要創(chuàng)新的算法和更深層次的認知理解。

大模型技術(shù)的發(fā)展為我們展示了實現(xiàn)通用人工智能的潛在路徑，未來的智能技術(shù)發(fā)展將依賴我們在認知模型、算法創(chuàng)新和倫理研究等方面的持續(xù)努力和探索。

陳昌鳳：反過來說，是人類的認知革命驅(qū)動了大模型的誕生。大模型是科學發(fā)展與哲學變遷的產(chǎn)物。牛頓經(jīng)典力學理論帶動了自然科學的第一次大發(fā)展，催生了與之相適應(yīng)的哲學思維——整個宇宙是機械運動的結(jié)果，生命乃至人類也可被看作機器，生命運動可以用機械運動去解釋了。

從20世紀中期開始，伴隨著生物學和計算機科學的發(fā)展，人們嘗試以計算的抽象思維去認識和把握世界。人工智能的奠基者圖靈把人的大腦看作離散態(tài)的機器，論証認為人類心靈活動實質(zhì)上是信息處理過程。計算機的奠基人馮·諾依曼提出細胞自動機的理論，認為生命的本質(zhì)是計算的過程，此后更多的研究用計算思維來認識和理解生命，將生命的過程還原為計算的過程。

認知科學由此也掀起了變革熱潮。人類智能的可計算性是基礎(chǔ)，認知計算主義認為，人類大腦和計算機都被看作一套處理符號的形式系統(tǒng)，人類的計算、感知和認知等智能行為，都可以被數(shù)據(jù)化、符號化，成為計算機模擬、處理的對象。這些都是人工智能發(fā)展的理論基礎(chǔ)。在嘗試了不同的路徑之后，辛頓等科學家研究出了深度學習、神經(jīng)網(wǎng)絡(luò)系統(tǒng)，從而驅(qū)動了這一輪大模型的誕生。可以肯定的是，這一場技術(shù)變革將帶來更深層次的認知變革，將進一步破解人類的思維密碼。

高質(zhì)量中文語料短缺難題如何破解？

記者：目前普遍認為，大模型技術(shù)的發(fā)展仍面臨諸多挑戰(zhàn)，其中最突出的問題之一是數(shù)據(jù)支持的不足，尤其是高質(zhì)量的中文語料短缺，難以支撐算法模型的持續(xù)迭代和優(yōu)化。這個問題如何破解？

陳昌鳳：當前，國際最先進的大模型幾乎已經(jīng)“學完”了人類已有的可獲得的數(shù)字化文獻。有研究指出，根據(jù)2023年數(shù)據(jù)消耗速度，高質(zhì)量語言數(shù)據(jù)將在2026年前被耗盡，低質(zhì)量語言數(shù)據(jù)將在2030年至2050年被耗盡﹔視覺數(shù)據(jù)將在2030年至2060年被耗盡。

國際上，文本數(shù)據(jù)使用殆盡，而數(shù)據(jù)流通與版權(quán)保護形成的矛盾也限制了大模型的數(shù)據(jù)可使用性。已經(jīng)有很多信息巨頭公司正在將視覺化信息、音頻類信息轉(zhuǎn)為可訓練的文本數(shù)據(jù)。有消息指出，大量轉(zhuǎn)錄的音頻數(shù)據(jù)已經(jīng)用於模型訓練，不少“合成數(shù)據(jù)”也已經(jīng)開始受到青睞。

中文數(shù)據(jù)方面確實存在先天不足。一方面，在上世紀末的數(shù)字化浪潮中，中文領(lǐng)域?qū)?shù)字化的重視和投入均不足，初期的數(shù)字化信息質(zhì)量也參差不齊，欠缺再利用的價值﹔另一方面，網(wǎng)絡(luò)信息存儲和數(shù)據(jù)化建設(shè)均難與技術(shù)發(fā)展相同步、相匹配。此外，迄今引進的部分數(shù)據(jù)庫，帶著固有的價值觀烙印。亡羊補牢，為時未晚。如果從頂層設(shè)計部署到實踐落實能夠重視、彌補，相信仍有意義。

嚴駿馳：在大模型技術(shù)發(fā)展的道路上，高質(zhì)量中文語料的短缺問題日益凸顯，成為制約技術(shù)迭代和優(yōu)化的重要因素。為解決這一挑戰(zhàn)，可以通過以下措施來提升中文語料的質(zhì)量和可用性：

一是挖掘和整合國內(nèi)中文資源。我國擁有龐大的中文報紙、期刊、網(wǎng)站和App資源，這些都是構(gòu)建高質(zhì)量中文語料庫的重要基礎(chǔ)。例如，中國的報紙種類繁多，App市場活躍，國家圖書館的中文藏書也極為豐富。我們需要深入挖掘和整合這些資源，以提升中文語料的質(zhì)量和多樣性。

二是加強數(shù)據(jù)合規(guī)監(jiān)管。政府部門和監(jiān)管機構(gòu)需要建立相應(yīng)的監(jiān)管機制，以確保人工智能領(lǐng)域的數(shù)據(jù)合規(guī)。這包括對大模型的數(shù)據(jù)採集來源、處理方法以及合規(guī)性進行監(jiān)督和審查。同時，我們還需建設(shè)集中的數(shù)據(jù)共享平臺，在保証數(shù)據(jù)合規(guī)的前提下，增強中文數(shù)據(jù)的可用性，以推動大模型技術(shù)的發(fā)展，同時保障各方的合法權(quán)益。

朱曉峰：還有兩點也很重要。一是建立統(tǒng)一的中文語料庫編碼規(guī)范標準，提高中文語料數(shù)據(jù)的可使用性。我國目前的中文語料庫的國家標準有《信息處理用現(xiàn)代漢語分詞規(guī)范》《信息處理用現(xiàn)代漢語詞類標記規(guī)范》等，但這些只是作為推薦性標準，行業(yè)採用率不高。實踐中不同中文語料庫採用不同的編碼規(guī)范標準，形成了語料庫之間的異構(gòu)性，數(shù)據(jù)資源之間難以相互轉(zhuǎn)換，同時導致重復建設(shè)。對此，考慮到元數(shù)據(jù)標準規(guī)范是中文語料庫標準規(guī)范中最有條件、最容易實行的規(guī)范，可以依據(jù)這一規(guī)范，建設(shè)相應(yīng)的中文語料庫。

二是建立Web檢索，搭建由國家、省市圖書館和各高校圖書館主導的中文語料庫資源共享平臺，推動中文語料庫共享進程。Web檢索為語料庫的訪問提供了便利，但在實際應(yīng)用中，尤其是對於語言信息處理研究和人工智能的使用來說，往往需要獲取語料庫的全文或特定子庫的內(nèi)容，這就對現(xiàn)有的Web檢索系統(tǒng)提出了更高的要求，即需要建立更加廣泛、全面且易於使用的中文語料庫資源，以便滿足這些高級需求。這意味著在現(xiàn)有Web檢索技術(shù)的基礎(chǔ)上，還需要不斷優(yōu)化和完善語料庫的組織結(jié)構(gòu)、檢索方式以及用戶界面等，以提高語料庫資源的可訪問性和易用性。

大模型的“新藍?！痹谀难e？

記者：目前，大模型已經(jīng)在自動駕駛、醫(yī)療健康等領(lǐng)域展現(xiàn)出巨大潛力。未來，大模型可能會在哪些領(lǐng)域開拓出新的“藍?！笔袌?？

陳昌鳳：大模型橫空出世不足兩年，一些“大模型”已經(jīng)朝著“小模型”的方向轉(zhuǎn)變，比如著力於開拓垂類應(yīng)用模型——教育類、金融類、政務(wù)服務(wù)類、媒體類、醫(yī)療健康類等，並取得了可見的成效。一些可能朝著更細化的AI Agent（智能體）應(yīng)用方向發(fā)展。目前一些人工智能產(chǎn)業(yè)正從應(yīng)用層中尋求創(chuàng)新和價值。

嚴駿馳：現(xiàn)階段，我國生成式人工智能的應(yīng)用主要聚焦於醫(yī)療、汽車、教育、金融、文化等消費級場景，但在高精尖領(lǐng)域，如自動化定理証明、電路芯片設(shè)計、科學文檔理解和發(fā)現(xiàn)以及圖表理解等方面，大模型技術(shù)的應(yīng)用潛力尚未得到充分開發(fā)。這些領(lǐng)域?qū)都夹g(shù)的要求更高，同時也具有更大的創(chuàng)新空間。

大模型技術(shù)在數(shù)學和邏輯推理方面有很大的潛力。通過處理和分析大量的數(shù)學和邏輯數(shù)據(jù)，大模型可以輔助自動化定理証明，提高証明過程的效率和準確性。例如，大模型可以輔助証明復雜的數(shù)學定理，幫助數(shù)學家解決一些長期未解的問題。此外，大模型還可以輔助自動化推理，例如在編程語言和形式化驗証中的應(yīng)用，從而提高軟件開發(fā)和系統(tǒng)設(shè)計的效率和質(zhì)量。

大模型技術(shù)在芯片設(shè)計領(lǐng)域也值得關(guān)注。通過引入大模型技術(shù)，可以優(yōu)化設(shè)計工作流程，縮短設(shè)計時間，並優(yōu)化功耗、性能和面積。這不僅提高了設(shè)計效率，還幫助開發(fā)者解決整個系統(tǒng)堆棧中的復雜問題。此外，大模型還可以協(xié)助完成一些重復性的探索工作，幫助開發(fā)者更快達成目標，如優(yōu)化測試周期、提高覆蓋率並最小化測試向量數(shù)量等。

大模型技術(shù)在科學文獻分析方面的應(yīng)用也顯示出巨大潛力。通過處理和分析大量的科學文獻數(shù)據(jù)，大模型可以幫助科學家更好地理解和發(fā)現(xiàn)科學知識。例如，大模型可以輔助科學家從大量的科學文獻中提取關(guān)鍵信息，發(fā)現(xiàn)新的科學關(guān)聯(lián)和趨勢，從而推動科學研究的進展。此外，大模型還可以輔助科學文獻的自動分類和索引，提高科學文獻的檢索效率和準確性。

在大模型技術(shù)的發(fā)展中，圖表理解領(lǐng)域的研究也值得期待。大模型技術(shù)能夠幫助理解和分析圖表數(shù)據(jù)，提取關(guān)鍵信息，並應(yīng)用於各種領(lǐng)域，如市場分析、金融預測等。這種技術(shù)的應(yīng)用能夠提高數(shù)據(jù)分析和決策制定的效率和準確性。

朱曉峰：大模型技術(shù)的特性和產(chǎn)業(yè)發(fā)展的要求決定了其需要大規(guī)模和長周期的投入和布局。在此過程中，我們不僅要尊重市場規(guī)律，肯定企業(yè)自身的努力，更要充分發(fā)揮國家層面的引導作用。例如在大模型基礎(chǔ)設(shè)施建設(shè)、產(chǎn)業(yè)引導等方面，做出更多政策上面的引導和支持。

同時，在一些特定領(lǐng)域，如醫(yī)療、生命科學、數(shù)字城市等，我國擁有獨特的優(yōu)勢。應(yīng)當充分利用並發(fā)揮這些優(yōu)勢，通過大模型來驅(qū)動創(chuàng)新，從而帶動人工智能產(chǎn)業(yè)的全面發(fā)展進步。（記者方曲韻）

(責編：李昉、郝孟佳)

分享讓更多人看到

人民日報報系

旗下網(wǎng)站

創(chuàng)新服務(wù)平臺

AI大模型加速落地 “新藍?！比绾伍_拓

客戶端下載

熱門排行

人民日報報系

旗下網(wǎng)站

創(chuàng)新服務(wù)平臺

AI大模型加速落地 “新藍?！比绾伍_拓

客戶端下載

熱門排行

AI大模型加速落地 “新藍?！比绾伍_拓