中國儲(chǔ)能網(wǎng)訊:1、核心信息
在2024年,人工智能(AI)領(lǐng)域取得了顯著的進(jìn)展,但也面臨著挑戰(zhàn)。
AI在特定任務(wù)上超越了人類,如圖像分類和語言理解,但在更復(fù)雜的任務(wù)上仍有局限。
工業(yè)界在AI研究中發(fā)揮了主導(dǎo)作用,尤其在機(jī)器學(xué)習(xí)模型的產(chǎn)出上。
訓(xùn)練大型AI模型的成本不斷上升,例如GPT-4花了約7800萬美金的,Gimini花了約1.91億美金。
美國、中國和歐洲是AI模型的主要貢獻(xiàn)者,其中中國在AI專利方面領(lǐng)先。
AI模型的可靠性評估缺乏統(tǒng)一標(biāo)準(zhǔn),生成式AI投資激增,AI提高了工作者的效率和質(zhì)量,加速了科學(xué)和醫(yī)療的發(fā)展,美國AI相關(guān)條款發(fā)布數(shù)量急劇增加,全球?qū)I潛在影響的意識增強(qiáng),緊張情緒上升。
2、AI研究和發(fā)展
2.1 核心要點(diǎn)
AI研究繼續(xù)由工業(yè)界主導(dǎo),公開源碼的模型數(shù)量增加,訓(xùn)練成本上升,美國、中國和歐洲在AI大模型發(fā)展上占主導(dǎo)地位。中國在AI專利方面占據(jù)領(lǐng)先地位,GitHub上的AI研究資源和相關(guān)論文發(fā)表數(shù)量持續(xù)增長。
2.2 核心對比信息
從2010年到2022年,AI相關(guān)的論文發(fā)表數(shù)量逐年增加,美國在發(fā)布優(yōu)秀的機(jī)器學(xué)習(xí)模型數(shù)量上保持世界首位。
2.3 模型是否會(huì)用盡數(shù)據(jù)
AI模型的發(fā)展依賴于大量數(shù)據(jù),但有擔(dān)憂表示,計(jì)算機(jī)科學(xué)家可能很快就會(huì)用盡高質(zhì)量數(shù)據(jù)。盡管合成數(shù)據(jù)可以緩解這一問題,但使用合成數(shù)據(jù)訓(xùn)練的模型可能會(huì)出現(xiàn)性能下降。
2.4 基礎(chǔ)模型發(fā)展
基礎(chǔ)模型在廣泛的數(shù)據(jù)集上訓(xùn)練,具有多功能性,并適用于許多下游應(yīng)用。這些模型在實(shí)際場景中的部署越來越多,不同國家和組織在基礎(chǔ)模型的發(fā)布數(shù)量上有所不同。
2.5 訓(xùn)練模型成本
訓(xùn)練大型AI模型的成本不斷上升,達(dá)到數(shù)千萬美元甚至數(shù)億美元。這表明了AI領(lǐng)域在資源投入方面的增長。
3、技術(shù)性能
3.1 核心要點(diǎn)
AI在特定任務(wù)上超越了人類,多模態(tài)AI模型的出現(xiàn),如Google的Gemini和OpenAI的GPT-4,展示了處理圖像和文本信息的能力。新的benchmarks評估集的出現(xiàn),如SWE-bench和HEIM,以及人類評估的引入,如聊天機(jī)器人競技場排行榜,反映了AI技術(shù)性能的提升。
3.2 重要模型發(fā)布情況
2023年見證了多個(gè)重要AI模型的發(fā)布,包括Anthropic的Claude、OpenAI的GPT-4、Stability AI的Stable Diffusion v2等,這些模型在多項(xiàng)benchmarks中超越了人類水平。
3.3 AI表現(xiàn)情況
AI在圖像分類、英語理解和自然語言推理等任務(wù)中超越了人類,但在競賽數(shù)學(xué)、多語言理解和視覺常識推理等任務(wù)上仍有局限。
3.4 多學(xué)科、高難度評估集 (MMMU & GPQA & ARC)
新的評估集如MMMU、GPQA和ARC的出現(xiàn),旨在評估AI的多學(xué)科推理能力和抽象歸納能力。盡管AI模型在這些評估中取得了一定的成績,但與人類專家相比仍有差距。
3.5 Agents
基于大型語言模型的AI代理在特定場景中自動(dòng)處理任務(wù)的能力得到了提升,如AgentBench評估的基于LLM的25個(gè)agents。
3.6 RLHF & RLAIF
RLHF和RLAIF是兩種基于強(qiáng)化學(xué)習(xí)的方法,用于訓(xùn)練AI模型以更好地符合人類的偏好和反饋。RLAIF在生成無害對話任務(wù)中表現(xiàn)優(yōu)于RLHF。
3.7 LLM隨著時(shí)間迭代效果對比
隨著時(shí)間的推移,LLM的效果有所變化。一些研究表明,隨著新數(shù)據(jù)和用戶反饋的加入,某些任務(wù)的效果可能出現(xiàn)下降。
3.8 提升LLM效果的技巧
包括prompting、OPRO和fine-tuning在內(nèi)的多種技術(shù)被用來提升LLM的效果。這些技術(shù)通過不同的方法優(yōu)化模型性能,如通過自然語言描述任務(wù)或減少內(nèi)存需求。
3.9 訓(xùn)練AI系統(tǒng)對環(huán)境的影響訓(xùn)練大型AI模型消耗大量資源并釋放二氧化碳,對環(huán)境造成影響。盡管如此,AI系統(tǒng)也可以用于預(yù)測城市空氣質(zhì)量和優(yōu)化能源使用,從而對環(huán)境產(chǎn)生積極影響。
4、AI可靠性
AI的可靠性評估涉及隱私、數(shù)據(jù)治理、透明性和可解釋性、安全性和公平性等多個(gè)方面。目前,對LLM的全面標(biāo)準(zhǔn)評估存在缺陷,政治偽造內(nèi)容的產(chǎn)生和檢測成為一個(gè)問題,ChatGPT在政治上的偏見也引起了關(guān)注。
4.1 AI可靠性定義
AI的可靠性從數(shù)據(jù)治理、可解釋性、公平性、隱私、安全性和透明性等多個(gè)維度進(jìn)行定義和評估。
5、AI對經(jīng)濟(jì)的影響
AI對經(jīng)濟(jì)的影響是多方面的,包括提高生產(chǎn)效率、改變工作市場和投資趨勢。生成式AI的投資增長迅速,AI相關(guān)工作職位數(shù)量減少,但AI降低了企業(yè)支出并提升了收益。中國在工業(yè)機(jī)器人領(lǐng)域占據(jù)主導(dǎo)地位,AI提高了工作者的產(chǎn)能和效率?!敦?cái)富》500強(qiáng)公司越來越多地討論人工智能,特別是生成式AI。
5.1 AI重大新聞
2023年,AI領(lǐng)域發(fā)生了多項(xiàng)重大新聞,包括BioNTech收購AI公司InstaDeep、微軟對OpenAI的投資、GitHub Copilot的發(fā)布、Einstein GPT和微軟Office的融合、Bloomberg使用LLM進(jìn)行金融數(shù)據(jù)分析等。
5.2 工作信息
AI相關(guān)工作在工作市場占比有所變化,美國AI工作技能的需求有所下降,但香港對AI人才的需求相對較高。全球新興成立的AI公司數(shù)量持續(xù)增加。5
.3 開發(fā)者對AI工具使用情況
開發(fā)者對AI工具的使用情況顯示,GitHub Copilot和ChatGPT的使用量最高,云服務(wù)平臺(tái)的使用也相當(dāng)普遍。
6、AI在醫(yī)療與教育的進(jìn)展
AI在醫(yī)療和教育領(lǐng)域的應(yīng)用取得了顯著進(jìn)展。AI加快了科技進(jìn)步,如AlphaDev和GNoME的應(yīng)用。在醫(yī)療領(lǐng)域,AI系統(tǒng)如EVEscape和AlphaMissence的發(fā)布提高了疾病預(yù)測和基因分類的效率。FDA批準(zhǔn)的AI相關(guān)醫(yī)療設(shè)備數(shù)量增加,國際上人工智能相關(guān)的學(xué)位課程也在迅速增加。
7、公眾對AI的觀點(diǎn)
公眾對AI的潛在影響越來越關(guān)注,緊張情緒上升。西方國家對AI的情緒雖然低迷,但正在逐漸改善。公眾對AI的經(jīng)濟(jì)影響持悲觀態(tài)度,但ChatGPT已經(jīng)被廣泛認(rèn)知和使用。不同國家對ChatGPT的態(tài)度普遍積極,GPT-4在大模型發(fā)布后吸引了大量公眾注意力。