<strong id="ctjbx"></strong>

<ruby id="ctjbx"></ruby>

您現在的位置：首頁(yè) >
商業(yè) >
正文

環(huán)球觀(guān)察：實(shí)際使用感受如何？來(lái)看看這份《人工智能大模型體驗報告》

來(lái)源：經(jīng)濟參考網(wǎng)時(shí)間：2023-06-01 21:20:53

近年來(lái)，人工智能技術(shù)迎來(lái)了新一輪大變革，其中由OpenAI開(kāi)發(fā)的ChatGPT在推出短短2個(gè)月后便成為了月活破億的應用。隨著(zhù)海外科技巨頭微軟、谷歌、Meta等加大投入，國內科技企業(yè)如百度、華為、阿里等紛紛布局，人工智能大模型的發(fā)展日新月異。

為直觀(guān)感受我國當前主流科技企業(yè)所推出的大模型產(chǎn)品的現狀、優(yōu)勢和特點(diǎn)，新華社研究院中國企業(yè)發(fā)展研究中心于今年4月啟動(dòng)了人工智能產(chǎn)業(yè)創(chuàng )新活力研究。本次研究設置了用戶(hù)體驗項目，抓取了05月22日—05月26日數據，通過(guò)人機互動(dòng)提問(wèn)等形式，對國內主流大模型進(jìn)行使用體驗評測，旨在為科技企業(yè)調整努力方向提供參考。

【資料圖】

在綜合指數評價(jià)方面，本次評測選取4大維度（基礎能力、智商測試、情商測試、工作提效能力）、36個(gè)子能力，共300個(gè)問(wèn)題，對目前主流大模型產(chǎn)品進(jìn)行測試，并邀請相關(guān)專(zhuān)家組成評測團隊深入分析各個(gè)產(chǎn)品的語(yǔ)義理解、知識儲備、邏輯能力等，最終得出各廠(chǎng)商的大模型綜合指數評價(jià)。

在評價(jià)規則上，課題組以各個(gè)大模型對參與測評的題目回答完成度，進(jìn)行了綜合考量，其中評測規則分為：答案較為完美，內容可在實(shí)際場(chǎng)景中直接使用；基本可用，可在實(shí)際場(chǎng)景中使用；調整可用，但需人工進(jìn)行調整后方可使用；大略可用，需要較多人工調整方可使用；不可用，答非所問(wèn)、語(yǔ)言不通等五個(gè)層級。

注：基于評測條件、評測時(shí)間等限制，本次評測結果存在一定主觀(guān)性，未來(lái)將進(jìn)一步優(yōu)化完善評測模型，提供更精確結果。

通過(guò)圍繞四個(gè)維度的綜合測試，課題組發(fā)現，由OpenAI開(kāi)發(fā)的Chat-GPT系列模型各項指標表現優(yōu)異，且Chat-GPT4.0版本各項能力在3.5版本的基礎上均有一定程度提升。而由百度開(kāi)發(fā)的人工智能大模型文心一言表現較為搶眼，是目前國內自主研發(fā)的大模型中具有優(yōu)勢的產(chǎn)品。其余大模型產(chǎn)品也在基礎能力方面表現優(yōu)良，但面對較復雜的工作內容或情商環(huán)境仍有不同程度的進(jìn)步空間。

針對各維度能力測評，該報告還給出了相應的案例展示和分析。

在基礎能力部分，百度文心一言表現最為搶眼，訊飛星火、阿里巴巴通義千問(wèn)、智譜ChatGLM表現優(yōu)良；商湯商量、Vicuna-13B表現尚佳。

在智商測試部分，百度文心一言在該環(huán)節意外超過(guò)ChatGPT3.5，表現突出，阿里巴巴通義千問(wèn)分數接近GPT3.5，商湯商量、訊飛星火、智譜ChatGLM表現尚佳；Vicuna-13B表現有待改進(jìn)。

在情商測試部分，百度文心一言表現最佳；阿里巴巴通義千問(wèn)與訊飛星火表現優(yōu)良；商湯商量、智譜ChatGLM表現尚可；Vicuna-13B表現一般。

在工作提效部分，百度文心一言與智譜ChatGLM最佳，訊飛星火次之；阿里巴巴通義千問(wèn)及Vicuna-13B表現尚可；商湯商量表現一般。

研究發(fā)現，人工智能與各行業(yè)的深度融合是促進(jìn)產(chǎn)業(yè)升級和轉型的重要方式之一，“大模型+行業(yè)”的發(fā)展應用尤為重要。目前大模型在金融、工業(yè)、醫療等領(lǐng)域已經(jīng)取得了顯著(zhù)的成果，如何為行業(yè)領(lǐng)域提供更為精準、更為高效的解決方案，成為大模型廠(chǎng)商未來(lái)彎道超車(chē)的機會(huì )。

報告指出，隨著(zhù)人工智能的地位和作用越來(lái)越重要，政府、企業(yè)和社會(huì )需要共同努力，各大廠(chǎng)商應投入更多資源，頭部企業(yè)可以持續發(fā)力自研大模型，而專(zhuān)注于解決方案的行業(yè)廠(chǎng)商可以考慮通過(guò)深耕行業(yè)來(lái)彰顯特色。

研判該報告的測評結果，浙江大學(xué)國際聯(lián)合商學(xué)院數字經(jīng)濟與金融創(chuàng )新研究中心聯(lián)席主任、研究員盤(pán)和林建議，國內大模型發(fā)展應從兩方面著(zhù)力，一方面是大語(yǔ)言模型，中文并非ChatGPT的強項，OpenAI主業(yè)在英語(yǔ)，所以中文大語(yǔ)言模型對于中國市場(chǎng)還是有發(fā)展空間的；另一方面則是在細分領(lǐng)域應用，比如編程、專(zhuān)業(yè)知識問(wèn)答、中文PPT制作等，這些細分的功能領(lǐng)域才是未來(lái)大模型真正需要關(guān)注的領(lǐng)域，也是從單個(gè)應用轉變?yōu)樯鷳B(tài)應用的關(guān)鍵。

掃碼查看

AI大模型體驗報告

↓↓↓

標簽：

責任編輯：FD31

上一篇：容匯鋰業(yè)6月8日深交所首發(fā)上會(huì ) 擬募資30.6億元

下一篇：最后一頁(yè)

精彩圖集(熱圖)

熱點(diǎn)圖集

最近更新

熱詞榜

編輯推薦

精彩圖集

專(zhuān)題策劃

steam登陸未響應怎么辦？steam登陸次數過(guò)多要等多久？

信用中國

信用信息
行政許可和行政處罰
網(wǎng)站文章

瀏覽排行

久爱免费观看在线精品_亚洲综合一区二区三区_最新国产国模无码视频在线_中文字幕无码精品亚洲资源网久久

<strong id="ctjbx"></strong>

<ruby id="ctjbx"></ruby>