<strong id="ctjbx"></strong>

  1. <strong id="ctjbx"></strong>
    <ruby id="ctjbx"></ruby>

    大模型開(kāi)發(fā)者必備手冊:這些數字值得記住

    來(lái)源:量子位時(shí)間:2023-05-19 14:23:21

    本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯(lián)系出處。

    GPT-4的使用成本,竟然是GPT-3.5的50倍之多;


    (資料圖)

    而讓大語(yǔ)言模型同時(shí)處理25個(gè)請求的時(shí)間,僅是處理單個(gè)請求的2倍……

    這些數據聽(tīng)上去可能有些出乎意料,但都是真實(shí)的。

    它們出自一篇名為《大語(yǔ)言模型(LLM)開(kāi)發(fā)者必須知道的數字》的GitHub文章。

    文章發(fā)布之后僅1天,便獲得了1200次星標。

    文章基于真實(shí)的開(kāi)發(fā)經(jīng)驗,介紹了提示工程、硬件資源、價(jià)格等方面的數據。

    就算沒(méi)有成為開(kāi)發(fā)者的打算,拿來(lái)擴充一下知識儲備也是極好的。

    都有哪些數字值得關(guān)注

    我們不妨先來(lái)看一下文章作者制作的速覽圖表:

    接下來(lái),我們就來(lái)詳細介紹一下這些數據。

    提示工程

    40-90%:在提示詞中加入“Be Concise”節約的成本

    使用LLM是按照回復的token數量付費的,因此讓LLM的回答簡(jiǎn)明扼要可以節約成本。

    在提示詞中加入“Be Concise”(答案簡(jiǎn)明些),可以節約40-90%的成本。

    1.3:每個(gè)單詞的平均token數

    LLM是對token進(jìn)行操作的,token可能包含完整單詞或其中的一部分。

    如“eating”是由“eat”和后綴“ing”兩個(gè)token組成。

    一篇750詞的英文文章中大約含有1000個(gè)token。

    而對于其他語(yǔ)言,每個(gè)詞所含的token數量可能更多。

    價(jià)格

    價(jià)格數據會(huì )存在波動(dòng),本節的價(jià)格數據主要參考OpenAI,但其他公司數據也相似。

    約50倍:GPT-4與GPT-3.5花費的比值

    效果上,GPT-4的表現明顯好于GPT-3.5,但其成本約為后者的50倍之多。

    因此,對于諸如總結這類(lèi)GPT-3.5也能出色完成的任務(wù),可以考慮不使用更昂貴的GPT-4。

    5倍:GPT-3.5-Turbo生成與使用OpenAI embedding的成本比

    諸如“美國的首都是哪里”這類(lèi)可以通過(guò)檢索得到答案的問(wèn)題,讓LLM生成答案的成本是檢索的5倍。

    而如果使用GPT-4,成本差異將高達250倍。

    10倍:OpenAI embedding與自建embedding的成本比

    這一數字為大約數值,實(shí)際情況可能隨著(zhù)embedding的規模而變化。

    6倍:微調版與基本版OpenAI模型的成本比值

    盡管成本較為昂貴,但對基本OpenAI模型的微調是有意義的。

    對基本模型進(jìn)行微調的效益明顯高于定制模型。

    1倍:自建模型是否進(jìn)行微調的成本比

    由于參數量相同,是否進(jìn)行微調對自建模型的成本幾乎沒(méi)有影響。

    訓練與微調

    約100萬(wàn)美元:在1.4萬(wàn)億token上訓練130億參數模型的成本

    這一數字是建立在一切工作都十分順利、沒(méi)有發(fā)生崩潰的前提下計算出的。

    Meta的大語(yǔ)言模型LLaMA的論文當中顯示,用2048塊80GB A100 GPU進(jìn)行訓練LLaMA一共花費了21天。

    <0.001:微調與從頭開(kāi)始訓練的成本比

    這一數據有一些籠統,但微調的成本幾乎可以忽略不計。

    對一個(gè)60億參數模型進(jìn)行微調的成本大約是7美元。

    即使是最貴的OpenAI模型Davinci,1000個(gè)token的微調成本也只有3美分。

    相對于對一部莎士比亞全集進(jìn)行微調也只需要40美元。

    GPU消耗

    如果你要自建模型,了解其GPU消耗十分重要。

    本節所列數據僅是推理過(guò)程所消耗的資源量,訓練和微調過(guò)程還需要更多資源。

    V100: 16GB, A10G: 24GB, A100: 40/80GB:GPU內存大小

    GPU內存大小決定了LLM的參數量上限。

    24GB的A10G在亞馬遜云服務(wù)中的價(jià)格為1.5-2美元每小時(shí)。

    參數量的2倍:LLM的典型GPU內存需求

    例如,7B參數量的LLM需要消耗14GB的GPU內存。

    這是因為大多數時(shí)候,每個(gè)參數需要16bit浮點(diǎn)空間。

    通常情況下不需要使用超過(guò)16bit的精度,8bit則會(huì )顯著(zhù)降低結果精準度。

    約1GB:嵌入式模型的典型GPU內存需求

    嵌入式模型消耗的本地GPU資源是很小的。

    甚至可以在一塊GPU上同時(shí)運行多個(gè)嵌入式模型。

    超過(guò)10倍:批量處理LLM請求帶來(lái)的吞吐量改善

    在GPU上運行LLM時(shí)往往會(huì )有較大延遲。

    一次請求消耗的時(shí)間可能長(cháng)達5秒,相對于每秒僅能處理0.2個(gè)。

    但如果同時(shí)發(fā)送兩個(gè)請求,消耗的時(shí)間約為5.2秒。

    而將25個(gè)請求捆綁發(fā)出的耗時(shí)約為10秒,相對于每秒可處理2.5個(gè)請求。

    約1MB:130億參數模型輸出1個(gè)token所需的GPU內存

    內存消耗量與生成token數成正比。

    512個(gè)token(約380個(gè)英文單詞)需要消耗512MB的空間。

    作者簡(jiǎn)介

    這篇文章的作者來(lái)自開(kāi)源人工智能框架Ray的開(kāi)發(fā)公司Anyscale。

    主要貢獻者是Google前首席工程師Waleed Kadous。

    他也曾擔任Uber CTO辦公室工程戰略負責人。

    其中一位華人合作者是Google前員工Huaiwei Sun。

    他來(lái)自江蘇昆山,本科畢業(yè)于上海交通大學(xué)工業(yè)設計專(zhuān)業(yè)。

    期間,他參加了耶魯大學(xué)summer school并取得了滿(mǎn)績(jì)。

    此后他取得了佐治亞理工學(xué)院碩士學(xué)位,研究方向為人機交互。

    此外還有其他作者也參與了這篇文章的工作,未來(lái)也可能有更多人加入。

    參考鏈接:[1]https://github.com/ray-project/llm-numbers[2]https://www.linkedin.com/in/scottsun94/

    標簽:

    責任編輯:FD31
    上一篇:行政合同糾紛應通過(guò)什么途徑解決?哪些合同屬于行政合同?
    下一篇:最后一頁(yè)

    精彩圖集(熱圖)

    熱點(diǎn)圖集

    最近更新

    信用中國

    • 信用信息
    • 行政許可和行政處罰
    • 網(wǎng)站文章

    久爱免费观看在线精品_亚洲综合一区二区三区_最新国产国模无码视频在线_中文字幕无码精品亚洲资源网久久

      <strong id="ctjbx"></strong>

    1. <strong id="ctjbx"></strong>
      <ruby id="ctjbx"></ruby>