AI 大模型的token究竟是什么?
神奇的“切菜工”:分詞器
AI大模型有一個特別厲害的小助手,就像餐廳里刀工一流的“切菜工”,它的名字叫做分詞器。
當(dāng)我們給 AI大模型一段文字,比如:“我愛吃甜甜的冰淇淋?!?這個“切菜工”就會嗖嗖嗖幾下,把這句話切成很多小塊:“我”、“愛”、“吃”、“甜甜”、“的”、“冰”、“淇”、“淋”、“。”
你看,每個小塊就是一個 Token!有的是一個字,有的是兩個字組成的詞語,連標(biāo)點(diǎn)符號“?!币彩且粋€ Token!
Token 的千變?nèi)f化:大小不一的積木
這些Token可不是一樣大小的哦!就像積木有各種形狀和尺寸。
單個字可能是小Token:像“我”、“愛”、“吃”這樣單獨(dú)的漢字,很多時候就是一個小小的Token。
常見的詞語可能是中Token:像“甜甜”、“冰淇淋”這樣我們經(jīng)常一起說的詞語,可能被“打包”成一個稍微大一點(diǎn)的Token。
更長的短語也可能是大Token:有些經(jīng)常一起出現(xiàn)、有固定意思的短語,也可能被切成一個更大的Token。
標(biāo)點(diǎn)符號、英文單詞、字母組合也都是Token:就像我們剛才看到的“?!?,英文里的“apple”、“ing”等等,也都是一個個獨(dú)立的Token。
AI 是怎么“吐”字的?像擠牙膏一樣!
更有趣的是,當(dāng) AI 大模型要回答我們問題,或者自己寫文章的時候,它也是一個 Token 一個 Token 地往外“蹦”字!就像我們擠牙膏一樣,一點(diǎn)一點(diǎn)地出來。所以,有時候我們看到 AI 回答問題的時候,會感覺它像在慢慢打字,這就是因?yàn)樗谂Φ厣梢粋€個 Token 呢!
我們的大腦也愛“偷懶”:Token 的秘密武器
你快速讀一些不常見的字,比如“醍”、“捭”,是不是會有點(diǎn)卡殼?要稍微想一下才能讀出來?
但是,如果這些字組成了一個我們熟悉的詞語,比如“醍醐灌頂”、“縱橫捭闔”,你是不是一下子就能認(rèn)出來,不用一個字一個字地拼了?
這是因?yàn)槲覀兊拇竽X也喜歡把有意義的詞語看作一個整體來處理,這樣能節(jié)省我們的小腦袋瓜的能量!AI分詞器也是這個道理,它會盡量把經(jīng)常一起出現(xiàn)、有完整意思的文字“打包”成一個Token,這樣AI大模型處理起來就更輕松、更快速啦!
“切菜工”的秘訣:統(tǒng)計(jì)學(xué)小能手!
那么,這個厲害的“切菜工”——分詞器,是怎么知道哪些字應(yīng)該切在一起,哪些字應(yīng)該分開呢?
它就像一個超級勤奮的小偵探,讀了超級超級多的書、文章和各種各樣的文字。它會偷偷記住哪些字經(jīng)常手拉手一起出現(xiàn)。比如,“蘋果”這兩個字總是形影不離,分詞器就會聰明地把它們打包成一個Token。像“雞”、“ing”、逗號“,”這些家伙總是喜歡自己待著,分詞器也會把它們單獨(dú)分成Token。
久而久之,分詞器就建立了一個巨大的“Token表”,里面記錄著成千上萬個它認(rèn)識的 Token!
Token 的本質(zhì):AI 世界的小小“信息塊”
所以,Token就是 AI 大模型世界里一塊塊小小的“信息積木”。大模型不會直接“看懂”我們輸入的文字,而是先把它們變成Token,然后通過分析這些Token之間的關(guān)系,來理解我們的意思,并生成新的文字。
Token 越多,計(jì)算量越大:AI 也要“花力氣”
AI 大模型處理文字的時候,是按照Token的數(shù)量來計(jì)算工作量的。就像我們拼積木,積木塊越多,我們需要花的時間和力氣就越多。所以,大模型公司在計(jì)算費(fèi)用的時候,也會按照 Token 的數(shù)量來算,因?yàn)樘幚淼腡oken越多,電腦就需要進(jìn)行更多的計(jì)算。
DeepSeek的生成速度可達(dá)每秒60個token,ChatGPT的生成速度約為每秒20個token。ChatGPT的上下文窗口長度在部分版本支持128k tokens,適合處理長篇幅文本。
是不是覺得Token這個概念很有趣呢?下次你和AI聊天的時候,不妨想想它正在默默地把你的話切成一塊塊小積木,然后用這些小積木來理解你哦!
供稿單位:重慶市無線電科普體驗(yàn)中心
審核專家:楊文艷
聲明:除原創(chuàng)內(nèi)容及特別說明之外,部分圖片來源網(wǎng)絡(luò),非商業(yè)用途,僅作為科普傳播素材,版權(quán)歸原作者所有,若有侵權(quán),請聯(lián)系刪除。