GPT 爆發背后：自然語言處理的 20 年動蕩

砍柴網 ? 2年前掃碼分享

我是創始人李巖：很抱歉！給自己產品做個廣告，點擊進來看看。

又一次，GPT-4 斂住所有老牌科企的光彩。

在 ChatGPT 被譽為范式轉變之作的第 3 個月，谷歌推出 PaLM-E 視覺語言模型 ( VLM ) 。功能上，除去讓 AI 獲得理解文字、圖片的能力外，額外增添了輸出指令生成機器人行動計劃的控制回路。

谷歌顯然急了。在 OpenAI 和微軟的左右夾擊下，他直接甩出大招。

這場相似的戲碼他太熟悉。移動互聯網時代的手機系統之戰，以操作系統起家的微軟沒能在智能手機發展初期抓住生態切入點，敗北后起新秀谷歌安卓。如今，緊鑼密鼓研發大模型的谷歌被后起之浪 OpenAI 的突然成功打了個措手不及。

但即使谷歌發布出參數量高達 5620 億、目前世界上最大的視覺語言模型 ( VLM ) PaLM-E，也沒能擋住 GPT-4 打破戈爾迪之結。

回溯 2015 年，馬斯克和山姆 · 奧特曼大概誰都不會想到，OpenAI 這家非盈利組織能夠十年內追平谷歌的技術進展，撞破 AI 核心技術巨頭壟斷格局。GPT 的先發公測且開源底層平臺也意味著更多更廣的技術會以此為基礎進行開發，這是個穩賺的開端。

任何成功的背后都是復雜的，自然語言處理技術跨越了三個階段，到現在終于迎來變革。接下來，你會從當下回到過去，看到：

1. 自然語言處理的兩次重要轉折

2. Bert 和 GPT 模型的應用差異及成因

3. GPT 沒有出現在中國的兩個原因

4. 科技發展是技術在前應用在后

5. 自然語言處理：AGI 最重要的基礎

Word2vec：讓機器感知語義

我們把時間線拉到 20 年前——

2003 年，Yoshua Bengio 正式提出神經網絡語言模型 ( Neural Network Language Model,NNLM ) ，而 NNLM 依賴的核心概念就是詞向量 ( Word Embedding ) 。

如果說 GPS 是物理世界的位置符號，那么 Word Embedding 是語言世界的距離符號。

2010 年，Tomas Mikolov ( 谷歌團隊 ) 對 Bengio 提出的 NNLM 進行改進，提出 RNNLM ( Recurrent Neural Network based Language Model ) ，目標是利用所有上文信息來預測下一個詞語。

但 RNN 存在長距離梯度消失問題，上下文記憶能力有限，很難追溯更遠時間的信息。而且，只通過孤立單詞或上文信息不足以讓機器感知到特定環境下的單詞含義。

于是， 2013 年 Mikolov ( 谷歌團隊 ) 提出 Word2vec，他們把這個方法稱作 " 單詞到向量 "。 Word2vec 的目標不再專注于建模語言模型，而是利用語言模型學習每個單詞的語義化向量。

在 1986 年出版的《并行分布式處理》里有談過這樣的觀點：" 人類比當今的計算機更聰明，是因為人的大腦采用了一種更適合于人類完成他們所擅長的自然信息處理任務的基本計算架構，例如，‘感知’自然場景中的物體并厘清它們之間的關系 ...... 理解語言，并從記憶中檢索上下文恰當的信息。"

研究人員想到，如果能夠把每個詞匯都標注為數字，以編碼形式輸入，那么編碼器網絡就可以通過反向傳播在這些樣本上訓練。但是，一個非常重要的問題是， 機器無法像人類一樣獲取單詞或短語之間的語義關系。

語言學家約翰 · 費斯在 1957 年把這一思想表達為：你會通過與一個單詞一同出現的詞來認識它。 比如生氣往往和憤怒出現在同一語境，大笑和愉悅也常被放在同一語境。

研究人員 " 詞匯表 " 發現在使用大量英文語料訓練詞向量后，queen 和 king 的詞向量做差得到的向量與 woman 與 man 做差得到的向量幾乎一樣。于是得到一個等式： queen-king+man=woman

這就是著名的 " 國王和女王 " 的例子，也是自然語言處理向理解語言進步的重要標志。

word2vec，包含 CBOW 和 Skip-gram 兩組模型，分別根據上下文預測中心詞以及根據中心詞來預測上下文，簡化網格結構。使用 Hierarchical Softmax、Negative Sampling 兩種算法提升訓練效率，優化詞向量和語義方面能力。

在對機器進行詞語、對話或是理念傳達時，不同的語言使用方式和環境密不可分，因此，要消解機器對于模糊詞、隱喻等困惑，構建機器對世界的認知系統，數據和模型在這種體系中格外重要。

當單詞可以用坐標作為數字輸入時，就大大提高了神經網絡在 NLP 中的性能。RNN 語言模型雖然也能獲得單詞的分布式表達，但為了更好應對詞匯量的增加、提高分布式表示的質量， word2vec 很快成為主流。

Transformer 和 Bert：從理論走向實踐的一次蛻變

再把時間線拉到 5 年內——

2017 年，谷歌團隊在論文《Attention is All You Need》中首次提出的 Transformer 架構，造就了一場關乎 NLP 研究的始發性變革。

深度學習時代，自然語言處理準確率的提升帶來模型對有標注數據的高度依賴。因為數據稀缺和人力成本高昂，大型 NLP 語言模型訓練進入瓶頸。

Transformer 預訓練模型主要分為兩段訓練，先在大規模未標注語料庫預先訓練一個初始模型，然后在下游任務中利用標注數據對模型再次進行精調。相對而言，預訓練模型效能更高，所需標注數據也更低。

很快，預訓練語言模型成為自然語言理解任務中的基準模型。

GPT 和 BERT，這兩個代表現代 NLP 技術發展的模型都建立在 Transformer 架構上。谷歌團隊把這個語言架構濃縮成一句話："Attention is All You Need."

2018 年 10 月，谷歌團隊發布的 Bert 語言模型讓這項技術從理論走向實用的蛻變。

這是 NLP 一場全領域的狂歡。同時也預示著自然語言處理有史以來最強烈的一次進化即將開啟。

在過往許多研究 AI、NLP、AGI 技術的書籍中都提到過一個詞，叫 " 意義的障礙 "。機器和人類間存在著交流溝渠，所以創造出一種 讓機器理解人類寫作、說話方式的能力進而協助人類，是 NLP 的初衷。

人類擁有的能力之一，是感知并反思自己的思維方式，即透過現象以某種本質深刻的方式來理解周圍情景，機器并不具備這種理解能力。NLP 的目標就是讓機器在理解語言上像人類一樣智能，彌補人類交流 ( 自然語言 ) 和計算機理解 ( 機器語言 ) 之間的差距。

但語言這種具象表達方式，從標引符號演變為象征符號，再演變為語法，是個漫長的過程。 自然語言是一種 " 活著 " 的語言，它在不斷在向前演進、生長。 從過去到現在，有許多俚語不斷被淘汰，又有許多詞語生成出來。基于此，這種可以擇世生存的自然語言處理技術研發變得相當困難。

在 Bert 發布前，大部分 NLP 任務是基于 word2vec+RNN 的基本架構。由于數據匱乏，NLP 進展一直不像 CV 那么順利，于是有些學者就將基于 CV 的思想應用到預訓練 + 微調的架構上，ELMo 和 GPT 就是采用這種方式。

Bert 在兩個方向進行創新。首先提出兩階段模型，第一階段雙向語言模型預訓練，第二階段具體任務 Fine-tuning；其次特征提取器變為 Transformer。幾乎所有的 NLP 任務都可以采用 Bert 兩階段訓練思路，所以 此后的幾年，幾乎所有企業都在以 Bert 為基礎進行改進，研發方向的轉折也就此開始。

GPT 沒有出現在中國的兩個原因

從自然語言角度出發，自然語言處理大致可分為自然語言理解和自然語言生成兩個部分。

自然語言理解 ：讓計算機能夠理解文本意義，核心是 " 理解 "。具象來說，就是把語言表示成可分解的符號或語音，從中提取有用的信息用于下游任務。研究方向包含語言結構、信息抽取、信息檢索、詞性標注和句法分析。

自然語言生成 ：它是按照一定語法和語義規則生成自然語言文本、圖表、音視頻，即對語義信息以人類可讀形式進行表達，簡單來說是從文本規劃到語句規劃再到實現。主體分為三大類，文本到文本 ( Text to Text ) 、文本到其他 ( Text to Other ) 、其他到文本 ( Other to Text ) 。

以 BERT 和 GPT 為例，即使都屬于預訓練模型，但在技術研發方向存在分流 ：

BERT ( Bidirectional Encoder Representations from Transformers )

雙向語言模型，可以同時利用上下文信息進行預測，是自然語言理解任務中的基準模型。Transformer 的 Encoder 模塊構成，采用 預訓練和微調 兩階段模型訓練，屬于半監督學習模型，即在預訓練時使用大量無標注數據，屬于自監督訓練，而微調時采用少量有標簽數據，屬于有監督訓練。

Bert 的預訓練包含掩碼語言模型 ( Masked Language Model, MLM ) 和下一句預測 ( Next Sentence Prediction, NSP ) 兩個任務，引入基于自編碼的預訓練任務進行訓練。

這種訓練方式讓 BERT 可以有效捕捉文本中的語義信息，因此被廣泛用于文本分類任務，如 機器翻譯、情感分析、垃圾郵件識別、新聞分類、問答系統、語義匹配 等方向。

GPT ( Generative Pre-Training )

單向語言模型，自回歸語言建模方式，兩段訓練：生成式預訓練 + 判別式任務精調。

第一階段，利用大規模數據訓練出基于深層 Transformer 的語言模型；第二階段，在通用語意表示的基礎上，根據下游任務特性進行領域適配。微調通常是在一個較小的數據集上進行的，因此可以使用較小的學習率和少量的訓練迭代次數來進行訓練。

單向訓練方式只能利用之前的文本進行預測，因此適用于 自然語言生成、問答系統、機器翻譯 等任務。

表征和表達能力上，相對單向語言模型 ( GPT ) ，雙向語言模型 ( Bert ) 能力更強。 因為單向語言模型中，只能依賴于前詞，而無法獲取后詞信息，在處理復雜自然語言任務時，可能會由于無法充分捕捉上下文信息，影響模型的性能。反之，雙向語言模型優勢明顯。

但是， BERT 的雙向性增強了它的理解能力，但在一定程度上限制了生成能力， 相較于單向模型僅通過上文即可進行續寫生成，雙向模型在缺乏下文語境時的生成能力受限。對整個句子進行雙向處理，也意味著模型較大，訓練和推理時間長，所需計算資源和存儲空間更多。 GPT 在簡化程度、訓練及推理速度上更快，更加適用于實時性要求高的場景。

相對于 GPT 這種單向語言模型，BERT 的雙向語言模型雖然存在缺點，但在實際應用中更加靈活和具有表達能力，也更容易遷移和擴展。 在模型研發方面，BERT 更注重模型的可復用性和通用性，適用于多種自然語言處理任務的應用。

研發上，BERT 引入了 Transformer Encoder 的網絡結構，用于對輸入的序列進行編碼；而 GPT 則采用 Transformer Decoder 的網絡結構，用于生成自然語言文本。

模型復雜度方面，BERT 比 GPT 的模型架構更加復雜，訓練方式上，Bert 需要在自定義數據上進一步微調，相比之下，BERT 來說更加復雜和繁瑣。

" 梅須遜雪三分白 , 雪卻輸梅一段香。" 總的來說，BERT 和 GPT 兩者各有千秋，設計和應用方向的差別，決定它們適用于不同應用環境。

Bert 語言模型提出后的一年內，涌現了許多對其進行擴展的模型，其中包含 XLNet 模型、RoBERTa 模型、ELECTRA 模型等。并且，大多數 NLP 子領域研發模式切換為：預訓練 + 應用微調 / 應用 Zero 、Few Shot Prompt 模式。

XLNet 模型

使用 Transforner-XL 代替 Transformer 作為基礎模型，XLNet 提出了一個新的預訓練語言任務：Permutation Language Modeling ( 排列語言模型 ) ，模型將句子內的詞語打亂順序，從而使得預測當前詞語時可以利用雙向信息。XLNet 相對 BERT 也使用了更多的語料。

RoBERTa 模型

RoBERTa 采用了與 BERT 具有相同的模型結構，同樣采用了屏蔽語言模型任務進行預訓練，但舍棄了 BERT 中下句預測模型。此外，RoBERTa 采用了更大規模的數據和更魯棒的優化方法，從而取得了更好的表現。

GPT 目前已經發布五代，從 GPT-3 代起與 Bert 逐漸拉開差距。實際上，它不僅僅是一項具體的技術，更多是體現出關于 LLM 的發展理念的不同。

ChatGPT 是從生成式預訓練 Transformer，即 GPT-3.5 在文本和代碼的混合語料訓練后，再微調得到的，使用了來自人類反饋的強化學習 ( RLHF ) 技術，即帶有搜索啟發式的強化學習，它將兩種目的緊密結合，用以解決復雜的搜索問題，也是目前大型 LLM 與人類意圖較匹配的方法。

反觀自然語言處理的發展史，谷歌的模型升級更迭貫穿始終，競爭力較強，但 DeepMind 一直以來的重心在強化學習和 AI 技術方面，在生成式模型研發押注不夠。

以往， GPT 的可商用場景不明確，但 Bert 的商用趨勢卻十分明顯，因此語義理解精準度一直是領域發展重點，國內外大部分企業也是以 Bert 模型路線進發。 盡管谷歌反應夠快，2022 年 4 月便發布出 PaLM 和 Pathways，全力追趕 LLM 技術，但仍是入局尚晚。

經不完全統計，我國自然語言處理布局目前有 52 家，大部分布局重心在前端，即應用端，虛擬人、智能語音、翻譯及基于 NLP 技術的 RPA 這幾類發展較為靠前。科技所謂技術在前、應用在后，在我國似乎體現不明顯。

不過，不只是我國，谷歌尚且在 LLM 上落后一線，這只能說明在之前的研發理念上存在分歧。目前來看，百度、阿里、華為、訊飛等企業的大語言模型研發能力存在潛力，數據、技術積淀上在國內有相對優勢。

我國在發展新技術時往往會首先看商用化可行性，這與國內創業環境有關，包含醫藥研發在內，幾乎所有領域都會考慮短線收益，這種方式并不適合新技術的產生。

從整體走向局部，從應用走向基礎，著眼算力、芯片、框架邏輯、理念意識才是關鍵。決定技術進展的往往是基礎力，彎道超車無異于拔苗助長，于核心技術進展無益。

自然語言處理：AGI 最重要的基礎

GPT-4 出現讓自然語言處理社團分成兩股：相信 AGI 和不信的。

進入大模型時代，范式改變給 NLP 帶來內核上的轉變，許多獨立存在的子領域被納入 LLM，不再獨立存在，LLM 熱度空前。

2 月 25 日，OpenAI 薩姆 · 奧特曼在博客中分享其對 AGI 的當前和后續規劃，以及 OpenAI 駕馭 AI 的風險。

他的短期計劃是使用 AI 來幫助人類評估更復雜模型的輸出和監控復雜系統；長期計劃是使用 AI 來幫助提出新的想法以實現更好的對齊技術 。他認為，一個錯位的 AGI 可能會對世界造成嚴重傷害，一個擁有決定性超級智能領導的專制政權也可以做到這一點。

在微軟 3 月發布的長篇報告中，微軟說：" 考慮到 GPT-4 功能具有的廣度和深度，我們認為可以合理地認為它是通用人工智能 ( AGI ) 系統的早期（但仍不完善的）版本。"

不過，他們也承認，" 雖然 GPT-4 ‘對處理許多任務而言達到或超過人類的水’，但其整體‘智能模式顯然不像人類’。所以，大致來講，即使它確實表現出色，但仍然不能完全像人類一樣思考。"

微軟提到了一個詞—— " 思考 "。

有許多哲學家認為，即使通過圖靈測試的機器也不會實際上思考，而只是對思考的模擬。

斯坦福大學教授克里斯托弗 · 曼寧在 2017 年提出：到目前為止，深度學習已經使得語音識別和物體識別的錯誤率大幅下降，但其在高級別的語言處理任務中并沒有產生同等效用。

人類語言往往依賴于常識及對世界的理解，要機器處理更高級別的語言任務。就要讓它完全理解人類語言，具備人類的常識和無意識行為。目前的 LLM 還很難做到。

不過，20 世紀 90 年代，發明家、未來學家雷 · 庫茲韋爾發現這樣一個規律：一旦技術變得數字化，或者它可以被編輯為以 0 和 1 表示的計算機代碼，它就能夠脫離摩爾定律的束縛，開始呈指數級加速發展。

簡單來說，技術發展后的產物會被用來加速產物升級，這就創造了一個正反饋循環。 根據該理論，技術改良以過去的成就為基礎，每十年革新步調就會加倍。

傳說西塔發明了國際象棋而使國王十分高興，他決定要重賞西塔，西塔說：" 我不要你的重賞，陛下，只要你在我的棋盤上賞一些麥子就行了。在棋盤的第 1 個格子里放 1 粒，在第 2 個格子里放 2 粒，在第 3 個格子里放 4 粒，在第 4 個格子里放 8 粒，依此類推，以后每一個格子里放的麥粒數都是前一個格子里放的麥粒數的 2 倍，直到放滿第 64 個格子就行了 "。區區小數，幾粒麥子，這有何難，" 來人 "，國王令人如數付給西塔。計數麥粒的工作開始了，第一格內放 1 粒，第二格內放 2 粒第三格內放 2 ’ 粒，…還沒有到第二十格，一袋麥子已經空了。一袋又一袋的麥子被扛到國王面前來。但是，麥粒數一格接一格飛快增長著，國王很快就看出，即便拿出全國的糧食，也兌現不了他對西塔的諾言。

獨立指數技術加速浪潮，已經開始呈現出與其余獨立指數技術加速浪潮融合的趨勢。比如，自然語言處理技術的加速發展，不僅僅是因為 NLP 或 LLM 的單項技術，還因為 AI、深度學習、神經網絡等正加速發展的技術在向這個范圍靠攏。

2000 年，互聯網創始人提姆 · 伯納斯 - 李提出 " 語義網 " 概念。他希望建立一個 " 本體 " 為基礎的、具有語義特征的智能互聯網，不僅能夠理解語義概念，還能夠理解之間的邏輯。突破單句限制， 根據整個動態交互過程中的語義和語境的變化情況，對用戶實時輸入的語句進行處理并生成結果，是實現語義網的基礎。

正常的發展邏輯是首先通過解決語義表達，讓計算機利用對現有信息的經驗積累和理解，上升到更深層次。這也意味，AI 時代，語義處理會成為操作系統的核心，所有軟件技術都會基于語義技術的進展而確立上限。

語言處理的進展，目前主要通過大數據和模型框架及訓練模式的互補和變化來構建。數據存在歧義性。LLM 時代，數據成為重要核心，機器在進行詞語、對話或理念傳達時，使用環境和使用方式可以左右最終成果。因此，要消解機器對于模糊詞、隱喻等困惑，構建機器對世界的認知系統，人，在這種體系中格外重要。

來源：鈦媒體