GPT | OPH BLOG

NLP 兩大模型

transformer decoder
論文公式
$L_{1}(u) = \sum_{i}^{}logP(u_{i}|u_{i-k},...u_{i-1};\theta )$

將模型接全連接層分類進行什麼動作，再進行微調

不接全連接層不微調，採 zero-shot
透過擴充上文暗示，讓模型知道做什麼
模型輸入 = 自行輸入 + 擴充暗示
ex:

以上為訓練時所做

困境 : 實際說話，我們是不會加提示，因此預測結果並不會表現很好

一言以蔽之文字接龍
得到生成每個字機率

持續更新中…