60行代码就能构建GPT！网友：比之前的教程都要清晰_科技魔方-读懂科技做科技极客

: 60行代码就能构建GPT！网友：比之前的教程都要清晰; 智能穿戴

2023年02月20日

点赞; 　　现在只用60行代码，就能从0构建GPT了!

　　想当初，前特斯拉前AI总监的minGPT和nanoGPT也都还要300行代码。

　　这个60行代码的GPT也有名字，博主将它命名为PicoGPT。

　　不过和此前minGPT和nanoGPT的教程不同，今天要讲的这个博主的教程，更侧重于代码实现部分，模型的权重则用已经训练好的。

　　对此，博主解释称这篇教程的重点在于提供一个简单且易于破解的完整技术介绍。

　　这对还不理解GPT背后概念的盆友，算是非常友好了。

　　还有网友称赞，这篇博客介绍得非常清晰，第一部分尤为如此。

　　这篇介绍GPT模型的文章太好了，它比我之前看到的介绍都要清晰，至少在第一部分讨论文本生成和取样是这样的。

　　目前，此项目在GitHub上标星已破百，HackerNews上的点击量也即将破千。

　　从GPT是什么讲起

　　在介绍之前，还是需要说明一下，这篇教程不是完全零门槛，需要读者提前熟悉Python、NumPy以及一些基本的训练神经网络。

　　教程的重点聚焦在技术介绍上，统共有六大部分：

　　什么是GPT?

　　按照惯例，在正式构建GPT之前得先对它做一些基本介绍，教程从输入/输出、生成文本以及训练三个部分分别来讲GPT是如何工作的。

　　在这趴，博主附上代码，甚至还用了一些比喻来让读者们更好地理解GPT。

　　举个栗子，在输入这一部分，作者将句子比作一条绳子，tokenizer则会将其分割成一小段一小段(单词)，被称作token。

　　又比如说，在生成文本这part介绍自动回归时，博主直接贴上代码：

　　在每次迭代中，它会将预测的token追加回输入，这个预测未来值并将其添加回输入的过程就是GPT被描述为自动回归的原因。

　　60行代码怎么运行?

　　了解完GPT的基本概念之后，就直接快进到了如何在电脑上运行这个PicoGPT。

　　博主先是甩出了他那只有60行的代码：

　　然后从克隆存储库，安装依赖项等步骤一步步教你如何在电脑上运行GPT。

　　其中，还不乏一些贴心的小tips，比如说如果使用的是M1 Macbook，那在运行pip install之前，需要将requments.txt中的tensorflow更改为tensorflow-macos。

　　此外，对于代码的四个部分：gpt2，generate，main以及fire.Fire(main)，博主也有做详细解释。

　　等到代码能够运行之后，下一步博主就准备详细介绍编码器、超参数(hparams)以及参数(params)这三部分了。

　　直接在笔记本或者Python会话中运行下面这个代码：

　　一些必要的模型和tokenizer文件就直接下载到model/124M，编码器、hparams和params也能直接加载。

　　更具体的内容这里就不多说了，教程的链接已经附在文末。

　　一些基础神经网络层的介绍

　　这一趴涉及到的知识就更加基础了，因为下一趴是实际GPT自身的架构，所以在此之前，需要了解一些非特定于GPT的更基本的神经网络层。

　　博主介绍了GeLU、Softmax函数以及Layer Normalization和Linear。

　　GPT架构

　　终于!这部分要来讲GPT自身的架构了，博主从transformer的架构引入。

　　△transformer架构

　　GPT的架构只使用了transformer中的解码器堆栈(即图表的右边部分)，并且其中的的“交叉注意”层也没有用到。

　　△GPT架构

　　随后，博主将GPT的架构总结成了三大部分：

　　-文本 + 位置嵌入

　　-变压器解码器堆栈

　　-下一个token预测头

　　并且还将这三部分用代码展示了出来，是酱紫的：

　　再后面，就是关于这三部分的更多细节……

　　测试构建的GPT

　　这部分将全部的代码组合在一起，就得到了gpt2.py，统共有120行代码，删除注释和空格的话，就是60行。

　　然后测试一下!

　　结果是这样的：

　　成功了!

　　一些后续补充

　　最后一部分，博主也总结了这短短60行代码的不足：非常低效!

　　不过他还是给出了两个可以让GPT变高效的方法：

　　-同时地而不是顺序地执行注意力计算。

　　-实现 KV 缓存。

　　此外，博主还推荐了一些训练模型、评估模型以及改进架构的方法和教程。

　　感兴趣的话，直接戳文末链接～

　　作者介绍

　　Jay Mody，目前在加拿大一家NLP初创公司Cohere从事机器学习的工作，此前，他还分别在特斯拉和亚马逊作为软件工程师实习过一段时间。

+1; 来源：量子位作者：Pine

推荐文章

: 60行代码就能构建GPT！网友：比之前的教程都要清晰

: 华米发布Amazfit Falcon运动智能手表：六星双频定位

: 热门PC游戏《不予播出》推VR版，将登陆Quest和SteamVR

: Bodyswaps与Meta合作，为106所院校提供VR培训课程

: 苹果GUI专利：支持手势和眼球交互，可根据生物信息调节画面

: 为什么劝你别买300元智能手表！看完秒懂

最热新闻最新新闻 更多>

用户推荐最热产品 更多>

倾城

小新

张影

创维电视（SKYWORTH）55V40

创维电视（SKYWORTH）55V40

小米全面屏电视E43K

小米全面屏电视E43K

康佳（KONKA）55D6S

康佳（KONKA）55D6S

荣泰S60按摩椅

荣泰S60按摩椅

自媒体头条更多>: 极致听感智能降噪三星Galaxy Buds Pro诠释非同凡“响”

未来科技范试驾摩灵MOi｜视频

品牌专区更多>

产品与服务

联系站长

反馈邮箱

news#keji100.net（发邮件时把#换成@）

关于我们