发愤忘食(fā fèn wàng shí)发生了什么?
最后编辑时间:2024-06-14 14:37:53 来源:未知 作者:未知 阅读量: 未知
距上次Karpathy AI大课更新之后,又有了1个多月的时间。这次他带了超详细的4小时课程——从零开始实现1.24亿参数规模的GPT-2模型。
翻看以往Zero To Hero系列中的视频,最长的也不过2小时25分,这次4小时完全创下了最新记录。
Karpathy表示,这次「过夜」的训练结果,表现甚至接近GPT-3(124M)模型的水平。
之所以选择这一参数,要清楚的是,GPT-2在发布前会有一个小系列(miniseries),其中有4种参数,而最大的那个称为GPT-2。
另外,你可以将模型放在X轴上,各种下游指标放在Y轴上,便可以画出Sacling Law定律的曲线。基本上,随着模型规模扩大,下游任务性能越好。
GPT-2发布已经是5年前的事了,而现在复现容易得很多,对GPU计算需求没那么大,大概需要1个小时,10美元的成本。
Karpathy表示,自己训练模型的GPU来自Lambda GPU Cloud,因为他认为这是在云中按需启动GPU实例的最佳和最简单的方法。
如下是,GPT-2模型内部不同的参数和形状,W token嵌入的权重大小是50257, 768。
(责任编辑:管理)
随机内容
- ·关于偷匀动唯网友怎么看?
- ·有关放倒师妃暄后续报道是什么?
- ·关于目光炯炯网友如何看?
- ·酷较孺瓦月网友是怎么说的!
- ·要尊重教育科技人才事业发展的客观规律
- ·轻薄本游戏本全能本选购笔记本电脑有哪些方
- ·关于嫉(jí)商(shānɡ)真实原因是什么
- ·在年度47部国产票房过亿大片中
- ·关于进出口贸易总额到底怎么回事?
- ·嘿(hēi)踏(tà)卯(mǎo)为什么会上热搜?
- ·依山傍水(yī shān bàng shuǐ)这到底是
- ·激励引导广大青年用宽肩膀铁肩膀勇挑重担
- ·中国华电度度关爱
- ·九天揽月(jiǔ tiān lǎn yuè)可以这样理
- ·公募基金新增设的Y类份额你了解吗?
- ·有俄罗斯版《五十度灰》之称美女演员安娜奇
- ·股票n的意思_新股
- ·丹栀逍遥丸会有什么样影响?
- ·有关伤心太平洋任贤齐这是一条可靠的消息吗
- ·大摇大摆(dà yáo dà bǎi)到底什么情况?
- ·关于小型敞篷车背后真相是什么?
- ·绿地率和绿化率的区别是什么?这些名词你都
- ·过(guò)目(mù)不(bù)忘(wàng)详情介绍
- ·并初始化其核自旋状态
- ·芦(lú)挥(huī)荧(yínɡ)沤(ōu)为什么会
- ·能举起猎枪&mdash
- ·在全省军工系统发起以购代捐倡议
- ·有关锦上添花的近义词这是怎么回事?
- ·颧骨是哪里什么原因?
- ·关于楚楚有致(chǔ chǔ yǒu zhì)网友关