什么是 GPT-3?
Open AI 第三代预训练语言模型 GPT-3(Generative Pre-training Transformer)的发布获得了数据科学兄弟会兴奋不已!
语言模型 (LM) 的世界非常迷人。简单介绍一下,这些 AIML 模型学习常用语言(例如英语)中出现的单词序列的概率,并预测该序列中下一个可能的单词。它们对于许多 NLP 任务至关重要,例如:
语言翻译
文本分类
情绪提取
阅读理解
命名实体识别
问答系统
新闻文章生成等
人工智能自从谷歌发布 BERT 以来,自然语言和处理模型变得非常受欢迎,许多公司都在竞相打造 NLP 领域的下一个大热门!
你知道 GPT-3 是如何训练的吗?
预训练涉及使用 Transformer 架构的深度神经网络,该网络在大型语料库上进行训练,语料库被划分为称为 token 的较小单元,以便它可以学习预测具有上下文的 token 序列中的下一个 token。微调涉及使用带标签的示例对预训练模型进行进一步训练,以用于特定任务或一系列任务或领域,包括翻译、问答、文本完成等。例如,为了让 GPT-3 擅长翻译,需要对翻译句子的数据集进行微调。
Open AI 已经参与竞争很长时间了。最新版本的功能、特性和局限性GPT-3,已详细描述研究论文. 其前身GPT-2(于 2019 年 2 月发布)在 40GB 文本数据上进行训练,具有 1.5 BN 个参数。相比之下,GPT-3 训练数据量巨大,包含约 175 个 BN 参数,是下一个最大的 LM、微软开发的 Turing NLG(具有 17 个 BN 参数)的 10 倍!
所有可用语言模型的比较
图 1:所有可用语言模型 (LM) 的参数比较
来源:TowardsDataScience
利用生成式人工智能最大程度提高效率
探索 Sigmoid 预先构建 土耳其数据 的生成式 AI 解决方案,适用于营销、客户体验等领域的用例!
发挥生成式人工智能的潜力
GPT-3 基于与 GPT-2 类似的 transformer 和注意力概念。它已在大量各种数据(如 Common Crawl、网络文本、书籍和 Wikipedia)上进行了训练,这些训练基于来自每种数据的标记。在训练模型之前,数据集的平 什么是电子邮件重定向? 均质量已通过 3 个步骤得到改善。
下表展示了GPT-3的训练语料:
数据集 数量(代币) 训练组合 尼日利亚号码 中的重量 训练 300 BN 代币的时期已过去
常见爬虫(已过滤) 410 亿 60% 0.44
Web文本2 19 亿 22% 2.90
图书1 12亿 8% 1.90
书籍2 55 亿 8% 0.43
维基百科 30亿 3% 3.40
GPT-3 有以下几个示例和变体:
尺寸(参数和层)
架构
学习超参数(标记的批量大小和学习率)范围从 125 MN 到 175 BN 参数
你可知道?
GPT-3 的最大版本具有 175 个 BN 参数、96 个注意层和 3.2 MN 批量大小
以下是 GPT-3 模型不同变体的详细信息:
GPT-3 模型变体的详细信息
图 2:GPT-3 模型变体的详细信息
它能做什么?
本博客中讨论的许多 NLP 任务都可以由 GPT-3 执行,无需任何梯度、参数更新或微调。这使得它成为一个与任务无关的模型,因为它可以在没有任何或很少提示或示例或演示(称为镜头)的情况下执行任务。
下图展示了基于零次 / 一次 / 少量任务准确度的比较,针对不同的 GPT-3 模型大小(就参数而言),针对从单词中删除随机符号的简单任务,其中上下文示例的数量在 10 到 100 之间。
GPT-3 准确率对比
图 3:不同大小模型的基于 Zero / One / Few-Shot 的任务准确率比较
“假新闻”难题
此前,GPT-2 最大模型的发布曾因有人质疑其是否能够生成假新闻而一度搁置。后来,该模型在 Colab 笔记本上发布。然而,最近这种情况很常见,真实的新闻本身也很难令人相信!
GPT-3 生成的假新闻已经很难与真实新闻区分开来,在一项实验中,结果显示,实际上只能检测到 50% 的假新闻!
实际的假新闻检测
在预测句子最后一个单词的任务中,GPT-3 在零样本设置中以 76% 的准确率超越了当前 SOTA(最先进)算法 8%。在少样本设置中,它的准确率达到了 86.4%!
在闭卷问答任务中,GPT-3 的表现优于在单样本和少样本设置中使用信息检索组件的经过微调的 SOTA。
Open AI GPT-3 API Playground 摘要:
设置和预设:
点击设置图标后,可以配置各种参数,如文本长度、温度(从低/无聊到标准到混乱/创意)、开始和停止生成文本等。还有多个预设可供选择和试用,如聊天、问答、解析非结构化数据、为二年级学生总结
聊天:
聊天预设看起来更像是一个聊天机器人,您可以将 AI 的角色设置为友好、有创意、聪明和乐于助人的模式,以非常礼貌的方式提供信息丰富的答案,而如果您将 AI 的角色设置为残酷,它就会完全按照角色的建议做出回应!
问答:
问答系统在开始回答我们的问题之前需要进行一些训练,并且人们对收到的答案类型没有任何抱怨。
解析非结构化数据:
这是模型的一个有趣的预设,可以从非结构化文本中理解和提取结构化信息
为二年级学生总结:
此预设通过将困难的句子和概念改写为孩子可以轻松理解的简单单词和句子,展示了另一个级别的文本压缩
多语言文本处理:
GPT-3 处理除英语以外的其他语言的能力比 GPT-2 更好。人们已经尝试了 GPT-3 支持的各种语言(例如德语、俄语和日语)的任务。它确实表现良好,并且完全可以进行多语言文本处理。
文本生成:
它可以根据需要生成诗歌,如果需要的话,还可以生成特定风格的诗歌,甚至可以用其他语言编写故事和文章,并进行一些微调。
代码生成:
人们声称该 API 可以用最少的提示生成代码。