OpenAI教授其语言模型来分类和生成图像
作者:访客发布时间:2023-04-24分类:暖心故事浏览:97评论:0
给大家分享一篇关于互联网和手机的文章。相信很多朋友对互联网和手机还是不太了解,所以边肖也在网上搜集了一些关于手机和互联网的相关知识与大家分享。希望大家看完之后会喜欢。
在即将召开的2020年国际机器学习会议(ICML)上接受的论文中,OpenAI研究人员已经证明,一些基于像素序列训练的AI语言模型可以生成连贯的图像。他们说,这是朝着理解和弥合计算机视觉和语言理解技术之间的差距迈出的一小步,但意义重大。
自监督学习或无需手动标记数据的学习是机器学习中的长期挑战。最近,谷歌的BERT、脸书的RoBERTa和OpenAI的GPT-3等模型在一系列语言任务中取得了领先的性能,但当应用于图像生成或分类时,这个新类并没有成功。
幸运的是,基于GTP-3的Transformer模型是独立于领域的,这意味着它们可以应用于任何序列。OpenAI用它在图像数据上训练其语言模型GPT-2的较小版本。结果表明,即使没有人工编码的知识,该模型也能理解对象的外观和类别。该模型的特征可以在众多分类语料库上达到最新的性能,并且具有几乎最新的无监督准确率。
OpenAI已经在流行的基准语料库ImageNet -iGPT-S(包含7600万个参数)、IGPT-M(4.55亿个参数)和IGPT-L(14亿个参数)上训练了三个版本的用于图像生成的GPT-2模型,以及一个更大的名为IGPT-XL(68亿个参数)的模型,该模型结合了ImageNet和from,然后,他们降低了图像的分辨率,并创建了自己的9位调色板来表示像素,这产生了比标准RGB光谱短三倍的输入序列长度,而不牺牲准确性。
根据OpenAI,结果显示图像特征质量随深度急剧增加,然后略有下降。研究人员认为,这可能会发生,因为基于Transformer的模型分两个阶段运行。在第一阶段,该模型从周围的上下文中收集信息以构建上下文的图像特征,而在第二阶段,上下文特征用于预测图像中的下一个像素。
然而,OpenAI指出他们的方法有局限性。它的iGPT模型只显示低分辨率图像,并显示偏差,这些偏差是在它们接受数据训练后获得的。例如,性别和角色之间可能存在关联(即“男性科学家”)。此外,他们在计算培训上花费了大量时间——在Nvidia V100显卡上使用iGPT-L大约需要2500天。
为此,研究人员认为,这项工作主要是用作概念证明的演示。“训练这些模型的巨大资源成本和[现有]方法的更高精度使得这些表示无法用于视觉领域的实际应用.他们写道:“(而且)预计开发人员将需要更加关注他们提供的数据。”[然而,我们的]结果表明,由于其简单性和多功能性,具有足够计算能力的序列转换器最终可能是学习许多领域优秀功能的有效方法。"
OpenAI早就断言,强大的计算机结合强化学习等技术可以实现AI进步的范式转变。正如今年早些时候在《麻省理工科技评论》中报道的那样,一个名为OpenAI中的Foresight的团队进行了实验,通过训练越来越多的数据和计算算法来测试他们能把AI功能推进到什么程度。根据同一份报告,OpenAI正在开发一个使用大量计算资源来训练图像、文本和其他数据的系统。公司领导认为,这是人工智能(AGI)最有前途的方式,也就是可以学习任何任务的AI人类都可以。
OpenAI还发现,增加其模型的规模和训练更多的迭代可以带来更好的图像质量。当在基准CIFAR-10、CIFAR-100和STL-10上评估这些函数时,它们的性能优于所有有监督和无监督的传输算法。
本文就为大家讲解到这里了。- 暖心故事排行
- 最近发表
- 标签列表
-