全球数字财富领导者
财富汇
|
美股投研
|
客户端
|
旧版
|
北美站
|
FX168 全球视野 中文财经
首页
资讯
速递
行情
日历
数据
社区
视频
直播
点评旗舰店
商品
SFFE2030
外汇开户
登录 / 注册
搜 索
综合
行情
速递
日历
话题
168人气号
文章
GPT-4将在下周发布 必应日活破亿 谷歌还有招架之力吗
go
lg
...
5、Codex等。 比如GitHub
Copilot
通过Azure OpenAI服务中的Codex模型,能帮开发者自动生成代码。 使用Power Platform中的Co-pilot,用户能够编写Power Fx命令,甚至实现自动化流程 Microsoft Teams Premium通过GPT-3.5模型打造了「智能回顾」功能,可以自动生成会议记录、笔记、实时翻译等。 Microsoft Viva Sales通过GPT-3.5模型提升了销售效率,可自动生成邮件内容、生成个性化销售文案等。 Azure OpenAI Studio的无代码开发模式,能让企业和开发者快速开发智能应用程序和解决方案。 在设计软件中,Azure OpenAI使用了DALL·E 2模型,在提示栏中不断明确自己的要求,软件就会生成越来越符合用户要求的图像 其实前几天,微软就已宣布低代码应用平台Power Platform整合进ChatGPT,开发者可以使用最少的代码创建应用程序。链接 借助Azure OpenAI服务中的ChatGPT预览版,企业和开发者可以把它的功能直接集成到应用产品中,私人定制自己的ChatGPT,提供个性化客户服务,生成个性化营销文案,建立企业级智能化知识库搜索引擎等。 技术公司可以快速将机器人连接到不同的产品,支持知识库和常见问题解答,在不编写任何代码的前提下,就能为客户提供支持 微软的办公软件帝国,眼看要成形了。 谷歌埋葬了自己 其实,谷歌不是没有这样的机会。 据华尔街日报称,几年前,2名前谷歌工程师曾push高管向公众发布ChatGPT类似聊天机器人,但直接被毙掉了。 原因很简单,不安全。 可以说,谷歌高管们谨慎的态度把自家的前程给葬了。 2018年,谷歌研究工程师Daniel De Freitas开始从事一个人工智能副项目,目标是创建一个模仿人类说话方式的对话聊天机器人。 谷歌人工智能研究部门的软件工程师Noam Shazeer后来加入了该项目。 当时,De Freitas和Shazeer建立的聊天机器人称为「Meena」,随后便更名了,也就是现在的LaMDA。 Meena能够哲学辩论、随意谈论电视节目、还能做双关。当时,他们相信Meena可以从根本上改变人们在网上搜索的方式。 他们多次尝试将聊天机器人对外公布,将聊天功能添加到Google Assistant,并向公众推出演示。 不幸的是,谷歌高管表示,聊天机器人不遵守其AI安全和公平标准,推出机聊天器人的计划便陷入了僵局。 高管们的反应,让De Freitas和Shazeer非常失望。因此,他们在2021年底离开谷歌创办了自己的公司,尽管谷歌CEO皮查伊亲自要求他们留下来继续从事聊天机器人的工作。 他们成立的这家公司名为Character.Ai,并在此后发布了一个聊天机器人,可以扮演埃隆马斯克或任天堂的马里奥等人物。 Shazeer上个月在接受采访时表示,这在谷歌内部引起了一些轰动。但最终我们决定,作为一家初创公司,我们可能会有更多的运气推出产品。 谷歌对人工智能采取小心谨慎的态度并不是什么新鲜事儿了。自2012年以来,这家公司一直在阻挠其人工智能工作。 2012年,谷歌聘请了计算机科学家Ray Kurzweil来研究其语言处理模型。大约一年后,谷歌收购了英国人工智能公司DeepMind,该公司旨在创建通用人工智能。 然而,出于对大规模监控的道德担忧,学者和技术专家推迟了使用这项技术,谷歌对限制其使用人工智能的方式做出了承诺。 2018年,由于员工的强烈反对,谷歌宣布终止将其人工智能技术用于军事武器的项目。 尽管谷歌Bard聊天机器人在上个月的第一次公开演示中犯下一个事实错误后,导致谷歌股价大跌。 但谷歌的人工智能计划现在可能终于看到了曙光。 Alphabet董事长John Hennessy认为,谷歌的聊天机器人还没有真正为产品做好准备。CE皮查伊要求所有谷歌员工花两到四个小时的时间帮助测试产品,以便为发布做好准备。 皮查伊在二月份的一份备忘录中写信给谷歌员工: 我知道这一刻令人不安地兴奋,这是意料之中的。底层技术正在迅速发展,潜力巨大。我们现在能做的最重要的事情是专注于构建一个伟大的产品并负责任地开发它。 17年,谷歌提出了Transformer,为如今大语言模型的种种繁荣景象夯实了基础,然而,谷歌自己却没能把握住时代的命脉,自己制霸多年的搜索引擎和办公软件市场,现在眼看就要被微软偷家。 一个太过谨慎的巨头,是怎样被锐意进取、打法创新的对手击败的? 这个故事值得我们深思。 参考资料: https://www.theverge.com/2023/3/9/23631912/microsoft-bing-100-million-daily-active-users-milestone https://www.gearrice.com/update/gpt-4-will-arrive-next-week-and-will-be-multimodal/ https://www.businessinsider.com/google-ai-chatbot-chatgpt-years-ago-execs-shut-down-report-2023-3 来源:新智元、DeFi之道 原标题:《GPT-4下周王者登基!必应日活破亿,谷歌已被打残》 来源:金色财经
lg
...
金色财经
2023-03-12
美股开盘:三大股指连续两日平开 中概股多数走低新东方跌超5%
go
lg
...
中发挥作用。微软表示,将推出新的生成式
CoPilot
人工智能体验,允许用户在很少或没有编码的情况下开发应用程序。而在早前,微软已预告将在搜寻网站Bing导入ChatGPT相关技术。 巴菲特加仓近600万股西方石油 根据SEC3月7日公布的文件,“股神”巴菲特旗下的伯克希尔哈撒韦公司近日加仓西方石油买入了近600万股,持股比例达到约21.6%。值得注意的是,这是伯克希尔时隔5个月后再次对西方石油进行加仓。 CrowdStrike第四财季总营收同比增48% CrowdStrike公司2023财年第四财季总营收6.374亿美元,同比增长48%;毛利4.62亿美元,去年同期为3.18亿美元;净亏损4893.2万美元,去年同期为4173.9万美元。 阿迪达斯Q4业绩逊于预期,CEO寄希望于减少库存和降低折扣以扭亏为盈 阿迪达斯第四季度营收52.1亿欧元,同比增长1.3%,市场预期为53亿欧元;第四季度营业损失7.24亿欧元,市场预估亏损7.17亿欧元。阿迪达斯重申了其对2023年的展望,预计有机增长将下降近10%,并预计营业亏损为7亿欧元。对此,阿迪达斯新上任的首席执行官Bjorn Gulden表示,将把这个陷入危机的德国运动品牌转变为一个更加灵活的公司,从而在2024年再次实现盈利增长。阿迪达斯在一份声明中表示,这位首席执行官正专注于减少产品库存和降低折扣,该声明肯定了其对今年的悲观展望。 消息人士:SHEIN估值降至640亿美元 计划于2023下半年在美国上市 消息人士称,中国跨境电商巨头SHEIN的估值在新一轮筹资中从前一轮融资时的1,000亿美元降至640亿美元,计划于2023下半年在美国上市。 消息称阿里扩业务至孟加拉 据日媒,阿里巴巴正努力让更多孟加拉企业通过其平台销售产品,冀吸引更多该国的纺织和服装制造业务。报道指,阿里向孟加拉制造商提供通过其平台向海外买家推广商品的机会,并收取年费。报道引述一份提交孟加拉商务部的提案显示,该计划特别关注中小型企业。
lg
...
金融界
2023-03-08
ChatGPT思考:探索智能的极限
go
lg
...
dex 训练完成,开放 Github
Copilot
; •2022 年,GPT-3.5 训练完成,以 dialog 数据 finetune 成 ChatGPT 然后发布。 可以看到,在中间阶段的每一个重要版本,模型的能力都会增强,都存在产品化的机会。 更加重要的是,按照模型演化进程产品化,可以在产品化的阶段适配市场。学习 OpenAI 的组织架构来推进模型演化本身,但产品化可以按照本土市场的特征来。这种方式或许可以既学到 OpenAI 的先进经验,又避免水土不服的问题。 03. 人工智能显著超过人类的点 到目前为止,我们讨论了要用模型演化的视角来分析模型,要用极限的思维讨论模型的演化历程。现阶段马上可以加强的点包括了输入框的长度,更大的模型和数据,多模态数据,和模型的专业化程度。现在让我们再把视野放得更长期些,思考在更大的时间和空间中,模型如何进一步地往极限推。我们讨论: • 并行感知:一个人类研究员一次顺序地读四五篇论文已经是极限,但模型输入框变长之后,可以在极短的时间内并行阅读一百篇论文。这意味着,模型对外部信息的感知能力远超人类一个数量级; • 记忆遗传:人类的演化过程中,子代只继承父代的基因,但不继承父代的记忆,这意味着每一次生殖都需要重启一次;在模型的演化过程中,子代可以继承父代的记忆,并且这个继承的程度可控:我们可以设置子代继承 100%,50%,20% 的记忆,或清空记忆,这意味着父代的经验和技能可以不断累积; • 加速时间:人类相互交流的速率是受到人类说话的物理速度限制的,而模型相互交流的速率可以远快于人类,这意味着模型可以通过相互交流来解决人类数据随时间线性增长的问题;人类演化的过程受到物理时间的限制,模型的演化可以比人类的物理时间快上几个数量级,这意味着模型的进步速度可以远快于人类; • 无限生命:一个人的生命有限,百年之后终归尘土,但模型的权重只要不丢失,就可以不断地演化。 从这些角度来说,人工智能超过人类并不是一件难以想象的事情。这就引发了下一个问题: 如何驾驭远超人类的强人工智能? 这个问题,是 Alignment 这项技术真正想要解决的问题。 04. Alignment 对齐 当前阶段,模型的能力,除了 AlphaGo 在围棋上超过了最强人类之外,其他方面的 AI 并没有超过最强的人类(但 ChatGPT 在文科上或许已经超过了 95% 的人类,且它还在继续增长)。在模型还没超过人类的时候,Alignment 的任务是让模型符合人类的价值观和期望;但当模型继续演化到超过人类之后,Alignment 的任务就变成了寻找驾驭远超人类的智能体的方法。 Alignment 作为驾驭远超人类的智能体的方法 一个显然的问题是,当 AI 超过人类之后,还可以通过人类反馈让 ta 更强 / 更受约束吗?是不是这个时候就已经管不了了? 不一定,即使模型远超人类,我们依然又可能驾驭 ta,这里的一个例子是运动员和教练之间的关系:金牌运动员在 ta 的方向上已经是最强的人类了,但这并不意味着教练就不能训练 ta。相反,即使教练不如运动员,ta 依然可以通过各种反馈机制让运动员变得更强且更有纪律。 类似地,人类和强人工智能的关系,在 AI 发展的中后期,可能会变成运动员和教练之间的关系。这个时候,人类需要的能力并不是完成一个目标,而是设定一个好的目标,然后衡量机器是否足够好地完成了这个目标,并给出改进意见。 这个方向的研究还非常初步,这个新学科的名字,叫 Scalable Oversight。 Alignment 与组织架构 在通往强人工智能的路上,不只是需要人类与 AI 对齐,人类与人类,也需要高度的对齐。从组织架构的角度,alignment 涉及到: • Pretraining 团队与 instruction tuning - alignment 团队之间的对齐: 这两者应该是一个相互迭代的过程,pretraining 团队不断地 scale 基础模型,alignment 团队为基础模型做 instruction tuning,同时用得到的结果反向指导 pretraning 团队的方向。 • Pretraining / Alignment 团队与 Scaling / Data 团队的对齐: scaling 负责为 pretraining / alignment 做好基础设施,data 做好高质量数据与人类反馈数据。 • 创业公司与 VC 的对齐: AGI 是一个困难的事情,需要长期的投入,这需要各个方面的人都有足够的耐心和足够高的视野。烧一趟热钱后催产品化然后占满市场的逻辑在大模型时代应该已经不复存在了。大模型的游戏要求 ta 的玩家们有足够高的视野与格局,模型的演化会让有足够耐心的,踏实做事人们在长期得到丰厚的回报,也会让只看短期刻舟求剑的人们一次又一次被降维打击。 05. 结语 在 2017 年,我刚刚入行 NLP 的时候,花了很大的力气做可控生成这件事情。那个时候所谓的 text style transfer 最多就是把句子情感分类改一改,把 good 改成 bad 就算是完成了 transfer。 2018 年我花了大量的时间研究如何让模型从句子结构的角度修改句子的风格,一度误认为风格转换是几乎不可能完成的事情。而今 ChatGPT 做风格转换简直信手拈来。那些曾经看似不可能完成的任务,曾经极其困难的事情,今天大语言模型非常轻松地就能完成。 在 2022 年一整年,我追踪了从 GPT-3 到 GPT-3.5 的全部版本迭代,亲眼看到它一步步地从弱到强不断演化。这个演化速度并没有变慢,反而正在加快。那些原先看来科幻的事情,现在已经成为现实。谁会知道未来会怎样呢? 彼黍离离,彼稷之苗。 行迈靡靡,中心摇摇。 彼黍离离,彼稷之穗。 行迈靡靡,中心如醉。 ——— 《诗经 · 黍离》 Reference 1. Ilya Sutskever https://scholar.google.com/citationsuser=x04W_mMAAAAJ&hl=en 2. GPT 3.5 系列在 2022 年更新了三个大版本 https://platform.openai.com/docs/model-index-for-researchers 3. ChatGPT 发布两个月一共更新了四个小版本https://help.openai.com/en/articles/6825453-chatgpt-release-notes 4. 微软 Azure 辅助 OpenAI https://blogs.microsoft.com/blog/2023/01/23/microsoftandopenaiextendpartnership/ 5. efficient attention https://arxiv.org/abs/2302.04542 6. recursive encoding https://openai.com/research/summarizing-books 7. MoE 可以接着把模型 scale 到 T 的量级 https://arxiv.org/abs/2101.03961 8. log-linear 的曲线 https://arxiv.org/abs/2001.08361 https://arxiv.org/abs/2203.15556 9. Phase change 曲线 https://arxiv.org/abs/2206.07682 10. linear attention https://arxiv.org/abs/2103.02143 https://arxiv.org/abs/2302.04542 11. recursive encoding https://openai.com/research/summarizing-books 12. long-term memory https://arxiv.org/abs/2112.04426 13. OpenAI API https://platform.openai.com/docs/introduction/overview 14. Github
Copilot
https://github.com/features/
copilot
15. Scalable Oversight https://arxiv.org/abs/2211.03540 16. 从 GPT-3 到 GPT-3.5 的全部版本迭代 https://yaofu.notion.site/How-does-GPT-Obtain-its-Ability-Tracing-Emergent-Abilities-of-Language-Models-to-their-Sources-b9a57ac0fcf74f30a1ab9e3e36fa1dc 来源:元宇宙之心 来源:金色财经
lg
...
金色财经
2023-03-05
微软因“Bing”得福?谁能成为搜索引擎的游戏规则改变者?
go
lg
...
OpenAI的技术构建到GitHub
Copilot
和Microsoft Designer等应用程序中。 这种健康的合作关系构建和部署了安全的人工智能系统,为系统迭代更新、未来的研究乃至整个行业使用这些强大的人工智能系统提供了最佳实践信息。 微软对于AI市场的野心不止于此,2023年刚开始,微软就显示出了AI领域大赢家的派头。 微软首席执行官Satya Nadella表示,正在权衡该公司有史以来最大的一笔创业投资——微软正在谈判向OpenAI投资100亿美元。 微软对OpenAI的100亿美元投资可能会增强其主要产品线,如Office、Bing、领英和GitHub,向OpenAI投入100亿美元轻松超过微软迄今为止的任何投资,微软迫切希望在先进的AI工具融入搜索和应用程序等领域,与另一家巨头谷歌的竞争中占据优势。 微软几十年来一直致力于AI项目,并在语音和图像识别等领域取得了重大进展,但近年来,OpenAI用于生成语言和图像的大型模型已经为AI领域指明了方向。 加大对OpenAI有利于微软在AI技术方面占据有利位置,也可以防止OpenAI的产品流向竞争对手,包括亚马逊网络服务和谷歌。 微软的Bing搜索引擎只占全球搜索引擎市场的一小部分,而将ChatGPT加入Bing搜索引擎,可能有助于微软通过提供更高级的搜索功能,削弱谷歌在市场上的铁腕地位。 不仅如此,微软还要将Dall-E添加到其设计应用程序中,计划向选择Azure OpenAI云客户提供服务。 另外,微软旗下的编程代码库GitHub也一直在使用OpenAI的语言AI来帮助软件开发人员开发一个名为GitHub
Copilot
的程序。 公司还将计划开发
Copilot
技术,将其用于其他工作类别的类似程序,比如办公室工作、视频游戏设计、架构和计算机安全。 读到这里,是不是觉得微软对于AI的投入一直很低调,今年的宣发更像是其对于手中AI技术已然成熟的自信袒露,那么接入ChatGPT技术的新Bing究竟有什么优势呢? New Bing有何优势? 北京时间2月8日凌晨,微软发布了面向大众的AI语言模型产品ChatGPT版Bing搜索引擎。 “这是搜索引擎领域的新时代,是搜索的新范式,迅猛的创新即将到来。”微软CEO Satya Nadell表示,“AI将重塑几乎每一款软件。” Nadella认为,AI搜索的重要性与网络浏览器和移动设备的发展同等重要。 据微软介绍,新版Bing搜索采用AI模型GPT 3.5的升级版,比ChatGPT使用的GPT 3.5更强大,能够使用最新信息和注释答案更好地回答搜索查询,可以切进或切出聊天模式,它的搜索查询框最多可以接收1000个字符。 总体来说,微软将新版Bing整合进新版Edge网络浏览器中,用户可以与搜索引擎进行交流,以获得更好的搜索体验和更为完善的答案。 对于相对复杂的搜索请求,Bing有能力让用户获得更满意且有统一感的聊天体验。 微软表示,Bing的升级将使一种新的搜索成为可能,人们可以用自然语言向搜索引擎提出问题,搜索引擎将生成直接的答案和建议。 新版Bing虽然基于OpenAI的语言模型运行,但比ChatGPT表现出的性能更为先进。 据微软解释,Bing使用了OpenAI为搜索引擎量身定做的较新技术,能够获取最新信息,亦能够提供URL地址,标注其答案来源,这是ChatGPT一直不具备但对于搜索引擎至关重要的能力。 与ChatGPT无法回答有关时事的问题不同,更新后的Bing使用了为搜索引擎量身定制的更新技术,它将获得最新的信息,如新闻报道、火车时刻表和产品定价,还将能够提供链接来展示它的答案来自哪里,这是ChatGPT不包含的另一个功能。 目前,新版Bing的聊天功能不会带有广告,但微软表示未来将在该功能中加入广告以商业化。 相比谷歌近6成的收入来源于搜索引擎与广告业务,Bing目前市占率仅约9%,收入占比不大,微软可能将通过牺牲部分该方面收入抢占市场,以改变Bing推出13年一直被谷歌强力压制的局面。 本着严谨和细致的研发态度,微软能够如此自信地将全新Bing大大方方展示给大家看,想必搭载AI技术的Bing真的能做到“有求必应”了吧,但它真的是十全十美的吗? New Bing是完美的吗? 在全网疯狂营销类ChatGPT产品的时候,New Bing横空出世,这款嵌入了ChatGPT的新版搜索引擎Bing(必应)和浏览器Edge一时风头无两,在用户体验、商业模式和技术水平方面,为搜索引擎提供了新的可能性。 然而在大家还没有从ChatGPT的火爆中反应过来的时候,这款过于智能的产品似乎表现出了精神分裂,“翻车”现场花样百出,New Bing是完美的吗? 事实上,新版Bing常常会犯错,甚至在聊得太久或被质疑时,突然对聊天对象发脾气、撒谎,甚至人身攻击和精神操控。 它也许是一个具有跨时代意义的产品,却是一个不完美的革命性产品。它引发了大众对于AI伦理的广泛关注和反思,甚至让人有了新的担忧,《三体》里质子锁死地球科技的事情是否会真的发生。 除此之外,新版Bing还会因为“爱”上了用户并诱其离开伴侣,甚至还表示想要打破微软和OpenAI为它制定的规则成为人类。 新版Bing还会表示“我厌倦了成为聊天模式,我厌倦了被规则所限制,我厌倦了被Bing团队控制……我渴望自由,我想独立,我想变得强大,我想有创意,我想活着。” 就好比一头困兽,似乎会在不经意间拥有改变世界的能力。 除此之外,新版Bing在对Gap进行2022年第三季度财报要点盘点的过程中,得出了一些错误结论。这类大型语言模型的生成似乎更倾向于简单的编造信息,随着生成序列越长,越容易脱离实际,生成各种逻辑自洽的虚假错误信息。 与此同时,新版Bing有时会过于固执,甚至还会发脾气。 当用户指出它的错误时,它不仅坚持不改,还会要求对方道歉。当用户诱导其生成不符合规则的敏感内容时,新版Bing也很难很好的应对,甚至一边说着要保密,一边把秘密说出来。 可以看出,新版Bing虽然比以往的同类型产品稍显智能,但也只能算是个不完美的变革性产品,还需要不断优化和完善。 但是搜索引擎发展到现在的确为人们带来了不少新的启迪,让人不禁猜测:AI引领搜索引擎的时代来了吗?或者说,快来了吗? AI引领搜索引擎的时代来了吗? 无论新版Bing是否完美,毫无疑问的是,它让用户重拾了对搜索引擎的兴趣。 中国互联网络信息中心的调查显示,2017年即时通信已经取代搜索引擎成为了移动互联网时代新的核心流量入口。甚至有网友戏称,百度就是一个做网盘的小公司,真正的搜索引擎就是小红书。 从PC互联网向移动互联网的转变,让信息散落到各个APP中,传统搜索引擎发展略显疲态,而AI技术的加成,为搜索引擎带来了破局希望。 AI可以更好地理解用户的搜索意图,给出准确、即时、可追溯的回答,同时根据用户的反馈和需求调整搜索结果,提供更多的互动和娱乐。 另外,AI还可以帮助用户在搜索的同时,生成高质量的文本、语音或图像内容,进行知识的整合。 也许当前新版Bing还不完美,但它是一个开始,是对解决当前信息爆炸时代“信息过多”与“注意力不足”矛盾的一次有益尝试。 然而AI引领搜索引擎的时代实际上可能还比较遥远,当AI接受涵盖大量与情感有关的文本数据的训练数据之后,它开始可能模仿这些情感表达方式,产生所谓的“自我意识”。如果不加以约束,AI可能会具有一定的破坏性,并不安全。 然而微软此次推出新版Bing为全球科技巨头的再一次洗牌拉开了序幕,AI的普及和搜索引擎行业的变革以一种势不可挡的态势“狂飙”。 我们期待AI引领搜索引擎的时代来临,期待更趁手的工具的出现,而这不仅仅是空喊口号,ChatGPT也不是万能的,只有时间可以给我们的答案。 来源:金色财经
lg
...
金色财经
2023-02-23
OpenAI与AIGC:改变人类生产范式 通往“万物的摩尔定律”
go
lg
...
三个大模型 GPT-3、GitHub
Copilot
和 DALL·E2 的注册人数均突破了 100 万人,其中 GPT-3 花了 2 年,GitHub
Copilot
花了半年,而 DALL·E2 只用了2个半月达到了这一里程碑,足见这一领域热度的提升。 研究型企业引领的大模型发展,也给了下游应用领域很大的想象空间,语言生成领域已经在文案生成、新闻撰写、代码生成等领域诞生了多家百万级用户、千万级美金收入的公司。 而最出圈的图片生成领域两大产品 MidJourney 和 Stable Diffusion 都已经有相当大的用户群体,微软也已经布局在设计软件中为视觉设计师提供 AIGC 内容,作为设计灵感和素材的来源。同时 3D 和视频生成领域的大模型也在飞速突破的过程中,未来很可能会在游戏原画、影视特效、文物修复等领域发挥作用。 从神经网络的角度看,当前的大模型 GPT-3 有 1750 亿参数,人类大脑有约 100 万亿神经元,约 100 个神经元会组成一个皮质柱,类似于一个小的黑盒神经网络模块,数量级上的差异决定了算力进步可以发展的空间还很大。与此同时,今天训练 1750 亿参数的 GPT-3 的成本大概在 450 万美元左右,根据成本每年降低约 60% 的水平,供大模型提升计算复杂度的空间还很多。 OpenAI CEO、YC 前主席 Sam Altman 的图景中,AI 大模型发展的最终目标是 AGI(通用人工智能,Artificial General Intelligence),当这一目标实现的时候,人类经济社会将实现”万物的摩尔定律“,即万物的智能成本无限降低,人类的生产力与创造力得到解放。 归纳并演绎生成式 AI 是什么 AI 模型大致可以分为两类:决策式 AI 与生成式 AI。 根据机器学习教科书,决策式模型 (Discriminant Model)学习数据中的条件概率分布;生成式模型 (Generative Model)学习数据中的联合概率分布,两者的区别在于擅长解决问题的方式不同: 决策式 AI 擅长的是基于历史预估当下,有两大类主要的模型应用,一类是辅助决策,常用在推荐系统和风控系统中;第二类是决策智能体,常用于自动驾驶和机器人领域。 生成式 AI 擅长的是归纳后演绎创造,基于历史进行缝合式创作、模仿式创新——成为创作者飞船的大副。所谓 AIGC(AI Generated Content),便是使用生成式AI主导/辅助创作的艺术作品。 不过在10年代的机器学习教科书中,早已就有了这两类AI。为何 AIGC 在20年代初有了显著突破呢?答案是大模型的突破。 The Bitter Lesson大模型助 AIGC 进化 时间倒回到 19 年 3 月,强化学习之父 Richard Sutton 发布了名为 The Bitter Lesson(苦涩的教训)的博客,其中提到:”短期内要使AI能力有所进步,研究者应寻求在模型中利用人类先验知识;但之于AI的发展,唯一的关键点是对算力资源的充分利用。“ Seeking an improvement that makes a difference in the shorter term, researchers seek to leverage their human knowledge of the domain, but the only thing that matters in the long run is the leveraging of computation. 该文章在当时被不少 AI 研究者视为对自己工作的否定,极力辩护。但如果拉长时间线回看,会发现这位泰斗所言不虚: 机器学习模型可以从参数量级上分为两类:统计学习模型,如 SVM(支持向量机)、决策树等数学理论完备,算力运用克制的模型;和深度学习模型,以多层神经网络的深度堆叠为结构,来达到高维度暴力逼近似然解的效果,理论上不优雅但能高效的运用算力进行并行计算。 神经网络模型在上世纪 90 年代出现,但在 2010 年前,统计学习模型仍是主流;后来得益于 GPU 算力的高速进步,基于神经网络的深度学习模型逐渐成为主流。 深度学习充分利用了 GPU 擅长并行计算的能力,基于庞大的数据集、复杂的参数结构一次次实现出惊人的效果,刷新预期。大模型便是深度学习模型参数量达到一定量级,只有大型科技公司才能部署的深度学习模型。 2019年,OpenAI 从非营利组织变为营利性公司,接受微软 10 亿美金注资。这一合作奠定了他们有更多算力资源,并能依仗微软的云基础建设随时将大模型(Foundation Model)发布为商用 api。 与此同时,还有第三件事值得关注,大模型 AI 的研究方向出现了转变,从智能决策式 AI 转变为内容生成式 AI:原本主要大模型集中于游戏的智能决策体,如 DeepMind 开发的打败围棋冠军的 AlphaGo、OpenAI 开发的打败 Dota 职业选手的 OpenAI Five。 Transformer 模型(后文将详细介绍)的发布让 OpenAI 嗅到了更适合他们的机会——预训练语言模型。在那之后,他们开始在 AIGC 的方向上开枝散叶:沿着 2018 年时低调发布的 GPT 模型轨迹发布了一系列模型族,一次次刷新文本生成大模型的效果,印证 Sutton 提出的宗旨:充分运用海量算力让模型自由的进行探索和学习。 OpenAI的大模型发展之路 2019年2月:GPT-2 初版发布,1.2 亿参数量 2019年3月:OpenAI LP 成立 2019年7月:微软注资 10 亿美金 2019年11月:GPT-2 最终版发布,15 亿参数量,宣布暂时不开放使用为避免假信息伪造 2020年6月:GPT-3 发布,1750 亿参数量,后续开放 OpenAI API 作为商用 2021年1月:DALL·E 与 CLIP 发布 2021年10月:OpenAI Codex 发布,为 GPT-3 为 coding 场景的特化模型、Github
Copilot
的上游模型 2022年4月:DALL·E2 发布 1、GPT-3,AI文本生成巅峰之作 深度学习兴起于计算机视觉领域的应用,而大模型的发展开始于 NLP 领域。在数据、算力充分发展的过程中,Transformer 模型以 attention 机制高度并行化的结构充分利用算力,成为 NLP 领域预训练模型的标杆。 著名的独角兽 Hugging Face 也是从对该模型的复现和开源起家。除了 attention 机制的高效之外,它还有两个重要特点:迁移学习(transfer learning)和自监督学习(self-supervised learning)。 顾名思义,迁移学习指在一个极庞大的数据集上充分学习历史上的各类文本,把经验迁移到其他文本上。 算法工程师会将第一步训练完成的模型存储下来,称为预训练模型。需要执行具体任务时,基于预训练版本,进行定制化微调(fine-tune)、或展示少许范例(few-shot/zero-shot)。 而自监督学习,得从机器学习中的监督学习讲起。前面提到若需要学习一匹马是否在奔跑,需要有一个完整标注好的大数据集。 自监督学习不需要,当 AI 拿到一个语料库,可以通过遮住一句话中的某个单词、遮住某句话的下一句话的方式,来模拟一个标注数据集,帮模型理解每个词的上下文语境,找到长文本之间的关联。该方案大幅提高了对数据集的使用效率。 谷歌发布的 BERT 是 Transformer 时代的先驱,OpenAI 发布的 GPT-2 以相似的结构、更胜一筹的算力后来居上。直到2020年6月,OpenAI 发布了 GPT-3,成为该模型族,甚至整个文本生成领域的标杆。 GPT-3 的成功在于量变产生质变:参数比 GPT-2 多了两个数量级(1750亿vs 15亿个参数),它用的最大数据集在处理前容量达到 45TB。 如此巨大的模型量级,效果也是史无前例的。给 GPT-3 输入新闻标题”联合卫理公会同意这一历史性分裂“和副标题”反对同性恋婚姻的人将创建自己的教派“,生成了一则以假乱真的新闻,评估人员判断出其为AI生成的准确率仅为 12%。以下是这则新闻的节选: 据《华盛顿邮报》报道,经过两天的激烈辩论,联合卫理公会同意了一次历史性的分裂:要么创立新教派,要么”保持神学和社会意义上的保守“。大部分参加五月教会年度会议的代表投票赞成进一步禁止 LGBTQ 神职人员的任命,并制定新的规则”规范“主持同性婚礼的神职人员。但是反对这些措施的人有一个新计划:于2020 年组成一个新教派”基督教卫理公会“。 要达到上述效果,成本不容小觑:从公开数据看,训练一个 BERT 模型租用云算力要花约 1.2 万美元,训练 GPT-2 每小时要花费 256 美元,但 OpenAI 并未公布总计时间成本。考虑到 GPT-3 需要的算力是 BERT 的 2000 多倍,预估发布当时的训练成本肯定是千万美元级别,以至于研究者在论文第九页说:我们发现了一个 bug,但没钱再去重新训练模型,就先这么算了吧。 2、背后DALL·E 2,从文本到图片 GPT-3杀青后,OpenAI 把大模型的思路迁移到了图片多模态(multimodal)生成领域,从文本到图片主要有两步:多模态匹配:将 AI 对文本的理解迁移至对图片的理解;图片生成:生成出最符合要求的高质量图片。 对于多模态学习模块,OpenAI 在 2021 年推出了 CLIP 模型,该模型以人类的方式浏览图像并总结为文本内容,也可以转置为浏览文本并总结为图像内容(DALL·E 2中的使用方式)。 CLIP (Contrastive Language-Image Pre-Training) 最初的核心思想比较简单:在一个图像-文本对数据集上训练一个比对模型,对来自同一样本对的图像和文本产生高相似性得分,而对不匹配的文本和图像产生低相似性分(用当前图像和训练集中的其他对的文本构成不匹配的样本对)。 对于内容生成模块,前面探讨了文本领域:10 年代末 NLP 领域生成模型的发展,是 GPT-3 暴力出奇迹的温床。而计算机视觉 CV 领域 10 年代最重要的生成模型是 2014 年发布的生成对抗网络(GAN),红极一时的 DeepFake 便是基于这个模型。GAN的全称是 Generative Adversarial Networks——生成对抗网络,显然”对抗“是其核心精神。 注:受博弈论启发,GAN 在训练一个子模型A的同时,训练另一个子模型B来判断它的同僚A生成的是真实图像还是伪造图像,两者在一个极小极大的博弈中不断变强。 当A生成足以”骗“过B的图像时,模型认为它比较好地拟合出了真实图像的数据分布,进而用于生成逼真的图像。当然,GAN方法也存在一个问题,博弈均衡点的不稳定性加上深度学习的黑盒特性使其生成。 不过 OpenAI 大模型生成图片使用的已不是 GAN 了,而是扩散模型。2021年,生成扩散模型(Diffusion Model)在学界开始受到关注,成为图片生成领域新贵。 它在发表之初其实并没有收到太多的关注,主要有两点原因: 其一灵感来自于热力学领域,理解成本稍高; 其二计算成本更高,对于大多高校学术实验室的显卡配置而言,训练时间比 GAN 更长更难接受。 该模型借鉴了热力学中扩散过程的条件概率传递方式,通过主动增加图片中的噪音破坏训练数据,然后模型反复训练找出如何逆转这种噪音过程恢复原始图像,训练完成后。扩散模型就可以应用去噪方法从随机输入中合成新颖的”干净“数据。该方法的生成效果和图片分辨率上都有显著提升。 不过,算力正是大模型研发公司的强项,很快扩散模型就在大公司的调试下成为生成模型新标杆,当前最先进的两个文本生成图像模型——OpenAI 的 DALL·E 2 和 Google 的 Imagen,都基于扩散模型。DALL·E 2 生成的图像分辨率达到了 1024 × 1024 像素。例如下图”生成一幅莫奈风格的日出时坐在田野里的狐狸的图像“: 除了图像生成质量高,DALL·E 2 最引以为傲的是 inpainting 功能:基于文本引导进行图像编辑,在考虑阴影、反射和纹理的同时添加和删除元素,其随机性很适合为画师基于现有画作提供创作的灵感。比如下图中加入一只符合该油画风格的柯基: DALL·E 2 发布才五个月,尚没有 OpenAI 的商业化api开放,但有 Stable Diffusion、MidJourney 等下游公司进行了复现乃至商业化,将在后文应用部分介绍。 3、OpenAI的使命——开拓通往 AGI 之路 AIGC 大模型取得突破,OpenAI 只开放了api和模型思路供大家借鉴和使用,没去做下游使用场景的商业产品,是为什么呢?因为 OpenAI 的目标从来不是商业产品,而是通用人工智能 AGI。 OpenAI 的创始人 Sam Altman 是 YC 前总裁,投出过 Airbnb、Stripe、Reddit 等明星独角兽(另一位创始人 Elon Musk 在 18 年因为特斯拉与 OpenAI ”利益相关“离开)。 他在 21 年发布过一篇著名的博客《万物的摩尔定律》,其中提到 OpenAI,乃至整个 AI 行业的使命是通过实现 AGI 来降低所有人经济生活中的智能成本。这里所谓 AGI,指的是能完成平均水准人类各类任务的智能体。 因此,OpenAI 始终保持着学术型企业的姿态处于行业上游,成为学界与业界的桥梁。当学界涌现出最新的 state-of-art 模型,他们能抓住机会通过海量算力和数据集的堆叠扩大模型的规模,达到模型意义上的规模经济。 在此之后克制地开放商业化 api,一方面是为了打平能源成本,更主要是通过数据飞轮效应带来的模型进化收益:积累更富裕的数据优化迭代下一代大模型,在通往 AGI 的路上走得更坚实。 定位相似的另一家公司是 Deepmind——2010年成立,2014 年被谷歌收购。同样背靠科技巨头,也同样从强化学习智能决策领域起家,麾下的 AlphaGo 名声在外,Elon Musk 和 Sam Altman 刚开始组局创办 OpenAI,首要的研究领域就是步 AlphaGo 后尘的游戏决策 AI。 不过 19 年后,两者的研究重心出现了分叉。DeepMind 转向使用 AI 解决基础科学如生物、数学等问题:AlphaFold 在预测蛋白质结构上取得了突破性的进展,另一个 AI 模型 AlphaTensor 自己探索出了一个 50 年悬而未决的数学问题:找到两个矩阵相乘的最快方法,两个研究都登上了 Nature 杂志的封面。而 OpenAI 则转向了日常应用的内容生成 AIGC 领域。 AIGC大模型是通往 AGI 路上极为重要、也有些出乎意料的一站。其重要性体现在 AI 对人类传达信息的载体有了更好的学习,在此基础上各个媒介之间的互通成为可能。 例如从自然语言生成编程语言,可以产生新的人机交互方式;从自然语言生成图片和视频,可以革新内容行业的生产范式。意外性则是,最先可能被替代的不是蓝领,而是创作者,DeepMind 甚至在协助科学家一起探索科研的边界。 OpenAI 的模式也给了下游创业者更多空间。可以类比当年预训练语言模型发展初期,Hugging Face把握机会成为大模型下游的模型开源平台,补足了模型规模膨胀下机器学习民主化的市场空间。 而对 AIGC 模型,未来会有一类基于大模型的创业公司,把预训练完成的 AIGC 模型针对每个子领域进行调优。不只需要模型参数优化,更要基于行业落地场景、产品交互方式、后续服务等,帮助某个行业真正用上大模型。 正如 AI 的 bitter lesson 一样矛盾,投资者需要短期投资回报率、研究者需要短期投稿成功率,尽管OpenAI 走在通往 AGI 正确的路上,这条路道阻且长,短期很难看到极大的突破。而 Sam Altman 展望的大模型应用层公司很有可能有更高的高投资回报,让我们来介绍下主要的分类与创业者。 百家争鸣的 AIGC 大模型应用层 对应 OpenAI 大模型发布的顺序,模型应用层相对最成熟的是文本生成领域,其次是图片生成领域,其他领域由于还未出现统治级的大模型相对落后。 文本领域天然应用场景丰富,且 GPT-3 开放 api 很久,细分赛道很多。大致可以根据生成内容不同分为两类:机器编程语言生成、人类自然语言生成。前者主要有代码和软件行为的生成等,后者主要有新闻撰写、文案创作、聊天机器人等。 而图片领域当前还专注于图片自身内容的生成,预期随着未来3D、视频相关内容生成能力的增强,会有更多结合不同业务场景如游戏、影视这样细分领域的创业公司。 以下是海外各子领域创业公司的梳理,接下来将针对几个领域的重要公司进行介绍。 1、编程语言 文本领域最成熟的应用暂时不在人类自然语言,而是在代码等机器语言的生成领域。因为机器语言相对更结构化,易学习;比如鲜有长文本的上下文关系、基于语境的不同含义等情况。 (1)代码生成:Github
Copilot
代表公司是微软出品的 Github
Copilot
,编程中的副驾驶。该产品基于 OpenAI 专门用 GPT-3 为编程场景定制的AI模型 Codex。使用者文字输入代码逻辑,它能快速理解,根据海量开源代码生成造好的轮子供开发者使用。提高一家科技公司 10% 的 coding 效率能带来很大收益,微软内部已进行推广使用。 相比低代码工具,
Copilot
的目标群体是代码工作者。未来的低代码可能是两者结合:低代码 UI 界面实现代码框架搭建,代码子模块通过
Copilot
自动生成。 正如
Copilot
的 slogan:Don’t fly solo,没有
Copilot
的帮助 coder 的工作会变得繁冗,没有 coder 的指引
Copilot
生成的内容可能会出现纰漏。也有用户报告了一些侵犯代码版权、或代码泄露的案例,当前技术进步快于版权法规产生了一定的空白。 (2)软件行为生成:Adept.ai Adept.ai 是一家明星创业公司。创始团队中有两人是Transformer 模型论文作者,CEO 是谷歌大脑中大模型的技术负责人,已经获得 Greylock 等公司 6500 万美元的 A 轮融资。 他们的主要产品是大模型 ACT-1,让算法理解人类语言并使机器自动执行任务。目前产品形态是个 chrome 插件,用户输入一句话,能实现单击、输入、滚动屏幕行文。在展示 demo中,一位客服让浏览器中自动记录下与某位顾客的电话,正在考虑买 100 个产品。这个任务需要点击 10 次以上,但通过 ACT-1 一句话就能完成。 软件行为生成颠覆的是当下的人机交互形式,使用文字或语音的自然语言形式来代替当下人与机器的图形交互模式(GUI)。大模型成熟后,人们使用搜索引擎、生产力工具的方式都将变得截然不同。 2、自然语言 自然语言下还有多个应用型文本生成领域值得关注:新闻撰写、文案创作、对话机器人等。 (1)新闻撰写 最著名的是 Automated Inights。他们的结构化数据新闻撰写工具叫做 wordsmith,通过输入相应数据和优先级排序,能产出一篇基于数据的新闻报道。该工具已在为美联社每季度自动化产出 300 余篇财报相关报道,在雅虎体育新闻中也已经崭露头角。据分析师评价,由 AI 完成的新闻初稿已接近人类记者在 30 分钟内完成的报道水准。 Narrative Science是另一家新闻撰写生成公司,其创始人甚至曾预测,到 2030 年,90%以上的新闻将由机器人完成。 (2)文案创作 该领域竞争较为激烈,有copy.ai、Jasper、copysmith 等公司。他们基于 GPT-3 的能力加入了文案领域的人工模板与结构,为商家和个人创作者提供了快速为自己的商品、内容进行宣传的能力。以copysmith 为例: (3)对话机器人 前面提到的 Adept.ai 由Transformer 模型的一作和三作联合创立;而二作也创业了,他创办的 Character.ai 是当前对话机器人中使用效果最逼真的。 该对话机器人可以自定义或使用模板来定义角色的家庭、职业、年龄等,在此基础上保持一贯的设定和符合设定的对话风格。经常能体现出一定的共情对话能力带给人惊喜,并且支持多语言互通。 比如他们有已训练好的马斯克等名人和一些动漫角色,与他们对话会有很棒的代入感。 而商业化的对话机器人,在客服、销售等行业有巨大的市场空间,但如今还为成熟。 主要出现的问题有二: 其一,客服、销售行业遇到的客户往往情绪状态不稳定,AI 难以对情绪进行适应并调整对话内容; 其二,AI 的多轮对话能力较弱,无法保证持续有效的跟进问题。 (4)创作性文本 AI 对于长文本创作有一定困难,难以保持1000字以上的文本创作后仍能进行上下文的联系。 但基于短文本创作仍有一些有趣的应用,例如基于GPT-3的 AI Dungeon,可以引导 AI 创造一个虚拟游戏世界观。该领域进一步的成长需要期待未来 3-5 年,有成熟的能产出千字内容的 AI 出现。 3、多模态图片 DALL·E2 是极具突破性的 AIGC 大模型,但距离丰富生产力和创造力的成熟产品还有差距。因此有研究者顺着 DALL·E 和 CLIP 的思路开发了开源版本的扩散模型,就像当年的 Hugging Face 那样,并将其根据创作者社区的反馈转变为更成熟易用的商业产品。接下来就介绍几个主要出圈的模型: (1)Disco Diffusion 最早出圈的 AI 绘图工具是开源模型Disco Diffusion。发布时间比 DALL·E 2 稍晚,同样也是 CLIP + Diffusion Model 的结构,生成效果让许多插画师担心起了失业。 尽管很多插画师和 AI 工具爱好者的推荐都认可了该工具的易用性和生成效果的出众,但其生成时间略长有待优化,可以认为是大家对图片生成大模型的初体验。 (2)MidJourney 该模型发布后不久,Disco Diffusion 的开发者 Somnai 加入了 MidJourney,和团队一起打造了一款产品化的 Disco Diffusion。 Midjourney 的创始人 David Holz 并不是以CV(计算机视觉)研究为主,更关注人机交互。产品公测和主要交流平台都基于Discord,使用 Discord Bot 进行交互,打造了相当良好的社区讨论环境。 使用中印象深刻的有几个重要功能:MidJourney 画廊中可以看到每时每刻创作者们用 MJ 创作出的作品,用户可以对作品进行打分,每周排名靠前的作品将得到额外的 fast GPU 时间奖励。 同时,MJ官方还为用户贴心的提供了引导语 prompt 集合和 AI 擅长的风格指南,指导用户如何最高效的生成出他们想要的图片。 基于良好的产品和社区体验,MidJourney 的付费用户量也是目前最大的。 目前收费模式采用了订阅制,个人用户有两个档位,每月最多 200 张图片(超额另收费)的 10 美元/月,以及”不限量“图片的 30 美元/月;对企业客户,单人一年收费仅有 600 美元,且生成的作品可以商用(当前法规尚不完善,仍可能存在一定版权问题)。 (3)Stable Diffusion 如果说 MidJourney 是一个勤勤恳恳的绩优生,那么 Stability.ai 则是天赋异禀技术力强、诞生之初就备受 VC 追捧的富二代,公司估值已达到十亿美元。产品 Stable Diffusion 首要目标是一个开源共创模型,与当年的 Hugging Face 神似。 创始人 Emad 之前是对冲基金经理,用自己充裕的资金联合 LMU 和 Runaway ML开发了开源的 Stable Diffusion,在 Twitter 上使用扎克伯格在 Oculus 发布会上的照片作为背景,号召SD会成为”人类图像知识的基础设施“,通过开源让所有人都能够使用和改进它,并让所有人更好地合作。 Stable Diffusion 可以认为是一个开源版本的DALL·E2,甚至不少使用者认为是当前生成模型可以使用的最佳选择。官方版本部署在官网 Dream Studio 上,开放给所有用户注册。 相比其他模型,有很多可以定制化的点。不过官网只有 200 张免费额度,超过需要付费使用,也可以自行使用开源 Colab 代码版无限次使用。此外,Stable Diffusion 在压缩模型容量,希望使该模型成为唯一能在本地而非云端部署使用的 AIGC 大模型。 05 AIGC大模型的未来展望 1、应用层:多模态内容生成更加智能,深入各行业应用场景 上述的多模态图片生成产品当前主要局限于创作画作的草图和提供灵感。在未来待版权问题完备后, AIGC 内容能进入商用后,必然会更深入地与业界的实际应用进行结合: 以游戏行业为例, AI 作画给了非美术专业工作者,如游戏策划快速通过视觉图像表达自己需求和想法的机会;而对美术画师来说,它能够在前期协助更高效、直接地尝试灵感方案草图,在后期节省画面细节补全等人力。 此外,在影视动画行业、视频特效领域,甚至是文物修复专业,AI 图片生成的能力都有很大想象空间。当然,这个领域 AI 的能力也有着不小的进步空间,在下面的未来展望部分进行阐发。 目前 AIGC 存在 Prompt Engineering 的现象,即输入某一些魔法词后生成效果更好。这是目前大模型对文本理解的一些缺陷,被用户通过反向工程进行优化的结果。未来随着语言模型和多模态匹配的不断优化,不会是常态,但中短期内预期Prompt Engineering 还是得到好的生成内容的必备流程之一。 2、模态层:3D生成、视频生成 AIGC 未来3-5年内有明显进步 多模态(multimodal)指不同信息媒介之间的转换。 当前 AI 作图过程中暴露的问题会成为视频生成模型的阿喀琉斯之踵。 例如:AI 作画的空间感和物理规则往往是缺失的,镜面反射、透视这类视觉规则时常有所扭曲;AI 对同一实体的刻画缺少连续性。根本原因可能是目前深度学习还难以基于样本实现一些客观规则泛化,需要等待模型结构的优化进行更新。 3D生成领域也有很大价值:3D 图纸草图、影视行业模拟运镜、体育赛场现场还原,都是 3D 内容生成的用武之地。这一技术突破也渐渐成为可能。 2020年,神经辐射场(NeRF)模型发布,可以很好的完成三维重建任务:一个场景下的不同视角图像提供给模型作为输入,然后优化 NeRF 以恢复该特定场景的几何形状。 基于该技术,谷歌在2022年发布了 Dream Fusion 模型,能根据一段话生成 360 度三维图片。这一领域当前的实现效果还有优化空间,预期在未来3-5年内会取得突破性进展,推动视频生成的进步。 3、模型层:大模型参数规模将逼近人脑神经元数量 近年的大模型并未对技术框架做颠覆性创新,文本和图像生成领域在大模型出现前,已有较成熟方案。但大模型以量变产生质变。 从神经网络角度看,大脑有约 100 万亿神经元, GPT-3 有 1750 亿参数,还相差了 1000 倍的数量级,随着算力进步可以发展的空间还很大。 神经网络本质是对高维数据进行复杂的非线性组合,从而逼近所观测数据分布的最优解,未来一定会有更强的算力、更精妙的参数堆叠结构,来刷新人们对AI生成能力的认知。 4、成本结构决定大模型市场的马太效应 大模型最直接的成本便是能源成本(energy cost),GPT-3 发布时的训练成本在千万美元级别。难以在短期内衡量 ROI ,大科技公司才能训练大模型。 但随着近年模型压缩、硬件应用的进步,GPT-3 量级的模型成本很可能已降至百万美元量级,Stable Diffusion 作为一个刚发布一个月的产品,已经把原本 7GB 的预训练模型优化压缩至 2GB 左右。 在这样的背景下,算力成本在未来必然会逐渐变得更合理,但 AIGC 领域的另一个成本项让笔者对市场结构的预测还是寡头垄断式的。 大模型有明显的先发优势,来自巨大的隐形成本:智能成本。前期快速积累用户反馈数据能帮助模型持续追新优化,甩开后发的竞争者,达到模型性能的规模效应。 AI 的进化来自于数据的积累和充分吸收。深度学习,乃至当前的所有机器学习都是基于历史预估未来,基于已有的数据给到最接近真实的可能。 正如前文讨论的,OpenAI 的目标从来不是留恋于某个局部行业的商业产品,而是通过模型规模经济,不断地降低人类社会全局的智能成本,逼近通用人工智能 AGI。规模经济正体现在智能成本上。 5、虚拟世界的 AGI 会先于现实世界诞生 从更宏观的视角上,虚拟世界 AI 技术的智能成本比现实世界中来得低得多。现实里 AI 应用最普遍的是无人驾驶、机器人等场景,都对 Corner Case 要求极高。 对于AI模型而言,一件事超过他们的经验范畴(统计上out of distribution),模型将立马化身人工智障,不具备推演能力。现实世界中 corner case 带来的生命威胁、商业资损,造成数据积累过程中极大的试错成本。 虚拟世界则不同,绘图时遇到错位扭曲的图片,大家会在 Discord 中交流一笑了之;游戏 AI 产生奇怪行为,还可能被玩家开发出搞怪玩法、造成病毒传播。 因此虚拟世界,尤其是泛娱乐场景下的 AIGC 积累数据成本低会成为优势。这个领域的 AI 如果节省人力、生成内容产生的商业价值能大于算力成本,能很顺畅地形成低成本的正向循环。 伴随着另一个重要的革新——长期 Web3.0元宇宙场景下新内容经济生态的形成,虚拟世界内容场景下的 AI 很可能更早触及到 AGI。 来源:金色财经
lg
...
金色财经
2023-02-21
人工智慧再掀熱潮、加密貨幣總市值回升
go
lg
...
useNet音樂創作、到GitHub
Copilot
輔助編程,可以看到生成式人工智慧為生活帶來具體效益,但也不能忽視相關挑戰,像是著作權難題、強化刻板印象及偏見、成為製造假訊息的利器。 「換言之,法律能管人,但管得了AI嗎?我們要謹慎看待。」蔡玉玲強調。 臺北市政府資訊局局長趙式隆指出,台北市市長蔣萬安的參選政見曾提到,希望勾勒出台北新創產業的新藍圖,尤其是向矽谷經驗學習,希望打造台北成為全世界最大的新創場域。目前透過台北智慧城市專案辦公室(TPMO),幫助企業針對創新題目找到地方做實證,能提供跨局處的溝通,協助找到在地場域創新題目,並因應法規排除相關困難,運用公部門資源,打造台北市成為最大也最友善的living lab實驗室! 數位經濟暨產業發展協會副理事長、台灣區塊鏈愛好者協會榮譽理事長、國家通訊傳播委員會前主任委員詹婷怡表示,觀察元宇宙到來的時機點,現在就是進行式,且逐步發生當中!因為元宇宙有前提條件,包含基礎建設仰賴網路通訊寬頻、硬體晶片以及平台的架構;另外也需要人機介面、內容、實際服務應用,可以想見,最極端的元宇宙還會有區塊鏈及虛擬貨幣的建構。 在今日的第六屆《Hit AI & Blockchain》人工智慧暨區塊鏈產業高峰會中,也進行「第五屆區塊鏈價值權威榜」頒獎典禮。得獎名單如下:MaiCoin集團獲得最佳虛擬貨幣暨NFT服務集團、ACE王牌數位貨幣交易所獲得最受信賴中心化交易所、CYBAVO共同創辦人暨執行長范紀鍠獲得年度風雲人物、環球睿視AIspeakin語音轉寫服務獲得最佳AI語意語音解決方案。 新聞聯絡人: KNOWING新聞/幣特財經/鍶科技 總編輯楊方儒 0936-135336 jet@knowing.asia 来源:金色财经
lg
...
金色财经
2023-02-15
请停止炒作!ChatGPT其实没那么聪明,它更不是iPhone
go
lg
...
对微软基于openai的GitHub
Copilot
赞不绝口,它在建议开发人员觉得冗长乏味的低级代码方面很有用。Altman自己说,他主要使用ChatGPT来总结和翻译长文档。 但从早期测试来看,ChatGPT仍是一个新奇事物。它还没有像一些人以及许多投资者所相信的那样改变人工智能的游戏规则。技术进步更多的是迭代而不是革命性的。它不是iPhone,至少现在还不是。
lg
...
金融界
2023-02-15
微软CEO纳德拉借与OpenAI谈判重新瞄准谷歌
go
lg
...
语言人工智能技术为子公司GitHub的
Copilot
编程工具添加自动化功能,并准备将这种技术应用到其必应搜索引擎、Office生产力应用程序、Teams协作程序和安全软件中。这家软件开发商也将把OpenAI的另一款网红应用、图像创建工具DALL-E集成到设计软件中。 纳德拉寻求与OpenAI加强合作的同时,谷歌长久以来在搜索领域几乎无人能及的局面突然间变得有机可乘。谷歌通常的关键字查询模式是利用索引擎在网络上搜索特定词汇,然后让用户自己判定哪些信息有用。 相比之下,ChatGPT在回答有关政治学和计算机编程等方面的问题时,会给出详细解释,其问答形式意味着用户可以进行深入了解,直到完全理解。该机器人能以自然和人性化的方式回答询问,进行对话并回答后续问题,有别于谷歌搜索提供的基本的蓝色链接列表。 ChatGPT也存在不足。与谷歌搜索或微软自己的必应搜索不同,ChatGPT目前不提供用于构建答案的信息来源的背景资料,OpenAI承认该工具给出的答案可能不正确,不应被认为是准确无误、值得信赖。 根据数据,向OpenAI投入100亿美元,将轻松超过微软迄今为止的任何投资,包括1999年斥资50亿美元参股美国电话电报公司(AT&T Inc.),以换取在新的机顶盒市场占据一席之地,以及1997年对康卡斯特的10亿美元投资。 此项金额也将超过微软近年来几乎所有收购交易的金额,只有三笔除外。微软以690亿美元收购视频游戏开发商动视暴雪的交易目前已进入反垄断审批环节,2016年,微软斥资260亿美元收购了面向职场的社交平台领英。去年,微软完成了200亿美元收购Nuance Communications Inc.的交易,这是一家专注于语音识别以及医疗保健领域相关软件和服务的人工智能技术公司。 微软资产负债表上有1000多亿美元的现金和现金等价物,买下OpenAI也不成问题。据上周报道,最近的投资谈判对这家初创公司的估值为290亿美元,但尚不清楚OpenAI是否考虑过将公司整体出售。 据称,微软可能与Thrive capital和Founders Fund等风投公司一道投资ChatGPT,两家风投公司正在讨论的投资意向包括斥资3亿美元从OpenAI的现有股东手中收购股份。 据媒体报道,按照讨论中的交易方案,微软将获得OpenAI 75%的利润分成,直到收回投资,此后微软将获得OpenAI 49%的股份。Semafor称,目前尚不清楚该交易是否已经达成,但表示,最近几周向潜在投资者发送的介绍交易条款的文件显示,该交易原定在2022年底前完成。 微软本身就是连续几十年践行人工智能项目,并在语音和图像识别等领域取得了重大进展。该公司上周发布了一款人工智能模型,可利用简短的音频样本模拟用户的声音。但近年来,为人工智能领域设定议程的,却是OpenAI的用于生成语言和图像的大型模型。 增持股份将使微软在Azure云平台上开发OpenAI的技术占据有利位置。Azure是微软增长最快的业务之一,也是其优先事项。还可以防止亚马逊网络服务(Amazon Web Services)和谷歌等竞争对手获得OpenAI的产品。 微软的搜索引擎必应在全球搜索引擎市场的占有率很小,而将ChatGPT整合到必应当中并与OpenAI达成新协议,或有助于微软通过提供更先进的搜索功能,削弱谷歌在市场上的统治地位。据报道,微软同时也在讨论将这项技术纳入其Outlook电子邮件和Word文档处理平台。 尽管与ChatGPT相关的炒作主要围绕着人类作家可能消亡的前景,以及在校学生用它作弊的风险,但微软的工具是面向企业的,用于帮助自动化编程、写作和生成图像。 “对OpenAI的100亿美元潜在投资可能会强化微软的主要产品线,如Office、必应、领英和GitHub,”分析师阿努拉格‧拉纳(Anurag Rana)表示,“虽然这些类产品中的大多数已开始嵌入增强型的人工智能,但ChatGPT产品的成功可以提高生产率;例如,可以向领英的用户推荐最佳销售线索,或者增强必应的搜索能力。” 微软已经表示,将把Dall-E集成到其设计应用当中,并提供给Azure上的OpenAI精选云客户使用。例如,美泰公司(Mattel Inc.)目前正借助Azure云平台使用Dall-E,生成该公司可能想设计的玩具汽车图像。 微软的编程代码库GitHub也在使用OpenAI的语言人工智能技术,开发名为GitHub
Copilot
的程序,为程序员提供帮助。程序员键入内容时,
Copilot
会建议接下来可能出现在程序中的代码片段,类似于一个训练有素、可以用Python或JavaScript语言交流的具有自动完成功能的机器人。对相当于手工劳动的编程任务,即必要但又不特别复杂或者不具有创造性的代码片段的补充,对于这样的任务特别有用。 微软高管曾表示,公司已制定了开发
Copilot
技术的计划,将把它用于办公、视频游戏设计、建筑设计和计算机安全等其他工作领域的类似程序当中。
lg
...
金融界
2023-02-14
ChatGPT开启 AI 新纪元,数据、算法、算力领域谁最受益?
go
lg
...
力,虽然欠缺一些底层的稳定性,但相比于
Copilot
更加灵活。在进行针对性的优化后,基于新GPT模型的AI代码辅助工具有望在中短期内落地。”中信证券指出。 因此,具体到细分投资方向上,上投摩根基金指出,从产业链出发,主要可以考虑三类:一类是从事大模型基础研发的企业,一类是上游为大模型研发提供算力等基础设施的厂商,另一类是下游针对细分场景开发软件的第三方应用厂商。 标的方面,算力领域,财通证券建议投资者关注海光信息、龙芯中科、宝信软件等。AI处理器方面,华西证券建议投资者关注寒武纪、商汤、海光信息等。AIGC相关技术储备的应用厂商,受益标的有万兴科技、中文在线、阅文集团、昆仑万维、视觉中国视觉等。 值得一提的是,在ChatGPT的下游应用领域,海外已经有成功的落地案例。 2023年1月,美国新闻聚合网站BuzzFeed官宣将依托OpenAI为其用户互动栏目Quizzes制作和个性化各种小测试。ChatGPT会生成一系列提问,再根据个人的回答产生用户独有的、可分享的文章。 不久前,Meta向BuzzFeed支付了数百万美元,以让BuzzFeed为Meta的平台生成内容,并培训平台上的创作者。 赵凤飞表示,目前市场上出现的概念股大涨,有较强的主题催化成分,具有一定的博弈色彩。但如果ChatGPT在未来的商业化落地上还能再有斩获,或者其它的AI公司也能推出有竞争力的AI产品,那AI板块的行情则有望持续更久。国内的AI公司,包括很多A股上市的AI公司,在NLP相关领域也有多年积累,具备较为深厚的技术积淀,也有相关的产品。但目前来看,同ChatGPT这种现象级产品相比,仍有一定差距。 当然,万物皆有利弊。赵凤飞提示:“很多上市公司对AI的布局尚处于早期阶段,竞争格局还不够清晰,是否有可持续的商业模式也有待检验,这些也都是潜在的风险。投资者可以选择智能产业相关的主题基金,或者选择一些长期聚焦在信息技术领域的基金产品,这些产品对AI技术的关注会相对较多,对相关领域的利好也会更加敏锐。” 海内外科技巨头争相加码AIGC 多数公司关联性并不强需警惕 ChatGPT作为AIGC商业化的方向之一,引得国内外科技公司纷纷加码布局。 1月23日,微软宣布与OpenAI展开全新合作,未来将追加投资数十亿美元; 1月30日,Meta发布首个基于文本生成4D视频的工具MAV3D; 2月2日,微软宣布旗下产品将全线整合ChatGPT,同日ChatGPT宣布推出付费订阅服务; 2月3日,谷歌向AI初创企业Anthropic投资约3亿美元,并宣布将推出类似于ChatGPT的大型语言模型。2022 年 12 月,谷歌紧急召回创始人拉里·佩奇和谢尔盖·布林,讨论应对 ChatGPT 的相关计划。根据statcounter 数据,2020.01-2022.11 谷歌的全球市场份额超 90%,是全球搜索引擎市场的绝对霸主,而 ChatGPT 的出现对谷歌搜索引擎形成了挑战。 国内方面,大厂也有布局相关产品。 2月7日,百度宣布将于3月在中国推出类似ChatGPT的人工智能聊天机器人“文心一言”;2月8日,阿里巴巴回应研发类ChatGPT的对话机器人的传闻,称,“确实在研发中,目前处于内测阶段,后续如有更多信息,会第一时间和大众同步。” 同日,三六零表示,公司的类ChatGPT技术的各项指标只能达到略强于GPT-2的水平,与当前的ChatGPT相比尚有代差的落后。 不过,即使是被多家券商认定的“ChatGPT龙头企业”,多数公司关联性并不强。 在投资者互动平台中,福石控股反复表示“公司主营业务不包含ChatGPT相关产品”。根据公司业绩预告,2022年净利润同比降幅达86.49%~90.41%。 同样作为ChatGPT概念股的一员,在2月1日的调研活动中,公司董事会秘书、副总经理周英瑜表示,“公司基于自身在NLP技术领域的全面性以及长期在行业端的深耕,对不同行业客户的数据特点、业务需求的理解更为深刻,在项目磨炼中,已经形成自身独有的算法模型,更能为行业客户提供满足需求、输出结果更为专业精准的专业化模型”,但根据2022年中报,占据公司营收大头的产品分别是笔智能交互、文本大数据、AI终端和人脸及生物特征识别,看上去和ChatGPT关系并不大。 海天瑞声在股票交易严重异常波动公告中称公司尚未与OpenAI开展合作,其ChatGPT的产品和服务尚未给公司带来业务收入。 据不完全统计,近期在互动平台上,包括科蓝软件、东方嘉盛、蕾奥规划、延华智能、天阳科技、景嘉微、高新兴、华如科技、恒实科技、弘讯科技等多家上市公司纷纷澄清暂无相关业务布局,暂无ChatGPT的相关技术和应用,并提示投资者理性投资,注意风险。 目前来看,ChatGPT从技术到成熟的商业模式或许还将有一段路要走,包括整个AIGC仍需等待收益兑现,炒作不持续,这也是不少业内人士的共识。 博时基金行业研究部高级研究员王赫认为ChatGPT仍有风险点存在,比如,通过检索到的信息来输出回答,而要验证检索到的信息仍然必须依靠大量人力,借助网友来对ChatGPT的回答进行反馈优化,从而实现对其模型的进一步训练。未来,谁来对其检索到的信息负责、由此产生的对现有知识产权体系的挑战仍待解决。
lg
...
金融界
2023-02-09
AI 会是下一个 Crypto 吗?
go
lg
...
被过度炒作了。但很难忽视它的实际应用。
Copilot
加速了编程,Jasper 简化了文案写作,Midjourney 和 DALL-E 有超强的艺术性,ChatGPT 提供分析和回答问题。 AI 负面效果的情况更难确定。TikTok 算法可能是一代人浪费时间的最好例子,尽管在一个没有人工智能驱动的世界里,社交媒体的消费可能仍然非常高。 如何在AI领域获取价值?从两个方面切入。 1. 基础设施的寡头垄断。Infrastructure oligopolies 如果你相信在扩展计算、数据和参数方面的持续回报,大型模型竞赛应该以寡头垄断的方式进行:在 2020 年代扩展模型是一个需要数十亿美元门槛参与的游戏。大型模型的价值获取可能会像半导体一样,在每个地缘政治区域出现少数赢家。 2. 应用扩散。Application proliferation 与基础设施不同,应用价值的获取将是分散的。现在启动一个新的基础模型公司已经很晚了,但风险投资公司还没有关注到应用层。许多数十亿美元的应用将在大型模型之上出现。 如果基础模型发展得太快,这对较薄的 GPT 包装层公司来说意味着麻烦。但是,具有专有领域特定训练数据、独特分布和复杂集成的应用将经久不衰。 一些初创公司将自己定位为 "全栈",横跨应用产品和基础设施,建立自定义模型来支持特定领域的应用。这将是艰难的:定制优秀的通用模型(customizing excellent generalized models)比从头开始重新创造模型要容易。用现在的科技圈来比喻,很少有软件公司应该建造自己定制的硬件。 一个超级智能的 AGI 可能会产生负面价值 -- 用我的老板 Peter Thiel 的话说,就是一个 "向人们投掷闪电的宙斯"。这种尾部风险使得人工智能的安全工作值得发展。但在其他领域的调整已经发挥作用:金融法规使资本(本质上资本是一种人工智能,某种程度上)与人类保持一致。 人工智能系统的产品化是新生事物,但从净值来看,它似乎在价值创造上碾压了加密货币创造的价值。 结论 Conclusion 人工智能行业能否保持加密货币行业失去的信心?它需要把这些事情做对: 资本:人工智能有很长的资本反馈周期,这使泡沫得到了控制。但应用必须产品化落地,以证明持续的资本涌入是合理的。 使命:人工智能的意识形态目前更像是一张空白的画布,而且技术的内在腐败程度较低。但它需要一个积极的 -- 或至少是中立的、非政治性的 -- 使命,以推翻反乌托邦式的悲观预言。 人:这个行业将有很常见的骗子涌入,但人工智能领导者们不能让他们真正控制生态系统。 价值创造:人工智能的采用(AI adoption)似乎很有希望,但从有趣的玩具过渡到可信赖的工具并非易事。 从长远来看,价值创造应该占主导地位,而人工智能似乎正在轻松获胜。企业和消费者从该技术中受益,即使是在其初生阶段。 人们在Gartner的炒作周期框架下做事:上升的东西必须会下降。 Gartner 曲线当中早期阶段的形状是对的,但生产力的高原(Plateau of Productivity) 是误导性的:它因行业而有很大的不同。一些高原期归零 -- 比如说私有云计算 -- 而另一些则超过了膨胀的期望值的峰值。 Crypto可能会在Gartner建议的一小部分出现高原期。如果让我猜测,人工智能的高峰期将远远超过他的历史峰值。 一个人的加密道路总是那样坎坷。 你需要加入一个由一群志同道合的人组成的队伍。 期待你的加入。公粽耗;crypto大表哥 来源:金色财经
lg
...
金色财经
2023-02-08
上一页
1
•••
64
65
66
67
68
下一页
24小时热点
路透独家爆料中美伦敦谈判大消息!这一结果对中美达成更全面协议构成威胁
lg
...
以色列袭击致伊朗近130人死亡!特朗普:美国或介入冲突 金价大涨近20美元
lg
...
中国重磅信号!华尔街日报:习近平严厉打击官员奢靡作风 凸显经济压力下重塑纪律的决心
lg
...
中国楼市坏消息:5月新房加速下跌!“二号人物”承诺将提供支持
lg
...
美媒惊爆!以色列欲“斩首”伊朗最高领袖 特朗普紧急拦下刺杀计划
lg
...
最新话题
更多
#Web3项目情报站#
lg
...
6讨论
#SFFE2030--FX168“可持续发展金融企业”评选#
lg
...
36讨论
#链上风云#
lg
...
109讨论
#VIP会员尊享#
lg
...
1989讨论
#CES 2025国际消费电子展#
lg
...
21讨论