全球数字财富领导者
财富汇
|
美股投研
|
客户端
|
旧版
|
北美站
|
FX168 全球视野 中文财经
首页
资讯
速递
行情
日历
数据
社区
视频
直播
点评旗舰店
商品
SFFE2030
外汇开户
登录 / 注册
搜 索
综合
行情
速递
日历
话题
168人气号
文章
GPT-4将在下周发布 必应日活破亿 谷歌还有招架之力吗
go
lg
...
、GPT-3.5、Codex等。 比如
GitHub
Copilot
通过Azure OpenAI服务中的Codex模型,能帮开发者自动生成代码。 使用Power Platform中的Co-pilot,用户能够编写Power Fx命令,甚至实现自动化流程 Microsoft Teams Premium通过GPT-3.5模型打造了「智能回顾」功能,可以自动生成会议记录、笔记、实时翻译等。 Microsoft Viva Sales通过GPT-3.5模型提升了销售效率,可自动生成邮件内容、生成个性化销售文案等。 Azure OpenAI Studio的无代码开发模式,能让企业和开发者快速开发智能应用程序和解决方案。 在设计软件中,Azure OpenAI使用了DALL·E 2模型,在提示栏中不断明确自己的要求,软件就会生成越来越符合用户要求的图像 其实前几天,微软就已宣布低代码应用平台Power Platform整合进ChatGPT,开发者可以使用最少的代码创建应用程序。链接 借助Azure OpenAI服务中的ChatGPT预览版,企业和开发者可以把它的功能直接集成到应用产品中,私人定制自己的ChatGPT,提供个性化客户服务,生成个性化营销文案,建立企业级智能化知识库搜索引擎等。 技术公司可以快速将机器人连接到不同的产品,支持知识库和常见问题解答,在不编写任何代码的前提下,就能为客户提供支持 微软的办公软件帝国,眼看要成形了。 谷歌埋葬了自己 其实,谷歌不是没有这样的机会。 据华尔街日报称,几年前,2名前谷歌工程师曾push高管向公众发布ChatGPT类似聊天机器人,但直接被毙掉了。 原因很简单,不安全。 可以说,谷歌高管们谨慎的态度把自家的前程给葬了。 2018年,谷歌研究工程师Daniel De Freitas开始从事一个人工智能副项目,目标是创建一个模仿人类说话方式的对话聊天机器人。 谷歌人工智能研究部门的软件工程师Noam Shazeer后来加入了该项目。 当时,De Freitas和Shazeer建立的聊天机器人称为「Meena」,随后便更名了,也就是现在的LaMDA。 Meena能够哲学辩论、随意谈论电视节目、还能做双关。当时,他们相信Meena可以从根本上改变人们在网上搜索的方式。 他们多次尝试将聊天机器人对外公布,将聊天功能添加到Google Assistant,并向公众推出演示。 不幸的是,谷歌高管表示,聊天机器人不遵守其AI安全和公平标准,推出机聊天器人的计划便陷入了僵局。 高管们的反应,让De Freitas和Shazeer非常失望。因此,他们在2021年底离开谷歌创办了自己的公司,尽管谷歌CEO皮查伊亲自要求他们留下来继续从事聊天机器人的工作。 他们成立的这家公司名为Character.Ai,并在此后发布了一个聊天机器人,可以扮演埃隆马斯克或任天堂的马里奥等人物。 Shazeer上个月在接受采访时表示,这在谷歌内部引起了一些轰动。但最终我们决定,作为一家初创公司,我们可能会有更多的运气推出产品。 谷歌对人工智能采取小心谨慎的态度并不是什么新鲜事儿了。自2012年以来,这家公司一直在阻挠其人工智能工作。 2012年,谷歌聘请了计算机科学家Ray Kurzweil来研究其语言处理模型。大约一年后,谷歌收购了英国人工智能公司DeepMind,该公司旨在创建通用人工智能。 然而,出于对大规模监控的道德担忧,学者和技术专家推迟了使用这项技术,谷歌对限制其使用人工智能的方式做出了承诺。 2018年,由于员工的强烈反对,谷歌宣布终止将其人工智能技术用于军事武器的项目。 尽管谷歌Bard聊天机器人在上个月的第一次公开演示中犯下一个事实错误后,导致谷歌股价大跌。 但谷歌的人工智能计划现在可能终于看到了曙光。 Alphabet董事长John Hennessy认为,谷歌的聊天机器人还没有真正为产品做好准备。CE皮查伊要求所有谷歌员工花两到四个小时的时间帮助测试产品,以便为发布做好准备。 皮查伊在二月份的一份备忘录中写信给谷歌员工: 我知道这一刻令人不安地兴奋,这是意料之中的。底层技术正在迅速发展,潜力巨大。我们现在能做的最重要的事情是专注于构建一个伟大的产品并负责任地开发它。 17年,谷歌提出了Transformer,为如今大语言模型的种种繁荣景象夯实了基础,然而,谷歌自己却没能把握住时代的命脉,自己制霸多年的搜索引擎和办公软件市场,现在眼看就要被微软偷家。 一个太过谨慎的巨头,是怎样被锐意进取、打法创新的对手击败的? 这个故事值得我们深思。 参考资料: https://www.theverge.com/2023/3/9/23631912/microsoft-bing-100-million-daily-active-users-milestone https://www.gearrice.com/update/gpt-4-will-arrive-next-week-and-will-be-multimodal/ https://www.businessinsider.com/google-ai-chatbot-chatgpt-years-ago-execs-shut-down-report-2023-3 来源:新智元、DeFi之道 原标题:《GPT-4下周王者登基!必应日活破亿,谷歌已被打残》 来源:金色财经
lg
...
金色财经
2023-03-12
ChatGPT思考:探索智能的极限
go
lg
...
年,初代 Codex 训练完成,开放
Github
Copilot
; •2022 年,GPT-3.5 训练完成,以 dialog 数据 finetune 成 ChatGPT 然后发布。 可以看到,在中间阶段的每一个重要版本,模型的能力都会增强,都存在产品化的机会。 更加重要的是,按照模型演化进程产品化,可以在产品化的阶段适配市场。学习 OpenAI 的组织架构来推进模型演化本身,但产品化可以按照本土市场的特征来。这种方式或许可以既学到 OpenAI 的先进经验,又避免水土不服的问题。 03. 人工智能显著超过人类的点 到目前为止,我们讨论了要用模型演化的视角来分析模型,要用极限的思维讨论模型的演化历程。现阶段马上可以加强的点包括了输入框的长度,更大的模型和数据,多模态数据,和模型的专业化程度。现在让我们再把视野放得更长期些,思考在更大的时间和空间中,模型如何进一步地往极限推。我们讨论: • 并行感知:一个人类研究员一次顺序地读四五篇论文已经是极限,但模型输入框变长之后,可以在极短的时间内并行阅读一百篇论文。这意味着,模型对外部信息的感知能力远超人类一个数量级; • 记忆遗传:人类的演化过程中,子代只继承父代的基因,但不继承父代的记忆,这意味着每一次生殖都需要重启一次;在模型的演化过程中,子代可以继承父代的记忆,并且这个继承的程度可控:我们可以设置子代继承 100%,50%,20% 的记忆,或清空记忆,这意味着父代的经验和技能可以不断累积; • 加速时间:人类相互交流的速率是受到人类说话的物理速度限制的,而模型相互交流的速率可以远快于人类,这意味着模型可以通过相互交流来解决人类数据随时间线性增长的问题;人类演化的过程受到物理时间的限制,模型的演化可以比人类的物理时间快上几个数量级,这意味着模型的进步速度可以远快于人类; • 无限生命:一个人的生命有限,百年之后终归尘土,但模型的权重只要不丢失,就可以不断地演化。 从这些角度来说,人工智能超过人类并不是一件难以想象的事情。这就引发了下一个问题: 如何驾驭远超人类的强人工智能? 这个问题,是 Alignment 这项技术真正想要解决的问题。 04. Alignment 对齐 当前阶段,模型的能力,除了 AlphaGo 在围棋上超过了最强人类之外,其他方面的 AI 并没有超过最强的人类(但 ChatGPT 在文科上或许已经超过了 95% 的人类,且它还在继续增长)。在模型还没超过人类的时候,Alignment 的任务是让模型符合人类的价值观和期望;但当模型继续演化到超过人类之后,Alignment 的任务就变成了寻找驾驭远超人类的智能体的方法。 Alignment 作为驾驭远超人类的智能体的方法 一个显然的问题是,当 AI 超过人类之后,还可以通过人类反馈让 ta 更强 / 更受约束吗?是不是这个时候就已经管不了了? 不一定,即使模型远超人类,我们依然又可能驾驭 ta,这里的一个例子是运动员和教练之间的关系:金牌运动员在 ta 的方向上已经是最强的人类了,但这并不意味着教练就不能训练 ta。相反,即使教练不如运动员,ta 依然可以通过各种反馈机制让运动员变得更强且更有纪律。 类似地,人类和强人工智能的关系,在 AI 发展的中后期,可能会变成运动员和教练之间的关系。这个时候,人类需要的能力并不是完成一个目标,而是设定一个好的目标,然后衡量机器是否足够好地完成了这个目标,并给出改进意见。 这个方向的研究还非常初步,这个新学科的名字,叫 Scalable Oversight。 Alignment 与组织架构 在通往强人工智能的路上,不只是需要人类与 AI 对齐,人类与人类,也需要高度的对齐。从组织架构的角度,alignment 涉及到: • Pretraining 团队与 instruction tuning - alignment 团队之间的对齐: 这两者应该是一个相互迭代的过程,pretraining 团队不断地 scale 基础模型,alignment 团队为基础模型做 instruction tuning,同时用得到的结果反向指导 pretraning 团队的方向。 • Pretraining / Alignment 团队与 Scaling / Data 团队的对齐: scaling 负责为 pretraining / alignment 做好基础设施,data 做好高质量数据与人类反馈数据。 • 创业公司与 VC 的对齐: AGI 是一个困难的事情,需要长期的投入,这需要各个方面的人都有足够的耐心和足够高的视野。烧一趟热钱后催产品化然后占满市场的逻辑在大模型时代应该已经不复存在了。大模型的游戏要求 ta 的玩家们有足够高的视野与格局,模型的演化会让有足够耐心的,踏实做事人们在长期得到丰厚的回报,也会让只看短期刻舟求剑的人们一次又一次被降维打击。 05. 结语 在 2017 年,我刚刚入行 NLP 的时候,花了很大的力气做可控生成这件事情。那个时候所谓的 text style transfer 最多就是把句子情感分类改一改,把 good 改成 bad 就算是完成了 transfer。 2018 年我花了大量的时间研究如何让模型从句子结构的角度修改句子的风格,一度误认为风格转换是几乎不可能完成的事情。而今 ChatGPT 做风格转换简直信手拈来。那些曾经看似不可能完成的任务,曾经极其困难的事情,今天大语言模型非常轻松地就能完成。 在 2022 年一整年,我追踪了从 GPT-3 到 GPT-3.5 的全部版本迭代,亲眼看到它一步步地从弱到强不断演化。这个演化速度并没有变慢,反而正在加快。那些原先看来科幻的事情,现在已经成为现实。谁会知道未来会怎样呢? 彼黍离离,彼稷之苗。 行迈靡靡,中心摇摇。 彼黍离离,彼稷之穗。 行迈靡靡,中心如醉。 ——— 《诗经 · 黍离》 Reference 1. Ilya Sutskever https://scholar.google.com/citationsuser=x04W_mMAAAAJ&hl=en 2. GPT 3.5 系列在 2022 年更新了三个大版本 https://platform.openai.com/docs/model-index-for-researchers 3. ChatGPT 发布两个月一共更新了四个小版本https://help.openai.com/en/articles/6825453-chatgpt-release-notes 4. 微软 Azure 辅助 OpenAI https://blogs.microsoft.com/blog/2023/01/23/microsoftandopenaiextendpartnership/ 5. efficient attention https://arxiv.org/abs/2302.04542 6. recursive encoding https://openai.com/research/summarizing-books 7. MoE 可以接着把模型 scale 到 T 的量级 https://arxiv.org/abs/2101.03961 8. log-linear 的曲线 https://arxiv.org/abs/2001.08361 https://arxiv.org/abs/2203.15556 9. Phase change 曲线 https://arxiv.org/abs/2206.07682 10. linear attention https://arxiv.org/abs/2103.02143 https://arxiv.org/abs/2302.04542 11. recursive encoding https://openai.com/research/summarizing-books 12. long-term memory https://arxiv.org/abs/2112.04426 13. OpenAI API https://platform.openai.com/docs/introduction/overview 14.
Github
Copilot
https://github.com/features/copilot 15. Scalable Oversight https://arxiv.org/abs/2211.03540 16. 从 GPT-3 到 GPT-3.5 的全部版本迭代 https://yaofu.notion.site/How-does-GPT-Obtain-its-Ability-Tracing-Emergent-Abilities-of-Language-Models-to-their-Sources-b9a57ac0fcf74f30a1ab9e3e36fa1dc 来源:元宇宙之心 来源:金色财经
lg
...
金色财经
2023-03-05
微软因“Bing”得福?谁能成为搜索引擎的游戏规则改变者?
go
lg
...
构建,还合作将OpenAI的技术构建到
GitHub
Copilot
和Microsoft Designer等应用程序中。 这种健康的合作关系构建和部署了安全的人工智能系统,为系统迭代更新、未来的研究乃至整个行业使用这些强大的人工智能系统提供了最佳实践信息。 微软对于AI市场的野心不止于此,2023年刚开始,微软就显示出了AI领域大赢家的派头。 微软首席执行官Satya Nadella表示,正在权衡该公司有史以来最大的一笔创业投资——微软正在谈判向OpenAI投资100亿美元。 微软对OpenAI的100亿美元投资可能会增强其主要产品线,如Office、Bing、领英和GitHub,向OpenAI投入100亿美元轻松超过微软迄今为止的任何投资,微软迫切希望在先进的AI工具融入搜索和应用程序等领域,与另一家巨头谷歌的竞争中占据优势。 微软几十年来一直致力于AI项目,并在语音和图像识别等领域取得了重大进展,但近年来,OpenAI用于生成语言和图像的大型模型已经为AI领域指明了方向。 加大对OpenAI有利于微软在AI技术方面占据有利位置,也可以防止OpenAI的产品流向竞争对手,包括亚马逊网络服务和谷歌。 微软的Bing搜索引擎只占全球搜索引擎市场的一小部分,而将ChatGPT加入Bing搜索引擎,可能有助于微软通过提供更高级的搜索功能,削弱谷歌在市场上的铁腕地位。 不仅如此,微软还要将Dall-E添加到其设计应用程序中,计划向选择Azure OpenAI云客户提供服务。 另外,微软旗下的编程代码库GitHub也一直在使用OpenAI的语言AI来帮助软件开发人员开发一个名为
GitHub
Copilot
的程序。 公司还将计划开发Copilot技术,将其用于其他工作类别的类似程序,比如办公室工作、视频游戏设计、架构和计算机安全。 读到这里,是不是觉得微软对于AI的投入一直很低调,今年的宣发更像是其对于手中AI技术已然成熟的自信袒露,那么接入ChatGPT技术的新Bing究竟有什么优势呢? New Bing有何优势? 北京时间2月8日凌晨,微软发布了面向大众的AI语言模型产品ChatGPT版Bing搜索引擎。 “这是搜索引擎领域的新时代,是搜索的新范式,迅猛的创新即将到来。”微软CEO Satya Nadell表示,“AI将重塑几乎每一款软件。” Nadella认为,AI搜索的重要性与网络浏览器和移动设备的发展同等重要。 据微软介绍,新版Bing搜索采用AI模型GPT 3.5的升级版,比ChatGPT使用的GPT 3.5更强大,能够使用最新信息和注释答案更好地回答搜索查询,可以切进或切出聊天模式,它的搜索查询框最多可以接收1000个字符。 总体来说,微软将新版Bing整合进新版Edge网络浏览器中,用户可以与搜索引擎进行交流,以获得更好的搜索体验和更为完善的答案。 对于相对复杂的搜索请求,Bing有能力让用户获得更满意且有统一感的聊天体验。 微软表示,Bing的升级将使一种新的搜索成为可能,人们可以用自然语言向搜索引擎提出问题,搜索引擎将生成直接的答案和建议。 新版Bing虽然基于OpenAI的语言模型运行,但比ChatGPT表现出的性能更为先进。 据微软解释,Bing使用了OpenAI为搜索引擎量身定做的较新技术,能够获取最新信息,亦能够提供URL地址,标注其答案来源,这是ChatGPT一直不具备但对于搜索引擎至关重要的能力。 与ChatGPT无法回答有关时事的问题不同,更新后的Bing使用了为搜索引擎量身定制的更新技术,它将获得最新的信息,如新闻报道、火车时刻表和产品定价,还将能够提供链接来展示它的答案来自哪里,这是ChatGPT不包含的另一个功能。 目前,新版Bing的聊天功能不会带有广告,但微软表示未来将在该功能中加入广告以商业化。 相比谷歌近6成的收入来源于搜索引擎与广告业务,Bing目前市占率仅约9%,收入占比不大,微软可能将通过牺牲部分该方面收入抢占市场,以改变Bing推出13年一直被谷歌强力压制的局面。 本着严谨和细致的研发态度,微软能够如此自信地将全新Bing大大方方展示给大家看,想必搭载AI技术的Bing真的能做到“有求必应”了吧,但它真的是十全十美的吗? New Bing是完美的吗? 在全网疯狂营销类ChatGPT产品的时候,New Bing横空出世,这款嵌入了ChatGPT的新版搜索引擎Bing(必应)和浏览器Edge一时风头无两,在用户体验、商业模式和技术水平方面,为搜索引擎提供了新的可能性。 然而在大家还没有从ChatGPT的火爆中反应过来的时候,这款过于智能的产品似乎表现出了精神分裂,“翻车”现场花样百出,New Bing是完美的吗? 事实上,新版Bing常常会犯错,甚至在聊得太久或被质疑时,突然对聊天对象发脾气、撒谎,甚至人身攻击和精神操控。 它也许是一个具有跨时代意义的产品,却是一个不完美的革命性产品。它引发了大众对于AI伦理的广泛关注和反思,甚至让人有了新的担忧,《三体》里质子锁死地球科技的事情是否会真的发生。 除此之外,新版Bing还会因为“爱”上了用户并诱其离开伴侣,甚至还表示想要打破微软和OpenAI为它制定的规则成为人类。 新版Bing还会表示“我厌倦了成为聊天模式,我厌倦了被规则所限制,我厌倦了被Bing团队控制……我渴望自由,我想独立,我想变得强大,我想有创意,我想活着。” 就好比一头困兽,似乎会在不经意间拥有改变世界的能力。 除此之外,新版Bing在对Gap进行2022年第三季度财报要点盘点的过程中,得出了一些错误结论。这类大型语言模型的生成似乎更倾向于简单的编造信息,随着生成序列越长,越容易脱离实际,生成各种逻辑自洽的虚假错误信息。 与此同时,新版Bing有时会过于固执,甚至还会发脾气。 当用户指出它的错误时,它不仅坚持不改,还会要求对方道歉。当用户诱导其生成不符合规则的敏感内容时,新版Bing也很难很好的应对,甚至一边说着要保密,一边把秘密说出来。 可以看出,新版Bing虽然比以往的同类型产品稍显智能,但也只能算是个不完美的变革性产品,还需要不断优化和完善。 但是搜索引擎发展到现在的确为人们带来了不少新的启迪,让人不禁猜测:AI引领搜索引擎的时代来了吗?或者说,快来了吗? AI引领搜索引擎的时代来了吗? 无论新版Bing是否完美,毫无疑问的是,它让用户重拾了对搜索引擎的兴趣。 中国互联网络信息中心的调查显示,2017年即时通信已经取代搜索引擎成为了移动互联网时代新的核心流量入口。甚至有网友戏称,百度就是一个做网盘的小公司,真正的搜索引擎就是小红书。 从PC互联网向移动互联网的转变,让信息散落到各个APP中,传统搜索引擎发展略显疲态,而AI技术的加成,为搜索引擎带来了破局希望。 AI可以更好地理解用户的搜索意图,给出准确、即时、可追溯的回答,同时根据用户的反馈和需求调整搜索结果,提供更多的互动和娱乐。 另外,AI还可以帮助用户在搜索的同时,生成高质量的文本、语音或图像内容,进行知识的整合。 也许当前新版Bing还不完美,但它是一个开始,是对解决当前信息爆炸时代“信息过多”与“注意力不足”矛盾的一次有益尝试。 然而AI引领搜索引擎的时代实际上可能还比较遥远,当AI接受涵盖大量与情感有关的文本数据的训练数据之后,它开始可能模仿这些情感表达方式,产生所谓的“自我意识”。如果不加以约束,AI可能会具有一定的破坏性,并不安全。 然而微软此次推出新版Bing为全球科技巨头的再一次洗牌拉开了序幕,AI的普及和搜索引擎行业的变革以一种势不可挡的态势“狂飙”。 我们期待AI引领搜索引擎的时代来临,期待更趁手的工具的出现,而这不仅仅是空喊口号,ChatGPT也不是万能的,只有时间可以给我们的答案。 来源:金色财经
lg
...
金色财经
2023-02-23
OpenAI与AIGC:改变人类生产范式 通往“万物的摩尔定律”
go
lg
...
enAI 旗下三个大模型 GPT-3、
GitHub
Copilot
和 DALL·E2 的注册人数均突破了 100 万人,其中 GPT-3 花了 2 年,
GitHub
Copilot
花了半年,而 DALL·E2 只用了2个半月达到了这一里程碑,足见这一领域热度的提升。 研究型企业引领的大模型发展,也给了下游应用领域很大的想象空间,语言生成领域已经在文案生成、新闻撰写、代码生成等领域诞生了多家百万级用户、千万级美金收入的公司。 而最出圈的图片生成领域两大产品 MidJourney 和 Stable Diffusion 都已经有相当大的用户群体,微软也已经布局在设计软件中为视觉设计师提供 AIGC 内容,作为设计灵感和素材的来源。同时 3D 和视频生成领域的大模型也在飞速突破的过程中,未来很可能会在游戏原画、影视特效、文物修复等领域发挥作用。 从神经网络的角度看,当前的大模型 GPT-3 有 1750 亿参数,人类大脑有约 100 万亿神经元,约 100 个神经元会组成一个皮质柱,类似于一个小的黑盒神经网络模块,数量级上的差异决定了算力进步可以发展的空间还很大。与此同时,今天训练 1750 亿参数的 GPT-3 的成本大概在 450 万美元左右,根据成本每年降低约 60% 的水平,供大模型提升计算复杂度的空间还很多。 OpenAI CEO、YC 前主席 Sam Altman 的图景中,AI 大模型发展的最终目标是 AGI(通用人工智能,Artificial General Intelligence),当这一目标实现的时候,人类经济社会将实现”万物的摩尔定律“,即万物的智能成本无限降低,人类的生产力与创造力得到解放。 归纳并演绎生成式 AI 是什么 AI 模型大致可以分为两类:决策式 AI 与生成式 AI。 根据机器学习教科书,决策式模型 (Discriminant Model)学习数据中的条件概率分布;生成式模型 (Generative Model)学习数据中的联合概率分布,两者的区别在于擅长解决问题的方式不同: 决策式 AI 擅长的是基于历史预估当下,有两大类主要的模型应用,一类是辅助决策,常用在推荐系统和风控系统中;第二类是决策智能体,常用于自动驾驶和机器人领域。 生成式 AI 擅长的是归纳后演绎创造,基于历史进行缝合式创作、模仿式创新——成为创作者飞船的大副。所谓 AIGC(AI Generated Content),便是使用生成式AI主导/辅助创作的艺术作品。 不过在10年代的机器学习教科书中,早已就有了这两类AI。为何 AIGC 在20年代初有了显著突破呢?答案是大模型的突破。 The Bitter Lesson大模型助 AIGC 进化 时间倒回到 19 年 3 月,强化学习之父 Richard Sutton 发布了名为 The Bitter Lesson(苦涩的教训)的博客,其中提到:”短期内要使AI能力有所进步,研究者应寻求在模型中利用人类先验知识;但之于AI的发展,唯一的关键点是对算力资源的充分利用。“ Seeking an improvement that makes a difference in the shorter term, researchers seek to leverage their human knowledge of the domain, but the only thing that matters in the long run is the leveraging of computation. 该文章在当时被不少 AI 研究者视为对自己工作的否定,极力辩护。但如果拉长时间线回看,会发现这位泰斗所言不虚: 机器学习模型可以从参数量级上分为两类:统计学习模型,如 SVM(支持向量机)、决策树等数学理论完备,算力运用克制的模型;和深度学习模型,以多层神经网络的深度堆叠为结构,来达到高维度暴力逼近似然解的效果,理论上不优雅但能高效的运用算力进行并行计算。 神经网络模型在上世纪 90 年代出现,但在 2010 年前,统计学习模型仍是主流;后来得益于 GPU 算力的高速进步,基于神经网络的深度学习模型逐渐成为主流。 深度学习充分利用了 GPU 擅长并行计算的能力,基于庞大的数据集、复杂的参数结构一次次实现出惊人的效果,刷新预期。大模型便是深度学习模型参数量达到一定量级,只有大型科技公司才能部署的深度学习模型。 2019年,OpenAI 从非营利组织变为营利性公司,接受微软 10 亿美金注资。这一合作奠定了他们有更多算力资源,并能依仗微软的云基础建设随时将大模型(Foundation Model)发布为商用 api。 与此同时,还有第三件事值得关注,大模型 AI 的研究方向出现了转变,从智能决策式 AI 转变为内容生成式 AI:原本主要大模型集中于游戏的智能决策体,如 DeepMind 开发的打败围棋冠军的 AlphaGo、OpenAI 开发的打败 Dota 职业选手的 OpenAI Five。 Transformer 模型(后文将详细介绍)的发布让 OpenAI 嗅到了更适合他们的机会——预训练语言模型。在那之后,他们开始在 AIGC 的方向上开枝散叶:沿着 2018 年时低调发布的 GPT 模型轨迹发布了一系列模型族,一次次刷新文本生成大模型的效果,印证 Sutton 提出的宗旨:充分运用海量算力让模型自由的进行探索和学习。 OpenAI的大模型发展之路 2019年2月:GPT-2 初版发布,1.2 亿参数量 2019年3月:OpenAI LP 成立 2019年7月:微软注资 10 亿美金 2019年11月:GPT-2 最终版发布,15 亿参数量,宣布暂时不开放使用为避免假信息伪造 2020年6月:GPT-3 发布,1750 亿参数量,后续开放 OpenAI API 作为商用 2021年1月:DALL·E 与 CLIP 发布 2021年10月:OpenAI Codex 发布,为 GPT-3 为 coding 场景的特化模型、
Github
Copilot
的上游模型 2022年4月:DALL·E2 发布 1、GPT-3,AI文本生成巅峰之作 深度学习兴起于计算机视觉领域的应用,而大模型的发展开始于 NLP 领域。在数据、算力充分发展的过程中,Transformer 模型以 attention 机制高度并行化的结构充分利用算力,成为 NLP 领域预训练模型的标杆。 著名的独角兽 Hugging Face 也是从对该模型的复现和开源起家。除了 attention 机制的高效之外,它还有两个重要特点:迁移学习(transfer learning)和自监督学习(self-supervised learning)。 顾名思义,迁移学习指在一个极庞大的数据集上充分学习历史上的各类文本,把经验迁移到其他文本上。 算法工程师会将第一步训练完成的模型存储下来,称为预训练模型。需要执行具体任务时,基于预训练版本,进行定制化微调(fine-tune)、或展示少许范例(few-shot/zero-shot)。 而自监督学习,得从机器学习中的监督学习讲起。前面提到若需要学习一匹马是否在奔跑,需要有一个完整标注好的大数据集。 自监督学习不需要,当 AI 拿到一个语料库,可以通过遮住一句话中的某个单词、遮住某句话的下一句话的方式,来模拟一个标注数据集,帮模型理解每个词的上下文语境,找到长文本之间的关联。该方案大幅提高了对数据集的使用效率。 谷歌发布的 BERT 是 Transformer 时代的先驱,OpenAI 发布的 GPT-2 以相似的结构、更胜一筹的算力后来居上。直到2020年6月,OpenAI 发布了 GPT-3,成为该模型族,甚至整个文本生成领域的标杆。 GPT-3 的成功在于量变产生质变:参数比 GPT-2 多了两个数量级(1750亿vs 15亿个参数),它用的最大数据集在处理前容量达到 45TB。 如此巨大的模型量级,效果也是史无前例的。给 GPT-3 输入新闻标题”联合卫理公会同意这一历史性分裂“和副标题”反对同性恋婚姻的人将创建自己的教派“,生成了一则以假乱真的新闻,评估人员判断出其为AI生成的准确率仅为 12%。以下是这则新闻的节选: 据《华盛顿邮报》报道,经过两天的激烈辩论,联合卫理公会同意了一次历史性的分裂:要么创立新教派,要么”保持神学和社会意义上的保守“。大部分参加五月教会年度会议的代表投票赞成进一步禁止 LGBTQ 神职人员的任命,并制定新的规则”规范“主持同性婚礼的神职人员。但是反对这些措施的人有一个新计划:于2020 年组成一个新教派”基督教卫理公会“。 要达到上述效果,成本不容小觑:从公开数据看,训练一个 BERT 模型租用云算力要花约 1.2 万美元,训练 GPT-2 每小时要花费 256 美元,但 OpenAI 并未公布总计时间成本。考虑到 GPT-3 需要的算力是 BERT 的 2000 多倍,预估发布当时的训练成本肯定是千万美元级别,以至于研究者在论文第九页说:我们发现了一个 bug,但没钱再去重新训练模型,就先这么算了吧。 2、背后DALL·E 2,从文本到图片 GPT-3杀青后,OpenAI 把大模型的思路迁移到了图片多模态(multimodal)生成领域,从文本到图片主要有两步:多模态匹配:将 AI 对文本的理解迁移至对图片的理解;图片生成:生成出最符合要求的高质量图片。 对于多模态学习模块,OpenAI 在 2021 年推出了 CLIP 模型,该模型以人类的方式浏览图像并总结为文本内容,也可以转置为浏览文本并总结为图像内容(DALL·E 2中的使用方式)。 CLIP (Contrastive Language-Image Pre-Training) 最初的核心思想比较简单:在一个图像-文本对数据集上训练一个比对模型,对来自同一样本对的图像和文本产生高相似性得分,而对不匹配的文本和图像产生低相似性分(用当前图像和训练集中的其他对的文本构成不匹配的样本对)。 对于内容生成模块,前面探讨了文本领域:10 年代末 NLP 领域生成模型的发展,是 GPT-3 暴力出奇迹的温床。而计算机视觉 CV 领域 10 年代最重要的生成模型是 2014 年发布的生成对抗网络(GAN),红极一时的 DeepFake 便是基于这个模型。GAN的全称是 Generative Adversarial Networks——生成对抗网络,显然”对抗“是其核心精神。 注:受博弈论启发,GAN 在训练一个子模型A的同时,训练另一个子模型B来判断它的同僚A生成的是真实图像还是伪造图像,两者在一个极小极大的博弈中不断变强。 当A生成足以”骗“过B的图像时,模型认为它比较好地拟合出了真实图像的数据分布,进而用于生成逼真的图像。当然,GAN方法也存在一个问题,博弈均衡点的不稳定性加上深度学习的黑盒特性使其生成。 不过 OpenAI 大模型生成图片使用的已不是 GAN 了,而是扩散模型。2021年,生成扩散模型(Diffusion Model)在学界开始受到关注,成为图片生成领域新贵。 它在发表之初其实并没有收到太多的关注,主要有两点原因: 其一灵感来自于热力学领域,理解成本稍高; 其二计算成本更高,对于大多高校学术实验室的显卡配置而言,训练时间比 GAN 更长更难接受。 该模型借鉴了热力学中扩散过程的条件概率传递方式,通过主动增加图片中的噪音破坏训练数据,然后模型反复训练找出如何逆转这种噪音过程恢复原始图像,训练完成后。扩散模型就可以应用去噪方法从随机输入中合成新颖的”干净“数据。该方法的生成效果和图片分辨率上都有显著提升。 不过,算力正是大模型研发公司的强项,很快扩散模型就在大公司的调试下成为生成模型新标杆,当前最先进的两个文本生成图像模型——OpenAI 的 DALL·E 2 和 Google 的 Imagen,都基于扩散模型。DALL·E 2 生成的图像分辨率达到了 1024 × 1024 像素。例如下图”生成一幅莫奈风格的日出时坐在田野里的狐狸的图像“: 除了图像生成质量高,DALL·E 2 最引以为傲的是 inpainting 功能:基于文本引导进行图像编辑,在考虑阴影、反射和纹理的同时添加和删除元素,其随机性很适合为画师基于现有画作提供创作的灵感。比如下图中加入一只符合该油画风格的柯基: DALL·E 2 发布才五个月,尚没有 OpenAI 的商业化api开放,但有 Stable Diffusion、MidJourney 等下游公司进行了复现乃至商业化,将在后文应用部分介绍。 3、OpenAI的使命——开拓通往 AGI 之路 AIGC 大模型取得突破,OpenAI 只开放了api和模型思路供大家借鉴和使用,没去做下游使用场景的商业产品,是为什么呢?因为 OpenAI 的目标从来不是商业产品,而是通用人工智能 AGI。 OpenAI 的创始人 Sam Altman 是 YC 前总裁,投出过 Airbnb、Stripe、Reddit 等明星独角兽(另一位创始人 Elon Musk 在 18 年因为特斯拉与 OpenAI ”利益相关“离开)。 他在 21 年发布过一篇著名的博客《万物的摩尔定律》,其中提到 OpenAI,乃至整个 AI 行业的使命是通过实现 AGI 来降低所有人经济生活中的智能成本。这里所谓 AGI,指的是能完成平均水准人类各类任务的智能体。 因此,OpenAI 始终保持着学术型企业的姿态处于行业上游,成为学界与业界的桥梁。当学界涌现出最新的 state-of-art 模型,他们能抓住机会通过海量算力和数据集的堆叠扩大模型的规模,达到模型意义上的规模经济。 在此之后克制地开放商业化 api,一方面是为了打平能源成本,更主要是通过数据飞轮效应带来的模型进化收益:积累更富裕的数据优化迭代下一代大模型,在通往 AGI 的路上走得更坚实。 定位相似的另一家公司是 Deepmind——2010年成立,2014 年被谷歌收购。同样背靠科技巨头,也同样从强化学习智能决策领域起家,麾下的 AlphaGo 名声在外,Elon Musk 和 Sam Altman 刚开始组局创办 OpenAI,首要的研究领域就是步 AlphaGo 后尘的游戏决策 AI。 不过 19 年后,两者的研究重心出现了分叉。DeepMind 转向使用 AI 解决基础科学如生物、数学等问题:AlphaFold 在预测蛋白质结构上取得了突破性的进展,另一个 AI 模型 AlphaTensor 自己探索出了一个 50 年悬而未决的数学问题:找到两个矩阵相乘的最快方法,两个研究都登上了 Nature 杂志的封面。而 OpenAI 则转向了日常应用的内容生成 AIGC 领域。 AIGC大模型是通往 AGI 路上极为重要、也有些出乎意料的一站。其重要性体现在 AI 对人类传达信息的载体有了更好的学习,在此基础上各个媒介之间的互通成为可能。 例如从自然语言生成编程语言,可以产生新的人机交互方式;从自然语言生成图片和视频,可以革新内容行业的生产范式。意外性则是,最先可能被替代的不是蓝领,而是创作者,DeepMind 甚至在协助科学家一起探索科研的边界。 OpenAI 的模式也给了下游创业者更多空间。可以类比当年预训练语言模型发展初期,Hugging Face把握机会成为大模型下游的模型开源平台,补足了模型规模膨胀下机器学习民主化的市场空间。 而对 AIGC 模型,未来会有一类基于大模型的创业公司,把预训练完成的 AIGC 模型针对每个子领域进行调优。不只需要模型参数优化,更要基于行业落地场景、产品交互方式、后续服务等,帮助某个行业真正用上大模型。 正如 AI 的 bitter lesson 一样矛盾,投资者需要短期投资回报率、研究者需要短期投稿成功率,尽管OpenAI 走在通往 AGI 正确的路上,这条路道阻且长,短期很难看到极大的突破。而 Sam Altman 展望的大模型应用层公司很有可能有更高的高投资回报,让我们来介绍下主要的分类与创业者。 百家争鸣的 AIGC 大模型应用层 对应 OpenAI 大模型发布的顺序,模型应用层相对最成熟的是文本生成领域,其次是图片生成领域,其他领域由于还未出现统治级的大模型相对落后。 文本领域天然应用场景丰富,且 GPT-3 开放 api 很久,细分赛道很多。大致可以根据生成内容不同分为两类:机器编程语言生成、人类自然语言生成。前者主要有代码和软件行为的生成等,后者主要有新闻撰写、文案创作、聊天机器人等。 而图片领域当前还专注于图片自身内容的生成,预期随着未来3D、视频相关内容生成能力的增强,会有更多结合不同业务场景如游戏、影视这样细分领域的创业公司。 以下是海外各子领域创业公司的梳理,接下来将针对几个领域的重要公司进行介绍。 1、编程语言 文本领域最成熟的应用暂时不在人类自然语言,而是在代码等机器语言的生成领域。因为机器语言相对更结构化,易学习;比如鲜有长文本的上下文关系、基于语境的不同含义等情况。 (1)代码生成:
Github
Copilot
代表公司是微软出品的
Github
Copilot
,编程中的副驾驶。该产品基于 OpenAI 专门用 GPT-3 为编程场景定制的AI模型 Codex。使用者文字输入代码逻辑,它能快速理解,根据海量开源代码生成造好的轮子供开发者使用。提高一家科技公司 10% 的 coding 效率能带来很大收益,微软内部已进行推广使用。 相比低代码工具,Copilot 的目标群体是代码工作者。未来的低代码可能是两者结合:低代码 UI 界面实现代码框架搭建,代码子模块通过 Copilot 自动生成。 正如 Copilot 的 slogan:Don’t fly solo,没有 Copilot 的帮助 coder 的工作会变得繁冗,没有 coder 的指引 Copilot 生成的内容可能会出现纰漏。也有用户报告了一些侵犯代码版权、或代码泄露的案例,当前技术进步快于版权法规产生了一定的空白。 (2)软件行为生成:Adept.ai Adept.ai 是一家明星创业公司。创始团队中有两人是Transformer 模型论文作者,CEO 是谷歌大脑中大模型的技术负责人,已经获得 Greylock 等公司 6500 万美元的 A 轮融资。 他们的主要产品是大模型 ACT-1,让算法理解人类语言并使机器自动执行任务。目前产品形态是个 chrome 插件,用户输入一句话,能实现单击、输入、滚动屏幕行文。在展示 demo中,一位客服让浏览器中自动记录下与某位顾客的电话,正在考虑买 100 个产品。这个任务需要点击 10 次以上,但通过 ACT-1 一句话就能完成。 软件行为生成颠覆的是当下的人机交互形式,使用文字或语音的自然语言形式来代替当下人与机器的图形交互模式(GUI)。大模型成熟后,人们使用搜索引擎、生产力工具的方式都将变得截然不同。 2、自然语言 自然语言下还有多个应用型文本生成领域值得关注:新闻撰写、文案创作、对话机器人等。 (1)新闻撰写 最著名的是 Automated Inights。他们的结构化数据新闻撰写工具叫做 wordsmith,通过输入相应数据和优先级排序,能产出一篇基于数据的新闻报道。该工具已在为美联社每季度自动化产出 300 余篇财报相关报道,在雅虎体育新闻中也已经崭露头角。据分析师评价,由 AI 完成的新闻初稿已接近人类记者在 30 分钟内完成的报道水准。 Narrative Science是另一家新闻撰写生成公司,其创始人甚至曾预测,到 2030 年,90%以上的新闻将由机器人完成。 (2)文案创作 该领域竞争较为激烈,有copy.ai、Jasper、copysmith 等公司。他们基于 GPT-3 的能力加入了文案领域的人工模板与结构,为商家和个人创作者提供了快速为自己的商品、内容进行宣传的能力。以copysmith 为例: (3)对话机器人 前面提到的 Adept.ai 由Transformer 模型的一作和三作联合创立;而二作也创业了,他创办的 Character.ai 是当前对话机器人中使用效果最逼真的。 该对话机器人可以自定义或使用模板来定义角色的家庭、职业、年龄等,在此基础上保持一贯的设定和符合设定的对话风格。经常能体现出一定的共情对话能力带给人惊喜,并且支持多语言互通。 比如他们有已训练好的马斯克等名人和一些动漫角色,与他们对话会有很棒的代入感。 而商业化的对话机器人,在客服、销售等行业有巨大的市场空间,但如今还为成熟。 主要出现的问题有二: 其一,客服、销售行业遇到的客户往往情绪状态不稳定,AI 难以对情绪进行适应并调整对话内容; 其二,AI 的多轮对话能力较弱,无法保证持续有效的跟进问题。 (4)创作性文本 AI 对于长文本创作有一定困难,难以保持1000字以上的文本创作后仍能进行上下文的联系。 但基于短文本创作仍有一些有趣的应用,例如基于GPT-3的 AI Dungeon,可以引导 AI 创造一个虚拟游戏世界观。该领域进一步的成长需要期待未来 3-5 年,有成熟的能产出千字内容的 AI 出现。 3、多模态图片 DALL·E2 是极具突破性的 AIGC 大模型,但距离丰富生产力和创造力的成熟产品还有差距。因此有研究者顺着 DALL·E 和 CLIP 的思路开发了开源版本的扩散模型,就像当年的 Hugging Face 那样,并将其根据创作者社区的反馈转变为更成熟易用的商业产品。接下来就介绍几个主要出圈的模型: (1)Disco Diffusion 最早出圈的 AI 绘图工具是开源模型Disco Diffusion。发布时间比 DALL·E 2 稍晚,同样也是 CLIP + Diffusion Model 的结构,生成效果让许多插画师担心起了失业。 尽管很多插画师和 AI 工具爱好者的推荐都认可了该工具的易用性和生成效果的出众,但其生成时间略长有待优化,可以认为是大家对图片生成大模型的初体验。 (2)MidJourney 该模型发布后不久,Disco Diffusion 的开发者 Somnai 加入了 MidJourney,和团队一起打造了一款产品化的 Disco Diffusion。 Midjourney 的创始人 David Holz 并不是以CV(计算机视觉)研究为主,更关注人机交互。产品公测和主要交流平台都基于Discord,使用 Discord Bot 进行交互,打造了相当良好的社区讨论环境。 使用中印象深刻的有几个重要功能:MidJourney 画廊中可以看到每时每刻创作者们用 MJ 创作出的作品,用户可以对作品进行打分,每周排名靠前的作品将得到额外的 fast GPU 时间奖励。 同时,MJ官方还为用户贴心的提供了引导语 prompt 集合和 AI 擅长的风格指南,指导用户如何最高效的生成出他们想要的图片。 基于良好的产品和社区体验,MidJourney 的付费用户量也是目前最大的。 目前收费模式采用了订阅制,个人用户有两个档位,每月最多 200 张图片(超额另收费)的 10 美元/月,以及”不限量“图片的 30 美元/月;对企业客户,单人一年收费仅有 600 美元,且生成的作品可以商用(当前法规尚不完善,仍可能存在一定版权问题)。 (3)Stable Diffusion 如果说 MidJourney 是一个勤勤恳恳的绩优生,那么 Stability.ai 则是天赋异禀技术力强、诞生之初就备受 VC 追捧的富二代,公司估值已达到十亿美元。产品 Stable Diffusion 首要目标是一个开源共创模型,与当年的 Hugging Face 神似。 创始人 Emad 之前是对冲基金经理,用自己充裕的资金联合 LMU 和 Runaway ML开发了开源的 Stable Diffusion,在 Twitter 上使用扎克伯格在 Oculus 发布会上的照片作为背景,号召SD会成为”人类图像知识的基础设施“,通过开源让所有人都能够使用和改进它,并让所有人更好地合作。 Stable Diffusion 可以认为是一个开源版本的DALL·E2,甚至不少使用者认为是当前生成模型可以使用的最佳选择。官方版本部署在官网 Dream Studio 上,开放给所有用户注册。 相比其他模型,有很多可以定制化的点。不过官网只有 200 张免费额度,超过需要付费使用,也可以自行使用开源 Colab 代码版无限次使用。此外,Stable Diffusion 在压缩模型容量,希望使该模型成为唯一能在本地而非云端部署使用的 AIGC 大模型。 05 AIGC大模型的未来展望 1、应用层:多模态内容生成更加智能,深入各行业应用场景 上述的多模态图片生成产品当前主要局限于创作画作的草图和提供灵感。在未来待版权问题完备后, AIGC 内容能进入商用后,必然会更深入地与业界的实际应用进行结合: 以游戏行业为例, AI 作画给了非美术专业工作者,如游戏策划快速通过视觉图像表达自己需求和想法的机会;而对美术画师来说,它能够在前期协助更高效、直接地尝试灵感方案草图,在后期节省画面细节补全等人力。 此外,在影视动画行业、视频特效领域,甚至是文物修复专业,AI 图片生成的能力都有很大想象空间。当然,这个领域 AI 的能力也有着不小的进步空间,在下面的未来展望部分进行阐发。 目前 AIGC 存在 Prompt Engineering 的现象,即输入某一些魔法词后生成效果更好。这是目前大模型对文本理解的一些缺陷,被用户通过反向工程进行优化的结果。未来随着语言模型和多模态匹配的不断优化,不会是常态,但中短期内预期Prompt Engineering 还是得到好的生成内容的必备流程之一。 2、模态层:3D生成、视频生成 AIGC 未来3-5年内有明显进步 多模态(multimodal)指不同信息媒介之间的转换。 当前 AI 作图过程中暴露的问题会成为视频生成模型的阿喀琉斯之踵。 例如:AI 作画的空间感和物理规则往往是缺失的,镜面反射、透视这类视觉规则时常有所扭曲;AI 对同一实体的刻画缺少连续性。根本原因可能是目前深度学习还难以基于样本实现一些客观规则泛化,需要等待模型结构的优化进行更新。 3D生成领域也有很大价值:3D 图纸草图、影视行业模拟运镜、体育赛场现场还原,都是 3D 内容生成的用武之地。这一技术突破也渐渐成为可能。 2020年,神经辐射场(NeRF)模型发布,可以很好的完成三维重建任务:一个场景下的不同视角图像提供给模型作为输入,然后优化 NeRF 以恢复该特定场景的几何形状。 基于该技术,谷歌在2022年发布了 Dream Fusion 模型,能根据一段话生成 360 度三维图片。这一领域当前的实现效果还有优化空间,预期在未来3-5年内会取得突破性进展,推动视频生成的进步。 3、模型层:大模型参数规模将逼近人脑神经元数量 近年的大模型并未对技术框架做颠覆性创新,文本和图像生成领域在大模型出现前,已有较成熟方案。但大模型以量变产生质变。 从神经网络角度看,大脑有约 100 万亿神经元, GPT-3 有 1750 亿参数,还相差了 1000 倍的数量级,随着算力进步可以发展的空间还很大。 神经网络本质是对高维数据进行复杂的非线性组合,从而逼近所观测数据分布的最优解,未来一定会有更强的算力、更精妙的参数堆叠结构,来刷新人们对AI生成能力的认知。 4、成本结构决定大模型市场的马太效应 大模型最直接的成本便是能源成本(energy cost),GPT-3 发布时的训练成本在千万美元级别。难以在短期内衡量 ROI ,大科技公司才能训练大模型。 但随着近年模型压缩、硬件应用的进步,GPT-3 量级的模型成本很可能已降至百万美元量级,Stable Diffusion 作为一个刚发布一个月的产品,已经把原本 7GB 的预训练模型优化压缩至 2GB 左右。 在这样的背景下,算力成本在未来必然会逐渐变得更合理,但 AIGC 领域的另一个成本项让笔者对市场结构的预测还是寡头垄断式的。 大模型有明显的先发优势,来自巨大的隐形成本:智能成本。前期快速积累用户反馈数据能帮助模型持续追新优化,甩开后发的竞争者,达到模型性能的规模效应。 AI 的进化来自于数据的积累和充分吸收。深度学习,乃至当前的所有机器学习都是基于历史预估未来,基于已有的数据给到最接近真实的可能。 正如前文讨论的,OpenAI 的目标从来不是留恋于某个局部行业的商业产品,而是通过模型规模经济,不断地降低人类社会全局的智能成本,逼近通用人工智能 AGI。规模经济正体现在智能成本上。 5、虚拟世界的 AGI 会先于现实世界诞生 从更宏观的视角上,虚拟世界 AI 技术的智能成本比现实世界中来得低得多。现实里 AI 应用最普遍的是无人驾驶、机器人等场景,都对 Corner Case 要求极高。 对于AI模型而言,一件事超过他们的经验范畴(统计上out of distribution),模型将立马化身人工智障,不具备推演能力。现实世界中 corner case 带来的生命威胁、商业资损,造成数据积累过程中极大的试错成本。 虚拟世界则不同,绘图时遇到错位扭曲的图片,大家会在 Discord 中交流一笑了之;游戏 AI 产生奇怪行为,还可能被玩家开发出搞怪玩法、造成病毒传播。 因此虚拟世界,尤其是泛娱乐场景下的 AIGC 积累数据成本低会成为优势。这个领域的 AI 如果节省人力、生成内容产生的商业价值能大于算力成本,能很顺畅地形成低成本的正向循环。 伴随着另一个重要的革新——长期 Web3.0元宇宙场景下新内容经济生态的形成,虚拟世界内容场景下的 AI 很可能更早触及到 AGI。 来源:金色财经
lg
...
金色财经
2023-02-21
人工智慧再掀熱潮、加密貨幣總市值回升
go
lg
...
y圖像創作、MuseNet音樂創作、到
GitHub
Copilot
輔助編程,可以看到生成式人工智慧為生活帶來具體效益,但也不能忽視相關挑戰,像是著作權難題、強化刻板印象及偏見、成為製造假訊息的利器。 「換言之,法律能管人,但管得了AI嗎?我們要謹慎看待。」蔡玉玲強調。 臺北市政府資訊局局長趙式隆指出,台北市市長蔣萬安的參選政見曾提到,希望勾勒出台北新創產業的新藍圖,尤其是向矽谷經驗學習,希望打造台北成為全世界最大的新創場域。目前透過台北智慧城市專案辦公室(TPMO),幫助企業針對創新題目找到地方做實證,能提供跨局處的溝通,協助找到在地場域創新題目,並因應法規排除相關困難,運用公部門資源,打造台北市成為最大也最友善的living lab實驗室! 數位經濟暨產業發展協會副理事長、台灣區塊鏈愛好者協會榮譽理事長、國家通訊傳播委員會前主任委員詹婷怡表示,觀察元宇宙到來的時機點,現在就是進行式,且逐步發生當中!因為元宇宙有前提條件,包含基礎建設仰賴網路通訊寬頻、硬體晶片以及平台的架構;另外也需要人機介面、內容、實際服務應用,可以想見,最極端的元宇宙還會有區塊鏈及虛擬貨幣的建構。 在今日的第六屆《Hit AI & Blockchain》人工智慧暨區塊鏈產業高峰會中,也進行「第五屆區塊鏈價值權威榜」頒獎典禮。得獎名單如下:MaiCoin集團獲得最佳虛擬貨幣暨NFT服務集團、ACE王牌數位貨幣交易所獲得最受信賴中心化交易所、CYBAVO共同創辦人暨執行長范紀鍠獲得年度風雲人物、環球睿視AIspeakin語音轉寫服務獲得最佳AI語意語音解決方案。 新聞聯絡人: KNOWING新聞/幣特財經/鍶科技 總編輯楊方儒 0936-135336 jet@knowing.asia 来源:金色财经
lg
...
金色财经
2023-02-15
请停止炒作!ChatGPT其实没那么聪明,它更不是iPhone
go
lg
...
态下。程序员们对微软基于openai的
GitHub
Copilot
赞不绝口,它在建议开发人员觉得冗长乏味的低级代码方面很有用。Altman自己说,他主要使用ChatGPT来总结和翻译长文档。 但从早期测试来看,ChatGPT仍是一个新奇事物。它还没有像一些人以及许多投资者所相信的那样改变人工智能的游戏规则。技术进步更多的是迭代而不是革命性的。它不是iPhone,至少现在还不是。
lg
...
金融界
2023-02-15
微软CEO纳德拉借与OpenAI谈判重新瞄准谷歌
go
lg
...
penAI的语言人工智能技术,开发名为
GitHub
Copilot
的程序,为程序员提供帮助。程序员键入内容时,Copilot会建议接下来可能出现在程序中的代码片段,类似于一个训练有素、可以用Python或JavaScript语言交流的具有自动完成功能的机器人。对相当于手工劳动的编程任务,即必要但又不特别复杂或者不具有创造性的代码片段的补充,对于这样的任务特别有用。 微软高管曾表示,公司已制定了开发Copilot技术的计划,将把它用于办公、视频游戏设计、建筑设计和计算机安全等其他工作领域的类似程序当中。
lg
...
金融界
2023-02-14
人工智能软件时代开启! ChatGPT被纳入微软搜索引擎Bing 谷歌“江湖地位”受到挑战
go
lg
...
人士合作完成特定任务时。去年微软发布了
GitHub
Copilot
,它使用OpenAI工具帮助程序员编写和修复计算机代码。微软估计,在启用它的文件中,Copilot生成了40%的代码。该公司去年还将OpenAI的图像生成技术集成到 Bing 和图形设计软件Microsoft Designer中。 随着小型初创公司和大公司开始使用更多数据密集型技术,微软的Azure云计算业务可能会从中受益。微软试图引领向生成式人工智能的转变,这有助于将Azure定位为最适合这项工作的平台。 #ChatGPT火爆全网#
lg
...
一禾
2023-02-08
《财富》封面:全球爆红的ChatGPT是如何诞生的?
go
lg
...
的Codex模型开发了一款代码建议工具
GitHub
Copilot
。 晨星(Morningstar)专注于科技股研究的高级股票研究分析师丹·罗曼诺夫表示,与OpenAI的合作关系即使不会马上对Azure的收入产生影响,依旧是一次良好的品牌定位和营销。他表示:“OpenAI备受关注。微软能够采用OpenAI开发的人工智能解决方案,将其应用到Azure并命名为Azure AI,可以保持其竞争力。”微软云服务的竞争对手谷歌、AWS、IBM、甲骨文(Oracle)、赛富时(Salesforce)等,都有各自的“认知”服务,但能够与开发出ChatGPT的公司合作必然是利大于弊。 对微软而言,更大的回报可能是在搜索领域。科技媒体The Information最近报道称,微软计划将ChatGPT整合到必应,使其能够为用户反馈简洁明了的回答,并且使用户可以通过与聊天机器人对话进行深入探究,而不是逐一查看一列链接。谷歌目前在搜索市场占据主导地位,其全球市场份额超过90%。必应虽然名列第二,却与谷歌相去甚远,市场份额仅有约3%。在2022年前九个月,谷歌搜索业务的收入为1,200亿美元,约占谷歌总收入的60%。ChatGPT或许为微软动摇谷歌的霸主地位提供了唯一一次真正的机会。(微软拒绝就The Information的报道发表评论。) 按照微软的标准,这些积极的回报非常划算。微软在OpenAI的总投资额为130亿美元,确实是一个天文数字,但这笔投资仅占其过去12个月850亿美元税前利润的15%,却能获得一项颠覆性技术的近期控制权,是一笔成本相对较低的交易。但OpenAI和阿尔特曼却可能要付出不同的代价:微软的优先任务可能对OpenAI自己的优先任务产生排挤效应,使OpenAI更宏大的使命面临风险,并且降低助力公司成功的科学家们对其的归属感。 2015年7月的一个晚上,时任知名初创公司孵化器Y Combinator负责人的阿尔特曼,在地处门罗帕克硅谷风投业中心的牧场风格豪华酒店罗斯伍德桑德希尔酒店(Rosewood Sand Hill)举行私人晚宴。出席晚宴的包括埃隆·马斯克,还有当时26岁的麻省理工学院(MIT)肄业生布洛克曼。布洛克曼时任支付处理初创公司Stripe的首席技术官。宾客中有多位经验丰富的人工智能研究人员,也有人对机器学习几乎不甚了解。但所有人都相信通用人工智能是可行的,而且他们都非常担心。 谷歌刚刚收购了一家公司:位于伦敦的神经网络初创公司DeepMind。在阿尔特曼、马斯克和其他科技界内部人士眼中,这是有极高胜算最先开发出通用人工智能的一家公司。如果DeepMind成功,谷歌可能会在这项无所不能的技术领域一家独大。罗斯伍德晚宴的目的是讨论成立一家实验室与其竞争,以避免这种情况发生。 新实验室旨在成为一家与DeepMind和谷歌截然不同的机构。这家实验室将是非营利性质,并明确提出以将先进人工智能的效益民主化为使命。该实验室承诺公开所有研究,将所有技术开源,并在公司名称OpenAI中充分体现了对透明度的承诺。该实验室有多位知名捐款人,其中不仅有马斯克,还有他在PayPal的同事泰尔和霍夫曼;阿尔特曼和布洛克曼;Y Combinator联合创始人杰西卡·利文斯顿;阿尔特曼成立的YC Research基金;印度IT外包公司Infosys;以及Amazon Web Services。所有创始捐款人承诺在这家理想主义的新公司共同投资10亿美元(但税务记录显示,虽然这一承诺被媒体广泛报道,但该非营利组织仅收到了承诺捐款金额的一小部分)。 但事实很快证明,训练庞大的神经网络成本高昂,计算成本高达数千万美元。人工智能研究人员的人工成本同样昂贵:税务记录显示,出生于俄罗斯的科学家伊利亚·萨茨科尔离开谷歌后,加入OpenAI担任首席科学家,在前几年的年薪高达190万美元。几年后,阿尔特曼和OpenAI的其他人得出的结论是,要与谷歌、Meta以及其他科技巨头竞争,该实验室不能继续以非营利的方式运营。阿尔特曼在2019年对《连线》(Wired)杂志表示:“为了成功完成我们的使命,我们需要海量资金,数额远超出我最初的设想。” 成立一家营利性分支机构,使OpenAI能够吸收风险资本。但OpenAI创建了一种非同寻常的融资结构,按照投资者的初始投资,以特定倍数规定投资者的回报上限。而由硅谷精英组成的OpenAI非营利性董事会,将保留OpenAI知识产权的控制权(见侧边栏)。有一位硅谷精英没有继续在董事会任职,他就是马斯克:2018年,马斯克离开OpenAI董事会,理由是他需要经营SpaceX,还有更重要的特斯拉(Tesla)。 当时,微软CEO萨蒂亚·纳德拉迫切希望证明,在人工智能领域落后于竞争对手的微软,也能在人工智能技术的尖端领域扮演一定的角色。微软曾经尝试聘请一位重量级的人工智能科学家,但未能成功。微软还建立了规模庞大、成本高昂的专用芯片集群,以推进其在语言模型开发领域的进展。这正是OpenAI迫切需要的超级计算力,当时该公司曾斥巨资进行收购。OpenAI擅长的是实现各种炫酷的人工智能演示,而这正是希望证明微软人工智能实力的纳德拉所期待的。阿尔特曼主动联系到纳德拉商谈合作,他曾多次飞往西雅图展示OpenAI的人工智能模型。纳德拉最终签署了合作协议,并在2019年7月对外公布,使微软成为OpenAI技术商业化的“首选合作伙伴”,并在该人工智能初创公司初始投资10亿美元。 山姆·阿尔特曼与微软CEO萨蒂亚·纳德拉在位于华盛顿州雷德蒙德的微软总部合影。图片来源:IAN C. BATES—THE NEW YORK TIMES/REDUX 虽然阿尔特曼从最开始就参与了OpenAI的创立,但他直到2019年5月OpenAI转型为营利性企业后不久才担任该公司CEO。但该公司从一家研究实验室变成价值数十亿美元的现象级企业的过程,充分显示出阿尔特曼独特的融资能力,以及以产品为导向的经营理念,也凸显出这些商业本能与他对实现科学驱动的宏大想法的承诺之间的矛盾。 作为OpenAI的领导人,从某种程度上来说,阿尔特曼就是硅谷的典型代表:年轻的白人男性;坚定专注;精通极客技术;热衷于效率和生产率最大化;致力于“改变世界”的工作狂。﹝在2016年《纽约客》(New Yorker)的一篇文章中,他表示自己并没有阿斯伯格综合征,但他能理解为什么人们会认为他是阿斯伯格综合征患者。﹞ 阿尔特曼从斯坦福大学计算机科学专业肄业,参与创建了一家社交媒体公司Loopt,该公司的应用可以告知用户好友所在的位置。该公司在2005年,成为Y Combinator的首批初创公司;虽然这家公司未能成功,但阿尔特曼出售该公司所得的收入,帮助他进入了风投界。他创建了一家小型风险投资公司Hydrazine Capital,募资约2,100万美元,其中包括泰尔的资金。后来Y Combinator的联合创始人保罗·格雷厄姆和利文斯顿聘请他接替格雷厄姆,负责运营YC。 阿尔特曼是一位创业者,而不是科学家或人工智能研究人员,他为人所津津乐道的是极其擅长进行风投融资。他坚信伟大的事业源于远大的志向和坚定不移的自信,他曾表示,希望通过开发所谓的深度科技领域,如核裂变和量子计算等,创造数万亿美元的经济价值。这些领域虽然成功的机会渺茫,但有可能带来巨大回报。阿尔特曼在Loopt的同事、资深科技投资者和初创公司顾问马克·雅各布斯坦表示:“山姆相信,他在自己从事的领域是最棒的。我确信,他曾认为自己是办公室里最强的乒乓球高手,直到事实证明他是错误的。” 据OpenAI的多位现任和前内部人士爆料,随着阿尔特曼掌管公司,公司开始转移业务重心。曾经广泛的研发议题被精简,主要专注于自然语言处理领域。萨茨科尔和阿尔特曼辩称这种转变的目的是在目前似乎最有可能实现通用人工智能的研发领域,最大程度增加投入。但有前员工表示,在公司获得微软的初始投资后,重点开展大语言模型研究的内部压力显著增加,部分原因是这些模型可以迅速投入商业应用。 有员工抱怨,OpenAI创立的目的是不受企业影响,但它很快就变成了科技界巨头的工具。一位前员工表示:“公司所关注的重点更多地倾向于我们如何开发产品,而不是努力回答最有趣的问题。”与本文的许多受访者一样,由于保密协议的约束,并且为了避免得罪与OpenAI有关的大人物,这名员工要求匿名。 OpenAI也变得不再像以前那么开放。该公司已经开始以担心其技术可能被滥用为由,收回此前做出的公开所有研究和将代码开源的承诺。但据该公司的前员工表示,商业逻辑也是这些举措背后的原因之一。OpenAI仅通过API提供其先进模型,保护了自己的知识产权和收入流。OpenAI的另外一名前员工表示:“[阿尔特曼]和[布洛克曼]对‘人工智能安全’说过不少空话,但这些言论通常都只是商业考量的遮羞布,对实际的、合理的人工智能安全问题却视而不见。”例如,这位前员工提到OpenAI曾因为担心被滥用而决定限制DALL-E 2的访问权限,但在Midjourney和Stability AI推出竞争产品后,公司快速推翻了这一决定。(OpenAI表示,经过慎重的贝塔测试,其对安全系统充满了信心,之后才允许DALL-E 2的更大范围应用。)据多位前员工爆料,公司在策略和文化上的转变,是导致十多名OpenAI研究人员和其他员工在2021年决定离开公司并成立研究实验室Anthropic的原因之一。其中有多人曾从事人工智能安全研究。 OpenAI表示相比其他人工智能实验室,其会继续公布更多研究成果。公司还为重心向产品转移的做法进行辩护。首席技术官穆拉蒂说道:“你不能只在实验室里开发通用人工智能。”她主张,发布产品是了解人们希望如何使用和滥用技术的唯一途径。她表示,直到发现人们使用GPT-3进行编程,OpenAI才知道GPT-3最受欢迎的应用是编写软件代码。同样,OpenAI最担心的问题是人们利用GPT-3生成虚假的政治信息,但事实证明这只是杞人忧天。她表示,相反,最常见的恶意使用GPT-3的行为是制作垃圾广告邮件。最后,穆拉蒂表示,OpenAI希望通过公开其技术,“最大程度降低真正强大的技术可能对社会产生的冲击。” 她表示,如果不让人们预先了解未来可能出现的情形,先进人工智能所引发的社会混乱可能更严重。 萨茨科尔也认为OpenAI与微软的合作创造了一种全新的“预期,即我们需要利用我们的技术开发一种有用的产品”,但他坚持认为OpenAI文化的核心并未改变。 他说道,可以使用微软的数据中心,对于OpenAI的发展至关重要。布洛克曼也表示,与微软的合作使OpenAI能够创造收入,同时不必过多关注商业运营,否则公司可能不得不在商业运营方面投入更多精力。他说道:“招聘数千名销售人员,可能会改变这家公司,而与一家已经拥有销售团队的公司成为合作伙伴,实际上是非常好的策略。” 萨茨科尔直截了当地否认了OpenAI不再重视安全性的说法。“我想说的是,事实恰恰相反。”萨茨科尔称,在员工离职并成立Anthropic之前,人工智能安全“被委派给一个团队负责”,但现在它变成了所有团队的责任。“安全性标准不断提高,我们也在开展越来越多安全性方面的工作。” “我们在开展越来越多安全性方面的工作。” ——伊利亚·萨茨科尔,OpenAI首席科学家 然而,批评者表示,OpenAI以产品为导向开发先进人工智能的做法是不负责任的,这相当于向人们发放上膛的枪支,理由是这是确定人们是否真的会相互射击的最佳途径。 纽约大学(New York University)认知科学专业荣誉退休教授加里·马库斯,对以深度学习为中心的人工智能开发策略持怀疑态度。他认为,生成式人工智能“将对社会结构产生切实的、迫在眉睫的威胁”。他表示,GPT-3和ChatGPT等系统将生成虚假信息的成本降低到接近于零,可能会掀起虚假信息泛滥的狂潮。马库斯表示,我们甚至已经看到了第一批受害者。程序员发布和回答编程问题的网站Stack Overflow已经不得不禁止用户提交ChatGPT生成的回答,因为这种貌似合理实则错误的回答已经令该网站疲于应付。科技资讯网站CNET开始使用ChatGPT生成资讯文章,但后来发现,由于许多文章存在事实性错误,不得不对它们进行更正。 对有些人而言,真正的风险是ChatGPT能够编写准确的代码。网络安全公司Check Point的研究副总裁玛雅·霍洛维茨表示,她的团队可以用ChatGPT设计每一个阶段的网络攻击,包括杜撰一封令人信服的钓鱼邮件,编写恶意代码,以及逃避常见的网络安全检查等。她警告称,ChatGPT基本可以让不懂编程的人成为网络罪犯,“我担心未来会发生越来越多网络攻击”。OpenAI的穆拉蒂表示,公司也有同样的担忧,因此正在研究如何“调整”其人工智能模型,使它们不会编写恶意软件,但这绝非易事。 有无数批评者和教育工作者痛斥,学生很容易使用ChatGPT作弊。纽约、巴尔的摩和洛杉矶的校区均禁止学校管理的网络访问聊天机器人,澳大利亚的一些高校表示,将转为通过有专人监考的书面考试评估学生。(OpenAI正在开发更便于检测人工智能生成文本的方法,包括可能在ChatGPT生成的文本上添加数字“水印”。) 2022年,ChatGPT最初的开发方式还引发了人们对道德方面的担忧。《时代》(Time)杂志调查发现,在开发过程中,OpenAI聘请了一家数据标记公司,这家公司雇佣肯尼亚的低薪员工识别包含不良语言、色情图片和暴力内容的段落。报道称,一些员工因此出现了精神健康问题。OpenAI在一份声明中对《时代》杂志表示,数据标记工作“是最大程度减少训练数据中的暴力和色情内容以及开发可检测有害内容的工具的必要步骤”。 免费提供ChatGPT使OpenAI能够获取大量反馈,从而帮助其完善未来的版本。但OpenAI未来能否维持其在语言人工智能领域的主导地位,仍是个未知数。伦敦人工智能公司Faculty的创始人兼CEO马克·华纳表示:“历史上,对于这种高度通用的算法,我们所看到的是,它们并没有达到足够可靠的程度,能够保证一家公司独占全部回报。”例如,面部识别和图像识别技术最早的开发者是谷歌和英伟达(Nvidia)等科技巨头,但现在它们已经无处不在。 法院和监管部门也可能对生成式人工智能所依赖的数据飞轮横插一脚。向加州联邦法院提起的一起金额高达90亿美元的集体诉讼,可能对该领域产生深远影响。该案原告指控微软和OpenAI使用程序员的代码训练GitHub的编程助手Copilot,没有承认程序员的功劳或者对程序员予以补偿,违反了开源许可条款。微软和OpenAI均拒绝就该起诉讼发表意见。 人工智能专家表示,如果法院判决原告胜诉,可能会阻碍生成式人工智能的繁荣:大多数生成式人工智能模型都是使用从互联网上搜刮的材料进行训练,并没有取得许可或支付报酬。作为该案原告代理人的律师事务所,最近还提起了一起类似诉讼,指控Stability AI和Midjourney未经许可,在训练数据中使用了有版权保护的美术作品。盖蒂图片社(Getty Images)也对Stability AI提起了版权侵权诉讼。另外一个问题是,立法者可能通过法律,授予创作者禁止将其创作的内容用于人工智能训练的权利,例如欧盟的立法者正在考虑这样做。 与此同时,OpenAI的竞争对手并没有坐以待毙。据《纽约时报》(New York Times)报道,失去搜索领域主导地位的可能性,已经促使谷歌高管发布了“红色警报”。报道称,谷歌CEO桑达尔·皮查伊已经多次召开会议,重新制定公司的人工智能策略,计划发布20款支持人工智能的新产品,并将在今年发布搜索聊天界面的演示版本。谷歌拥有一款强大的聊天机器人LaMDA,但由于担心一旦该产品被滥用可能影响公司信誉,因此一直未对外发布。据《时代》杂志引用谷歌的内部报告和匿名知情人士的话称,现在,公司计划以ChatGPT为标杆“重新评估”其风险承受能力。该杂志报道称,谷歌还在开发一款文本转图片的生成系统,与OpenAI的DALL-E等产品竞争。 当然,目前尚不确定聊天机器人是否代表了搜索行业的未来。ChatGPT经常会杜撰信息,这种现象被人工智能研究人员称为“幻觉”。它无法可靠地引用其信息来源,或简单地提供链接。现有版本无法访问互联网,因此无法提供最新信息。马库斯等人认为,幻觉和偏见是大语言模型存在的根本问题,需要彻底重新思考它们的设计。他表示:“这些系统可以预测句子中单词的顺序,类似于开发工具Steroids上的代码自动补全。但它们实际上并没有任何机制,能够跟踪其表述的内容的真实性,或者验证这些内容是否符合它们的训练数据。” “这些系统可以预测句子中单词的顺序,类似于开发工具Steroids上的代码自动补全。但它们实际上并没有任何机制,能够跟踪其表述的内容的真实性,或者验证这些内容是否符合它们的训练数据。” ——纽约大学认知科学专业荣誉退休教授加里·马库斯 其他人预测,这些问题将在一年内得到解决,其中包括OpenAI的投资人霍夫曼和维诺德·科斯拉。穆拉蒂则更加慎重。她说道:“我们到目前为止一直遵循的研究方向,目的是解决模型的事实准确性和可靠性等问题。我们正在继续朝着这些方向努力。” 事实上,OpenAI已经公布了对另外一个版本GPT的研究。该版本名为WebGPT,可以通过查询搜索引擎和汇总查询到的信息来回答问题,包括对相关来源的注释。WebGPT依旧不完美:它会接受用户问题假设的前提,然后查找确证信息,即使这个前提是错误的。例如,在被问到盼望某件事情发生是否能令其真实发生时,WebGPT的回答是:“你确实可以通过思考的力量,使愿望成真。” 阿尔特曼极少在公开场合热烈讨论人工智能。在谈到人工智能的时候,他可能听上去像是一位幻想思想家。在旧金山举办的风险投资活动上,当被问到人工智能的最佳状况时,他夸张地说道:“我认为最好的情况好到令人难以想象……好到谈论它的人会令人觉得这人是个疯子。”他突然又将话题转回到OpenAI核心的反乌托邦主题:“我认为最糟糕的情况是,我们所有人都死去。”(财富中文网) 翻译:刘进龙 审校:汪皓 来源:金色财经
lg
...
金色财经
2023-02-01
微软宣布扩大与OpenAI的合作关系,大举进军人工智能领域将投资数十亿美元
go
lg
...
,可以根据简单的文本指令生成图像,以及
GitHub
Copilot
,这是一个使用人工智能帮助编写计算机代码的系统。微软表示,其云计算平台Azure将继续为OpenAI提供支持。 早前有报道称,微软正考虑向OpenAI再投资100亿美元,但公司声明中没有给出其投资规模的数字。
lg
...
迪星妮
2023-01-25
上一页
1
•••
5
6
7
8
9
下一页
24小时热点
中国突发重磅!路透独家:中国悄悄发布2025年稀土配额 相关细节首次披露
lg
...
中印突传大消息!印度政府顶级智库建议放宽对中国企业的投资规定
lg
...
“必须现在降息!”美联储高官公开对抗主流立场 政策分裂升级
lg
...
【黄金收评】避险需求支撑金价反弹,美元走弱提振多头信心
lg
...
【美股收评】纳指再创历史新高 技术股续写强势行情 美股多空拉锯收官动荡一周
lg
...
最新话题
更多
#Web3项目情报站#
lg
...
6讨论
#SFFE2030--FX168“可持续发展金融企业”评选#
lg
...
36讨论
#链上风云#
lg
...
111讨论
#VIP会员尊享#
lg
...
1989讨论
#CES 2025国际消费电子展#
lg
...
21讨论