3 月 27 日与波士顿的领导人一起度过一个独特的社交之夜、见解和对话。 在此请求邀请。
今天,由 DeepMind 联合创始人 Mustafa Suleyman 和 LinkedIn 联合创始人 Reid Hoffman 创立的位于帕洛阿尔托的初创公司 Inflection AI 宣布了一个名为 Inflection-2.5 的新基础模型。
基于迄今为止所做的工作,Inflection-2.5 的性能显着优于该公司最初的 Inflection-1,并且几乎与 OpenAI 的 GPT-4 模型相匹配,尤其是在 STEM 科目中。
它现在为该公司的 Pi 助手提供支持,该助手旨在与 ChatGPT 和 Gemini 竞争,并且可以通过移动和网络进行测试。
此举标志着快速发展的人工智能领域为挑战 OpenAI 的主导地位所做的最新努力,OpenAI 继续阐明其为人类开发人工智能的方法。
就在最近,Anthropic 发布了 Claude 3 Opus,成为第一个击败 GPT-4 的模型。
表现更好,但仍落后于 GPT-4
自成立以来,Inflection AI 一直在构建一个“有同理心、有用且安全”的人工智能,其行为比其他模型(包括 GPT 系列)更加个性化和口语化。
该公司利用独特的同理心微调,赋予 Pi 背后的模型标志性的个性和卓越的 EQ(情商)。
VB事件
AI 影响力之旅 – 波士顿
我们对 3 月 27 日在波士顿举行的 AI Impact Tour 的下一站感到兴奋。
这项仅限受邀人士参加的独家活动与 Microsoft 合作,将讨论 2024 年及以后的数据完整性最佳实践。
空间有限,请立即申请邀请。
请求邀请
随着升级版 Inflection 2.5 的推出,这家初创公司于 2023 年 6 月筹集了 13 亿美元资金,正在加强 IQ 方面的开发,涵盖物理和数学等领域。
在今天发布的一篇博客文章中,该公司表示,在 Inflection 2.5 的支持下,用户与 Pi 交谈可以讨论一系列主题,从讨论爱好到编码、检查生物学论文的答案或起草商业计划。
数百万用户,数十亿条消息。
来认识一下全新升级的 Pi,它将有用的 IQ 与友好的 EQ 融为一体。
现在由我们世界一流的基础模型提供支持:Inflection-2.5 https://t.co/bws0K9G7Hl
— 穆斯塔法·苏莱曼 (@mustafasuleyman) 2024 年 3 月 7 日
就基准测试性能而言,升级后的模型比 Inflection 1 全面改进,并接近 GPT-4,尽管仍然落后。
例如,在 MMLU 基准测试中,衡量从高中到专业难度的各种任务的表现,Inflection-2.5 得分为 85.5,仅落后于 GPT-4 的 87.3。
同样,在 STEM 考试中,该模型的表现几乎与 OpenAI 模型一样,在匈牙利数学考试中得分为 63 分(GPT4 为 68 分),在物理 GRE 考试中得分为 85%,而 GPT-4 为 97%。
在由 8.5K 个高质量小学数学问题组成的 GSM8K 基准测试中,Inflection 模型得分为 86.3,而 GPT-4 的得分为 92。在旨在评估代码生成能力的 0-shot HumanEval 中,它得分为 73.8,而 GPT4 的得分为 79.3。
通过网络搜索进行有效训练的模型
虽然性能并不比 GPT 4 更好,但 Inflection AI 确实指出,这种“94% GPT-4 级别的性能”是通过比 OpenAI 大语言模型 (LLM) 更高效的训练实现的。
据该公司称,Inflection-2.5 仅需 GPT-4 训练 FLOP(计算)的 40% 即可获得这些结果。
此外,与GPT-4一样,该模型还集成了实时网络搜索功能,为用户提供最新的时事信息。
鉴于该公司已将 Pi 助手定位为每个人的人工智能,这将是一次重大升级。
然而,值得注意的是,网络检索的结果质量可能有点不同,因为没有基准测试使用它。
如何访问 Inflection-2.5?
Inflection AI 已经推出了 Pi 聊天机器人的新模型。
这意味着任何使用该助手的人都可以开始测试其功能。
该公司尚未透露用户如何从升级后的模型中受益,但表示这一变化对用户情绪、参与度和保留率产生了重大影响,加速了聊天机器人的有机用户增长。
目前,Pi 聊天机器人可在 Android、iOS、Web 和桌面应用程序上使用,每天有 100 万活跃用户,每月有 600 万活跃用户。
与人工智能交换了超过 40 亿条消息,平均对话持续 33 分钟。
VentureBeat 的使命
是成为技术决策者获取有关变革性企业技术和交易知识的数字城镇广场。
了解我们的简报。
用戶喜愛的交易所
已有账号登陆后会弹出下载