返回首页

坚贞不屈具体是什么原因?

时间:2024-07-31 来源:原创/投稿/转载作者:管理员点击:

  另一项重磅更新就是写作功能了,它可以帮忙润色推特评论,三下五除二就能把高级表达方式安排起来。

  苹果基础大模型团队负责人庞若鸣(Ruoming Pang)也表示,其模型与一些同类最佳模型相比具有竞争力。

  庞若鸣是普林斯顿计算机博士,本硕分别毕业于上海交大和南加州大学,于2021年加入苹果,此前在谷歌担任了15年的工程师。

  这次他还强调,这些基础模型“并不是聊天机器人”,而是支持广泛的功能,包括摘要、写作帮助、工具使用和代码。

  首先,搭载它的iOS 18.1 Beta版目前是99美金一年的注册开发者限定,所以普通用户还得等等。

  还有就是之前说过的,只支持M系和A17 Pro芯片,也就是说iPhone中只有部分地区的15 Pro和15 Pro Max能用。

  除了硬件和身份要求,系统设置也需要修改,要将地区设置为美国,且设备和Siri的语言都要改成英语。

  此次上线的Apple Intelligence是部分功能,主要围绕文本生成、Siri和相册这几个模块。

  另外结合iOS 18 Beta的语音备忘录中已经上线的音频转录功能,文本生成系统还可以为录音生成摘要。

  而且还给不想语音对话的用户提供了文本对话方式,双击屏幕底部即可调出键盘,与Siri打字交流。

  另外,新的Siri还可以够理解从一个查询到下一个查询的上下文,例如要求Siri创建日历事件,然后请求创建提醒,而无需重述正在谈论的内容。

  以上就是本次开发者测试版本中有关AI的大致内容,需要指出的是,这只是之前发布会上所展示的功能中的一部分,还有很多没有上线。

  端侧模型的参数量在3B左右,云侧则未具体透露,只说是比端侧更大,二者都有32k的上下文窗口。

  硬件则采用的是谷歌TPU,其中云侧用了8192颗TPUv4芯片,端侧用了2048颗TPUv5p芯片,总之英伟达含量为0。

  值得一提的是,苹果选用的数据集中无一使用GPL,都是MIT、Apache、CC0这些开放程度更高的开源协议。

  流程上,AFM的预训练过程共分三个阶段核心训练、继续训练和上下文延长。

  在核心训练阶段中,云侧版本的数据量有6.3T tokens,窗口长度为4096,端侧版本则是在此基础之上蒸馏得到。

  继续训练时,低质量数据的权重会被降低,并使用数学、代码以及获得授权的高质量数据,对模型能力进行提升。

  到了下一阶段,窗口长度被进一步扩充到32k,涉及长序列文本和合成数据,总量为100B tokens。

  iTeC全称Iterative Teaching Committee,可译作“迭代教学委员会”,是一种用于强化学习后训练的算法,旨在通过多轮迭代优化模型的性能。

  其核心思想是结合不同的偏好优化算法,包括拒绝采样、直接偏好优化(DPO),使得模型能够从多种优化策略中受益,从而提高其对特定任务的适应性和性能。

  在每次迭代中,iTeC会从最新的模型中选择一组表现最好的模型,形成一个“模型委员会”。这些模型是经过SFT、RS、DPO/IPO和RL等不同训练方法得到的。

  每收集一批人类偏好数据后,iTeC会刷新其奖励模型,并训练新的模型集合,以此循环进行多轮迭代,逐步提升模型性能。

  也就是说,这种方法使得模型能够在训练过程中不断学习和调整其策略,以生成更符合人类偏好的响应。

  具体实现上,它结合了留一法(Leave-One-Out,LOO)优势估计器和镜像下降策略优化(MDPO),以实现更稳定和有效的策略更新。

  苹果采用的方式被称为“调色板”策略,在调色板量化中,权重不是每个单独量化,而是将它们分组,并让组内的权重共享相同的量化常数。

  针对嵌入层,由于是输入和输出共享的,采用了8位整数进行每通道量化,另外还有某些重要性相对较低的层被进一步压缩到2位量化。

  为了恢复量化后损失的性能,以保持模型的输出质量和准确性,苹果还引入了准确性恢复适配器(Accuracy-Recovery Adapters)。

  该适配器是小型的神经网络模块,可以插入到预训练模型的特定层中,在量化模型的基础上进行训练,通过微调来学习如何补偿量化带来的影响。

  先说人工评估,评估人员设计了涵盖分析推理、头脑风暴、聊天机器人等方面的多类问题,并让模型生成相应。

  结果,无论是云侧还是端侧模型,都有至少60%的概率不输给Llama 3、GPT-4等对比模型。

  在指令遵循能力上,苹果进行了IFEval测试,结果在指令和prompt两个层次上,云侧AFM都超过了GPT-4,成为了新的SOTA。

  再看具体任务上的表现,AFM在写作类Benchmark当中的总结任务上取得了SOTA,撰写任务上也与第一名接近。

  虽然Apple Intelligence已经提供给开发者进行测试,但彭博社爆料说,正式版可能会延迟上线。

  的确,按照苹果此前的版本发布规律,18.1的版本号也意味着,这些功能不会随着9月的新机发布一同上线。

【责任编辑:管理员】
上一篇:有关白安为什么咬字不清看点是什么? 下一篇:没有了
随机推荐 更多>>