ip反查域名-Salesforce新AI模型可改善数据分析 XGen-7B基准测试超越Meta的LLaMA-7B

随着对AI东西的需求添加,对能够完结更多使命的体系的需求也越来越大。
企业能够通过具有像ChatGPT或Bard这样的聊天界面来受益,这些界面能够对冗长的文件进行摘要或挑选客户数据以获取见解。但要履行这些使命,模型需求通过很多数据的练习。ip反查域名,而企业一般挑选了更小、更具本钱效益的模型,问题在于这些模型无法很好地处理这些使命。
像Meta的LLaMA、Falcon-7B和MPT-7B等开源模型,其最大序列长度约为2,000个token,使得它们难以处理像文件这样的冗长非结构化数据。
这也是Salesforce推出的一系列大型言语模型XGen-7B的原因,XGen-7B在长达8,000个token的序列进步行练习,因此更简单处理冗长的文档输入,一共可处理1.5万亿个token。
Salesforce的研讨人员运用Salesforce内部的库JaxFormer以及公共范畴的教育数据对这一系列70亿参数的模型进行练习。
与LLaMA、Falcon和Redpajama等开源模型比较,所得到的模型在性能上达到或超过了它们。
Salesforce的AI研讨人员表明,运用Google Cloud的TPU-v4云计算渠道,在1万亿个token上练习这个模型只需花费15万美元。
XGen-7B基准测验亮眼
Salesforce的模型在一系列基准测验中取得了令人印象深刻的成果,在许多方面都超过了受欢迎的开源大型言语模型。
在对“Measuring Massive Multitask Language Understanding(MMLU)”基准测验进行测验时,XGen在四个测验类别中有三个类别取得了最高分,而且在加权平均分中也是最高的。只要Meta的LLaMA在人文学科方面的MMLU测验中比XGen得分更高。
image.png
在同一基准测验的零样本测验中,XGen取得了相似的成果,但在人文学科方面仍然不及LLaMA。
就整体零样本测验而言,XGen只在“TruthfulQA”基准测验中超过了其他模型。在包括ARC_ch、Hella Swag和Winogrande在内的基准测验中,Meta的LLaMA取得了更好的成果。
但是,在代码生成使命上,XGen在评估基准测验的pass@1目标上超过了LLaMA和其他模型,得分为14.20,而LLaMA只要10.38。
在长序列使命中,Salesforce的这个新AI模型表现最出色,在SCROLLS基准测验的QMSum和GovReport数据集上得分非常高。
image.png
不过,Salesforce的研讨人员指出,由于XGen模型没有在相同的教育数据进步行练习,“它们不是严厉可比较的”。
XGen-7B系列
Salesforce的研讨人员创建了三个模型——XGen-7B-4K-base、XGen-7B-8K-base和XGen-7B-inst。
XGen-7B-4K-base能够处理8000亿个上下文token,它是在2,000个token,后来又是4,000个token进步行练习的。它以Apache-2.0答应发布,这意味着能够根据不同的答应协议分发派生著作,但一切未修改的组件有必要运用Apache2.0答应。
image.png
XGen-7B-8K-base在之前提到的模型的基础上添加了3000亿个token,使其总的上下文理解能力达到了1.5万亿个token。这个模型也以Apache2.0答应发布。
XGen-7B-inst在公共范畴的教育数据进步行了微调,包括databricks-dolly-15k、oasst1、Baize和与GPT相关的数据集。该模型在4,000个和8,000个token进步行了练习,仅用于研讨目的。
为了练习这些模型,Salesforce的研讨人员采用了两阶段的练习策略,每个阶段运用不同的数据混合。
团队解说说:“对于C4,咱们运用C4流程处理了6个Common Crawl转储,并通过仅保留具有相同URL的文档中的最新时刻戳,跨不同的转储去重了文档。咱们练习了一个线性模型,将C4数据分类为相似于维基百科的文档和随机文档。然后,咱们挑选了前20%的相似于维基百科的文档。”
然后,将Salesforce和Hugging Face创建的代码生成模型Starcoder添加到支持代码生成使命。然后将Starcoder的核心数据与前一阶段的数据混合。
然后运用OpenAI的tiktoken对模型的数据进行token化,随后添加了连续空白和制表符的额定token。
虽然XGen的练习过程得到了一系列功能强大的AI模型,但也存在一些缺点。Salesforce指出,该模型仍然存在错觉问题。
有关XGen-7B的更多信息,Salesforce在其博客上发布了一篇具体的文章。模型的代码库能够在GitHub上找到,模型的检查点能够在Hugging Face上找到。
上下文至关重要
能够理解更长输入的模型对企业来说可能是一个巨大的优势。
Salesforce的研讨人员表明,很多的上下文“使得预练习的言语模型能够查看客户数据并对有用的信息查询做出回应”。
对于聊天机器人使用来说,更多的上下文意味着更多的对话。Salesforce并不是仅有一个研讨这一概念的安排。Anthropic是由OpenAI的前员工兴办的新兴AI初创公司,最近扩大了其旗舰使用Claude的上下文长度。
Claude现在能够用于从多个冗长的商业文件或书籍中获取信息,用户能够问询有关数据的问题。
目前的模型在添加上下文长度方面存在困难。当ChatGPT和Bing的AI聊天等使用开端出现时,用户发现他们在单个对话中运用模型的时刻越长,模型的回应变得越来越不稳定。这是由于模型无法处理较长的上下文长度,导致混淆和产生错觉。