西部数码虚拟主机-DeepMind推出OPRO技术,可优化ChatGPT提示
在最新的AI研究报导中,Google DeepMind推出了一项名为“优化经过提示(OPRO)”的技能,将大型言语模型(LLM)作为其本身提示的优化器。该办法旨在经过自然言语描述问题,辅导LLM生成和改善解决方案,从而进步提示功能。
OPRO的工作方式相对简略,运用LLM作为优化器,但与运用数学公式不同,它采用自然言语描述优化问题,辅导LLM迭代生成和改善解决方案。这对于提示优化等问题特别有用,由于在这些情况下,梯度不容易获取。
该技能以“元提示”作为输入,由使命的自然言语描述以及一些问题和解决方案的示例组成。在优化过程中,LLM基于问题描述和元提示中的从前解决方案生成候选解决方案。然后,OPRO评价这些候选解决方案的成果,并将它们与其质量得分一起添加到元提示中。这个过程重复进行,直到模型不再提出具有改善得分的新解决方案。
LLM作为优化器的一个关键优势是它们能够处理自然言语指令,西部数码虚拟主机,这运用户能够描述优化使命而无需形式规范。例如,用户能够指定“准确性”等衡量规范,一起供给其他指令,如要求模型供给简练且遍及适用的解决方案。
OPRO还充分利用了LLM对上下文形式的辨认能力,经过在元提示中包括的示例来辨认优化轨道。这一方面是OPRO的中心魔力,由于LLM将言语视为数字令牌,能够发现人类调查不到的形式。
DeepMind在线性回归和“游览推销员问题”等两个闻名的数学优化问题上测验了OPRO,并展示了在这些情况下的有望成果。但是,OPRO的真正潜力在于优化LLM的运用,如ChatGPT和PaLM。
image.png
DeepMind的研究显示,OPRO能够引导LLM优化其本身提示,即找到最大化特定使命响应准确性的提示。例如,为了发现解决词数学问题的最佳提示,一个“优化器LLM”被给予一个包括指令和示例的元提示,其中包括优化提示的占位符。模型生成一组不同的优化提示,并将它们传递给一个“评分LLM”,该LLM在问题示例上测验它们并评价成果。最佳提示及其分数被添加到元提示的开头,然后重复这个过程。
研究人员运用PaLM和GPT系列的多个LLM对该技能进行了评价,依据实验,一切模型都能经过迭代优化进步生成提示的功能。
虽然DeepMind没有发布OPRO的代码,但该技能的概念直观且简略,能够在几小时内创建一个自定义完成。这儿分享一个由LlamaIndex制造的运用OPRO增强LLM在检索增强生成(RAG)使命上功能的逐渐攻略感兴趣的能够拜访阅读。
https://docs.llamaindex.ai/en/latest/examples/prompts/prompt_optimization.html
OPRO是利用LLM优化其功能的多种技能之一,这一范畴正在积极探索各种主题,包括越狱和红队举动,研究人员正在不断开释大型言语模型的全部潜力。