西部数码虚拟主机-DeepMind推出OPRO技术，可优化ChatGPT提示

2023/11/21360收录域名

在最新的AI研究报导中，Google DeepMind推出了一项名为“优化经过提示（OPRO）”的技能，将大型言语模型(LLM)作为其本身提示的优化器。该办法旨在经过自然言语描述问题，辅导LLM生成和改善解决方案，从而进步提示功能。
OPRO的工作方式相对简略，运用LLM作为优化器，但与运用数学公式不同，它采用自然言语描述优化问题，辅导LLM迭代生成和改善解决方案。这对于提示优化等问题特别有用，由于在这些情况下，梯度不容易获取。
该技能以“元提示”作为输入，由使命的自然言语描述以及一些问题和解决方案的示例组成。在优化过程中，LLM基于问题描述和元提示中的从前解决方案生成候选解决方案。然后，OPRO评价这些候选解决方案的成果，并将它们与其质量得分一起添加到元提示中。这个过程重复进行，直到模型不再提出具有改善得分的新解决方案。
LLM作为优化器的一个关键优势是它们能够处理自然言语指令，西部数码虚拟主机,这运用户能够描述优化使命而无需形式规范。例如，用户能够指定“准确性”等衡量规范，一起供给其他指令，如要求模型供给简练且遍及适用的解决方案。
OPRO还充分利用了LLM对上下文形式的辨认能力，经过在元提示中包括的示例来辨认优化轨道。这一方面是OPRO的中心魔力，由于LLM将言语视为数字令牌，能够发现人类调查不到的形式。
DeepMind在线性回归和“游览推销员问题”等两个闻名的数学优化问题上测验了OPRO，并展示了在这些情况下的有望成果。但是，OPRO的真正潜力在于优化LLM的运用，如ChatGPT和PaLM。
image.png
DeepMind的研究显示，OPRO能够引导LLM优化其本身提示，即找到最大化特定使命响应准确性的提示。例如，为了发现解决词数学问题的最佳提示，一个“优化器LLM”被给予一个包括指令和示例的元提示，其中包括优化提示的占位符。模型生成一组不同的优化提示，并将它们传递给一个“评分LLM”，该LLM在问题示例上测验它们并评价成果。最佳提示及其分数被添加到元提示的开头，然后重复这个过程。
研究人员运用PaLM和GPT系列的多个LLM对该技能进行了评价，依据实验，一切模型都能经过迭代优化进步生成提示的功能。
虽然DeepMind没有发布OPRO的代码，但该技能的概念直观且简略，能够在几小时内创建一个自定义完成。这儿分享一个由LlamaIndex制造的运用OPRO增强LLM在检索增强生成（RAG）使命上功能的逐渐攻略感兴趣的能够拜访阅读。
https://docs.llamaindex.ai/en/latest/examples/prompts/prompt_optimization.html
OPRO是利用LLM优化其功能的多种技能之一，这一范畴正在积极探索各种主题，包括越狱和红队举动，研究人员正在不断开释大型言语模型的全部潜力。

说米网

西部数码虚拟主机-DeepMind推出OPRO技术，可优化ChatGPT提示

admin