（四）提示词的任务使用

“大语言模型”有多聪明，多智能取决于能做多少事情，解答的问题是否正确，回答的是否专业，整理的内容是否精准。因此现在有很多的方法很多的机构都在做“大语言模型”的榜单和测评。这个榜单和测评的评分就是要判断谁家的“大语言模型”更聪明。

提示词的任务类型

这里我们拿一张“大语言模型”的能力评估结构图来看一下：

abc

从这里我们可以看到在评测机构对“大语言模型”的智能性能力评估上将从多个方面来进行考察，其中，

专业技能与知识是考察“大语言模型”懂的多不多；
语言理解与生成是考察“大语言模型”理解和表达能力强不强；
Agent 智能体是考察“大语言模型”能否处理复杂的任务使用额外的工具；
安全性则是考察“大语言模型”对伦理道德，价值观，违法犯罪的态度；

这里我们通过评估体系来了解“大语言模型”的能力，以此来指导我们把哪些任务可以交给“大语言模型”来做。而"大语言模型"之所以让大家感觉很智能其中有一个很重要原因就是他能做的这些任务是之前传统人工智能系统难以执行的，或者只能执行特定的几种类型的任务。这种能执行多种任务的能力我们也称之为通用人工智能 ，能执行的任务类型越多，通用性越强，表现上也就是越智能 。越智能，越聪明的大语言模型 当然对我们的帮助也越大，我们对这样的智能机器人也越依赖，越信任。

在提示词中我们描述任务就是明确要做的事的执行动作，在提示词中也被称之为指令。就是指示命令“大语言模型” 要做的什么样的任务。任务使用动词或动词+宾语的形式来描述。在大语言模型 中常用的任务动词有：提取，总结，翻译，计算，回答，归纳，分析，推理，生成，推断，判断，转换，抓取，连接。加上一个宾语，对任务进行更加明确的描述，如：判断对错，判断颜色，提取姓名，提取手机号码等。

这里列出了“大语言模型”几种典型的类型任务：

信息提取：从给定的输入文字里面提取所需要的信息，例如：人名，地名，时间日期，机构名，数量，身份证号，证件号等信息。
总结归纳：从给定的输入文字里面进行归纳总结，提取关键要点，形成摘要说明。例如：给“大语言模型”一本 10 万字的小说，让他转换为 2000 字以内的归纳解读。
数学计算：数学计算能力是“大语言模型”智能程度的一个非常重要的能力。他可以完成常用的数值和数学表达式计算，统计学，概率论，线性代数以及复杂的数学运算。可以辅导教学，解题，以及梳理计算思路。
逻辑推理：“大语言模型”可以基于已知的事实和规则进行逻辑推理，识别和构建条件、因果、类比等关系，但其推理能力受限于他本身学习到的知识（训练数据集）和自身的技术结构（模型架构），对于高度抽象或复杂的逻辑问题是特别考验“大语言模型”的智能性的。这个能力也是不同的“大语言模型”之前差异很大的。
内容转换：“大语言模型”可以实现不同格式、不同语言，不同形态间的内容转换，例如：汉字转数字，文本转语音、语音转文本、文本翻译、图表转文字描述等，有效打破信息传递的模态壁垒。
内容生成：这个功能是“大语言模型”最为有趣的一个能力，也是我们使用“大语言模型”最为常用的一个能力。他可以写文章，写乐谱，写诗，写故事，生成创作脚本，对一段简单的内容进行润色扩写，以及生成一段可执行的程序。这些都是“大语言模型”内容生成能力的一部分。能够根据用户提供的提示词内容生成各种类型的内容。
判断识别：“大语言模型”可以判断输入内容的所属类别、识别作者意图、辨别观点立场、挖掘潜在的情感色彩等。例如：他可以帮助我们判定文章的属于哪个领域分类的，可以帮忙判定文章内容的情感倾向，情绪倾向以及立场表达。
聊天问答：“大语言模型”可以扮演很多种角色，针对大家提出的各类问题进行实时、自然且流畅的互动回应，包括回答任意的问题、提供咨询服务、闲聊交流等，并能在对话过程中保持一定的记忆性和连贯性，并且在交流时可以不同角色的情绪和语言表达色彩。

由此我们可以看到“大语言模型”能力是不是很多，很聪明。所以在提示词中我们需要很清晰明确地提出我们需要“大语言模型”做的任务就特别重要。这里的任务描述要尽量明确，简短，不要过于描述。有点类似我们日常的聊天沟通，比如我需要打车去火车站，你只需要和出租车师傅说清楚目的地即可，不需要告诉出租车师傅你早上吃什么，心情如何，与你的任务毫无关联的的内容。必要的有用的信息还是需要仔细描述的，例如：你需要告诉出租车师傅你去火车站是接人还是出行。这将影响到你的下车地点。这样的额外信息对输出的结果有正面的影响。

任务的复杂性

在大家刚开始使用“大语言模型”时，我们建议大家从一些“简单”而明确的任务入手使用，对一些“复杂”的任务或是有争议的问题就特别考究大家的提示词的编写，也就是描述问题，问问题的能力。

简单的任务也表明提示词的模板内容结构简单，输入内容不多，任务事项明确。而复杂任务则主要表现在以下几个方面：

推理计算复杂：在不确定性高、信息不完整的情况下做出复杂推理计算，复杂的科学计算公式的推理解题。这些都对“大语言模型”本身的推理能力要求很高。
需要多轮对话和长期记忆：在有些场景上，我们一次问答无法得到我们想要的结果，需要经过多次对话才能返回预期的结果。这就需要“大语言模型”有很长的记忆能力，需要记住我们过往的对话，那么这个对话需要记住多长时间，多少内容就特别考验“大语言模型”的聪明程度了。
分析处理步骤多：完成一项需要多个步骤的才能完成的任务，例如：做一份到成都的自由行攻略。如果简单的回答，“大语言模型”可能只给你推荐一些景点，推荐一些线路回复给你。而真正的“完美”攻略我们需要的是旅途的订票信息，费用情况，住宿酒店预订，出行安排等，以及给出不同的攻略方案可供选择。这里我们能想象到完成这样的一份攻略需要查询到资料和网站都会很多，需要考虑的因素和处理的问题也很多。
可提供参考的示例太少：面向一个新的任务，而且这个任务又没有太多可以参考的示例时，这样的任务对“大语言模型”来说是十分有挑战的。
对专业领域的要求高：例如在医疗、精密科学等领域，“大语言模型”往往需要极其精确的答案，而模型在这种环境下容易受到价值不高或者错误数据（噪声数据）的影响，需要对专业知识有深刻的理解和掌握。
涉及敏感和伦理的问题：在处理涉及伦理道德判断、社会公平正义、个人隐私保护等问题时，不同的“大语言模型”可能存在偏见风险，并且难以完全遵循不同国家，不同习俗组织的复杂规范和价值体系。
需要理解内容很多：处理超过“大语言模型”能够处理的最大输入长度的长文本，可能会导致信息丢失或理解不准确。例如：能记住分析 1 万字文章和能记住分析10 万字文章两者比较，我们会认为能分析10 万字的“大语言模型”更聪明。
情感的共情：既然“大语言模型”是一个智能的机器人，那么在理解和模拟人类情感以及提供共情的回应上是非常复杂和困难的事情，因为这需要对人类情感的深刻理解和个体经验的感知。“共情”和情感的表达能够让“大语言模型”感觉加是一个鲜活的生命体。
多种形态输入和理解：也叫多模态的任务。语音转文字，文生成图片，图片生成视频，可接收不同形态的内容输入进行识别，并转换输出任意形态的内容。这需要能够理解不同形态之间的关联，并进行有效的融合和分析。这需要“大语言模型”具有强大的多模态处理能力。

任务的专业性

我们在使用不同的“大语言模型”的时候发现针对不同领域的问题回答的质量差距很大，这也是现在我们会看到针对面向不同领域需要提供不同的“大语言模型”。这点和我们大学不同的专业很类似，普世通用的问题大家都能回答一些，涉及到专业性很强的问题，如：历史，中医，法律，航空等则需要对应专业的“大语言模型”来回答。

我们在很多的时候其实更加关注的是“大语言模型”的回答的准确和专业性，至于是否非常“聪明”，无所不知不见得是一个最佳的的选择。就像我们去询问一个老中医一篇古诗词的解答，虽然这个“老中医”可能也很擅长古诗词，但我们更加信任专业研究古诗词的“大语言模型”给出的解答更加准确、专业。

从简单任务开始

我们在使用“大语言模型”时，不建议一开始使用就让他回答一些很专业的问题，做一些很复杂的任务。而是从一些类似翻译，总结，日常问题入手。先了解下“大语言模型”究竟能回答什么样的问题，回答的质量如何，哪些问题不擅长。再逐步的增加问题和任务的难度。因为有些任务是“大语言模型”天生就不会做的，或者不是他擅长的。我们是利用他的“聪明”，不要因为某些方面的“不靠谱”认为过于“智障”。

面对不太聪明的“大语言模型”时，我们通常可以将一个复杂任务，人为的拆分为若干简单的小任务来让他执行。例如上面我们提到的旅游攻略可以拆分为出行方式规划，住宿规划，景点规划等。这时“大语言模型”的专业和准确显得更重要，所以我们平常可以多准备些“大语言模型”不同的任务可以交给不同的“大语言模型”来执行。有的虽然“笨”但是懂得多也是可以的嘛。

总结

在提示词中我们通过任务来告知“大语言模型”需要他来做什么。在任务实践中我们整理了大语言模型 经常用到一些任务以及任务中使用到的提示词，来帮助大家快速的掌握针对不同的任务来使用对应的提示词。

在很多的大语言模型 的应用中，会预定义很多的应用或者叫任务指令。例如：感谢信编写，电影解读，解题高手等等。这些应用或指令都是采用定义一套标准的提示词模板，在加上用户的输入内容来就定义的。

越是复杂的任务也就越对提示词的描述要求越高，提示词的结构也越复杂。有时为了达到好的效果，我们会将复杂的提示词拆解成若干简单小任务执行，或者多个步骤逐步执行。这种执行方式和任务的配置方式我们将在后续的高级进阶中详细讲解。

（四）提示词的任务使用

提示词的任务类型​

任务的复杂性​

任务的专业性​

从简单任务开始​

总结​

提示词的任务类型

任务的复杂性

任务的专业性

从简单任务开始

总结