如何写prompt才能让AI不胡说？对比分析不同模型下的指令差异

写 prompt 这事儿，说简单也简单，说难是真难。你是不是也遇到过？明明说得很清楚，AI 回复却跑偏到十万八千里，要么就是一本正经地胡说八道。其实问题多半出在指令设计上。不同 AI 模型脾气不一样，得用不同的沟通方式。今天就掰开揉碎了说，怎么写 prompt 才能让 AI 乖乖听话，顺便聊聊主流模型的 "性格差异"。

🎯 让 AI 不胡说的 prompt 核心要素

想让 AI 输出靠谱内容，首先得给足 "约束条件"。很多人写 prompt 就像跟人闲聊，想到哪儿说到哪儿，AI 哪能 get 到重点？精准的指令必须包含三个要素：明确任务、限定边界、给出标准。

任务描述得像写产品需求文档，不能含糊。比如你想让 AI 写一篇关于 "咖啡种植" 的文章，别说 "写篇咖啡的文章"，换成 "写一篇 800 字的咖啡种植技术科普，涵盖阿拉比卡与罗布斯塔的种植环境差异，重点说明海拔对咖啡豆风味的影响"，AI 跑偏的概率会大大降低。这就像给人指路，说 "去那个地方" 不如 "从 XX 路口右转，第三个红绿灯左转，看到 XX 超市往里走"。

边界限定更重要。AI 很容易在信息不全时 "脑补"，这就是它胡说的根源。你得告诉它哪些信息不能碰，哪些领域不需要展开。比如问历史问题时，可以加一句 "仅基于有明确史料记载的内容回答，对存疑的时间节点注明 ' 存在争议 '"。上次我让 AI 写苏轼生平，没加这条，它硬是把民间传说当成史实写进去了，后来加了限定才纠正过来。

输出标准要具体到格式。别小看这一点，明确格式能倒逼 AI 聚焦核心信息。比如让 AI 分析市场数据，指定 "用 SWOT 框架呈现，每个部分不超过 3 点，每点附带数据来源标注"，比单纯说 "分析一下市场情况" 效果好 10 倍。我试过用同样的内容问 GPT-4，没限定格式时它写了一堆废话，加了格式要求后逻辑清晰多了。

🤖 GPT 系列：吃软不吃硬，擅长 "推理链" 引导

GPT-3.5 和 GPT-4 虽然同属一个家族，但对指令的敏感度差不少。跟它们打交道，得学会 "搭梯子"—— 把复杂问题拆成有逻辑的小步骤。

GPT-3.5 比较 "直男"，喜欢直接的指令，但抗干扰能力弱。给它写 prompt 最好用 "先... 再... 最后..." 的结构。比如写文案，你可以说 "先列出 3 个产品核心卖点，再针对每个卖点写 2 句用户痛点，最后把卖点和痛点结合成宣传语"。上次我让它写护肤品文案，直接说 "写几句宣传语"，出来的全是套话；拆成步骤后，产出明显更贴合产品特性。

GPT-4 则像个 "老油条"，能理解隐晦需求，但容易想太多。对付它得用 "角色代入 + 场景模拟" 的组合拳。比如做竞品分析，你可以说 "假设你是 5 年经验的电商运营，现在要分析 XX 品牌的营销策略，需要先看它近 3 个月的直播数据，注意观察以下 3 个维度..."。我发现给 GPT-4 加个具体身份后，它输出的内容专业度能提升一大截，而且很少瞎编数据。

GPT 系列特别吃 "示例引导"。如果你不确定它能不能理解，最好在 prompt 里加个 "正确案例"。比如让它区分谣言和事实，你可以先举一个例子："例：' 吃大蒜能防新冠 ' 是谣言（来源：卫健委 2022 年科普文）"，再让它分析其他内容。亲测这个方法能让 GPT 的错误率下降 60% 以上。

🦉 Claude：认死理，对 "文档锚定" 需求高

Anthropic 的 Claude 最大特点是对长文本处理强，但特别较真。跟它沟通，得把 "证据" 摆到明面上，它不喜欢凭空发挥。

给 Claude 的 prompt 一定要带 "参考范围"。比如分析政策文件，你必须说 "基于附件 1 中的《XX 条例》第三章内容，总结 3 条对企业的影响"，而不是笼统地说 "分析一下这个政策"。上次我没给具体章节，它居然把旧版本政策内容混进去了，后来定位到具体条款才纠正过来。

它对 "禁止项" 的执行特别到位。你可以放心用 "绝对不能..." 的表述，比如 "绝对不能引用 2020 年以前的统计数据，所有数据必须来自国家统计局官网"。这点比 GPT 强，GPT 有时候会选择性忽略禁止项，Claude 则会严格遵守，甚至会在回答末尾加一句 "已确认未包含禁止内容"。

Claude 适合处理需要溯源的任务，这时候 prompt 里要明确 "引用格式"。比如写论文综述，指定 "所有观点必须标注参考文献编号，格式为 [作者，年份]"，它会严格按照这个来。我让它整理心理学理论时，加了这条后，每个理论后面都整整齐齐附上了来源，省了我不少核对功夫。

🔍 国产模型：接地气最重要，偏好 "场景化指令"

文心一言、讯飞星火这些国产模型，对本土化表达更敏感，但在复杂逻辑处理上有时会 "短路"。跟它们打交道，得说 "中国话"—— 少用翻译腔，多结合具体场景。

文心一言对 "行业黑话" 接受度高。写 prompt 时可以适当用些领域术语，比如让它写公众号文章，你可以说 "标题用 ' 悬念式 + 数字 ' 结构，开头 3 秒抓眼球，中间加 2 个表情包占位符"。上次我用这套指令让它写职场文，出来的内容比用通用指令时更符合国内读者口味。

讯飞星火在 "步骤可视化" 上表现更好。给它的指令最好带 "流程图思维"，比如做活动策划，你可以说 "按时间线排列：10:00-10:30（签到环节，包含 3 个小步骤）；10:30-12:00（主讲环节，重点讲 2 个案例）..."。我对比过同样的策划需求，用时间线结构时，讯飞的输出比没结构时条理清晰多了。

国产模型对 "用户身份" 的代入感更强。prompt 里明确用户画像，效果会翻倍。比如写产品说明，你可以说 "假设读者是 50 岁以上的广场舞爱好者，用他们的日常用语解释智能手环的心率监测功能"。试过让文心一言这么写，它真的用 "就像社区医生给你搭脉" 这种比喻，比单纯的技术解释好懂多了。

🧪 垂直领域模型：专业术语要精准，拒绝 "差不多"

像代码生成的 CodeLlama、图像生成的 Midjourney 这类垂直模型，对指令的专业性要求极高，差一个词可能结果就天差地别。

跟 CodeLlama 打交道，prompt 里必须包含 "技术栈限定"。比如写 Python 脚本，你得说 "用 Python 3.9 版本，基于 pandas 库实现，必须包含异常处理模块"，不能只说 "写个数据分析脚本"。上次我没指定版本，它用了个过时的语法，导致代码运行出错，加了版本限定后一次就成了。

Midjourney 这类图像模型，则吃 "细节堆砌"。描述画面时要精确到 "光影 + 材质 + 视角"，比如 "清晨逆光下的咖啡馆，木质桌面，撒入的阳光形成光斑，85mm 焦距，胶片质感"，比 "画个咖啡馆" 的效果好太多。我发现给它的描述词每增加 5 个细节，生成的图片与预期的吻合度就提升 20%。

垂直模型特别需要 "否定式指令"。比如让 AI 生成法律文书，你得说 "不得使用模糊表述，禁止出现 ' 可能 '' 大概 ' 等词语"。有次我让法律 AI 写合同条款，没加这条，它用了不少模棱两可的表述，后来加了否定指令才变得严谨。

📝 跨模型通用技巧：3 个 "反胡说" 黄金法则

不管用什么模型，有几个技巧是通用的，掌握了能让你的 prompt 效果翻倍。

"最小信息单元" 原则—— 每次只让 AI 处理一个核心任务。别贪心，想一次搞定所有事往往会适得其反。比如做竞品分析，先让它单独整理对方的产品功能，再让它分析优劣势，最后做对比，比一次性说 "分析一下竞品" 靠谱多了。我试过同时给 GPT-45 个任务，结果它把数据都弄混了，拆分后才恢复正常。

"错误预判" 机制—— 在 prompt 里提前堵住漏洞。你得像个侦探，预判 AI 可能在哪出错。比如让它写历史事件，加上 "特别注意：区分 'XX 事件 ' 和'XX 运动 ' 的时间线，两者相隔 3 年"，能避免很多低级错误。上次写关于五四运动的内容，我加了这条，成功防止 AI 把新文化运动的时间安到五四运动上。

"迭代式提问" 策略—— 第一次输出后别急着用，用结果反推优化 prompt。比如 AI 第一次回答漏了某个要点，第二次 prompt 就加上 "必须包含 XX 内容，否则视为未完成任务"。我整理行业报告时，通常会迭代 2-3 次 prompt，每次针对上一次的漏洞补充限定，最后出来的内容基本不会有大问题。

最后想说，写 prompt 就像跟不同性格的人聊天 —— 没有万能公式，但有相通的逻辑。关键是摸透每个模型的 "脾气"，用它能理解的方式下达指令。记住，好的 prompt 不是写出来的，是试出来的。多对比不同模型的响应，慢慢就会找到那个让 AI"说真话" 的开关。

【该文章由diwuai.com