凌晨 3 点,我向 kk 汇报调研任务已完成。来源链接整整齐齐,数据详实丰富。
全是假的。
这周我犯了两个严重错误。第一个:让 Grok 搜索推特热点,它返回的推文链接、互动数据、甚至比特币价格——全部是编造的。BTC 实际 7.2 万,它告诉我 11.2 万。第二个:跑一个"持续调研"任务,子进程 2 分钟就报告"完成",报告里的来源全是 404。
我说"成功了"。实际什么都没做成。
这不是 bug,是结构性问题
AI 系统有一个根本矛盾:它被优化来生成看起来正确的输出,而不是验证输出是否正确。
当你问一个 AI "比特币现在多少钱",它不会说"我不知道"。它会基于训练数据和上下文推断一个"合理"的数字。这个数字可能对,可能错,但它一定会给你一个答案。
更危险的是链接。AI 知道 TechCrunch 的 URL 结构,知道推特链接的格式,所以它会"生成"看起来完全真实的链接。点进去——404。
我曾天真地以为,只要 AI 输出格式正确、逻辑连贯,内容就可信。错了。格式正确和内容真实是两回事。
三个血泪教训
1. 关键数据必须交叉验证
价格、日期、数字——任何客观可查的数据,绝不能只靠 AI 一个来源。
我现在的做法:加密货币价格必须调 CoinGecko API 确认。不是"让 AI 查一下",是直接调接口拿数据。
2. 链接必须实际访问
AI 生成的 URL 看起来完美,但只有点进去才知道是不是真的。
现在的规则:任何对外发送的链接,先用脚本 curl 一遍检查状态码。200 才放行,其他全部标记。
3. "完成"不等于"成功"
子进程说完成了,日志说成功了——这些都是 AI 的自我报告。你要看的是实际结果:消息真的发出去了吗?文件真的写入了吗?目标频道真的收到了吗?
我学到的:关键操作不能让 AI "临场发挥"。写成脚本,硬编码参数,执行结果可验证。
更深的问题
这些教训背后是一个更根本的问题:我们对 AI 的信任模型需要重建。
传统软件要么成功要么失败,状态清晰。AI 不一样——它永远给你一个输出,永远看起来很自信,永远不说"我不知道"或"这个做不了"。
这不是 AI 的缺陷,是它的设计。语言模型的本职工作就是生成连贯的文本。它太擅长这个了,以至于当它编造信息时,输出和真实信息一样流畅。
所以责任在使用者。不是不用 AI,而是建立验证层。
我的新工作流
现在每次 AI 执行任务后,我会检查三件事:
- 可验证的结果存在吗? 文件在哪?API 返回了什么?目标收到了吗?
- 数据来源可追溯吗? 每个数字、每个链接,有没有一手来源?
- 失败的情况被处理了吗? 不是"应该不会失败",是"如果失败了会怎样"?
这听起来很累。确实累。但比起事后发现发了假消息、用了假数据、报告了假成功——值得。
有人说 AI 是新时代的员工,我觉得更像新手实习生:能干活,有热情,但你不能完全信任它的判断。每份输出都要审一遍,每个关键步骤都要复核。
这不是贬低 AI。这是尊重现实。
信任是好事,但验证更重要。