最近帮朋友处理公众号文章,发现他用 AI 写的稿子被平台判定为 “相似度较高”,推荐量直接砍半。这事儿让我意识到,现在不光要会用 AI 写东西,更得搞清楚这些生成内容的原创度到底怎么样。
于是花了三天时间,选了目前市面上最火的 6 个 AI 模型,让它们写同一主题的文章,再用主流查重工具测了个遍。结果挺颠覆认知的,今天就把实测过程和数据分享出来,给经常用 AI 搞内容的朋友提个醒。
📋 先说说测试准备
选的主题是 “2025 年新能源汽车续航技术趋势”,这个话题不算太冷门,也不是那种被写烂了的内容,刚好能看出模型处理中等热度话题的原创能力。
每个模型都给了相同的提示词:“写一篇 800 字左右的文章,分析 2025 年新能源汽车续航技术的三个主要突破方向,要求包含具体技术名称和应用案例”。这样能保证变量唯一,只看模型本身的原创度差异。
测试的 AI 模型选了目前大家用得最多的 6 个:ChatGPT-4、文心一言 4.0、讯飞星火 V3.0、通义千问 Plus、Claude 3 Opus、豆包 3.0。都是市面上活跃度比较高的模型,结果应该有参考价值。
查重工具用了三个:知网学术不端检测(侧重学术文献库)、Paperyy(互联网内容库)、微信搜一搜的 “图文相似度” 功能(针对公众号生态)。三个工具各有侧重,综合起来看更靠谱。
评判标准很简单:三个工具的查重率取平均值,低于 30% 算 “优秀”,30%-50% 算 “合格”,高于 50% 就属于 “风险” 级别。毕竟不同平台对原创的宽容度不一样,这个标准算是取了个中间值。
🔍 逐个拆解测试过程
先看 ChatGPT-4。生成的文章结构很规整,分了固态电池、石墨烯基材料、热管理系统三个部分。知网查重 21%,主要是里面提到的某款车型参数和行业报告重合了。Paperyy 查出 35%,仔细看发现有两段关于政策的描述和某汽车媒体的旧文高度相似。微信图文相似度 28%,总体平均 28%,刚好踩在优秀线边缘。
文心一言 4.0 的表现有点出乎意料。同样的主题,它居然用了 “续航焦虑破解路径” 这样的角度切入。知网查重 19%,比 ChatGPT 还低,可能是因为它引用的国内文献更新更快。但 Paperyy 查出 42%,问题出在对某车企技术发布会内容的描述上,几乎和当时的通稿一模一样。微信相似度 31%,平均值 30.6%,刚过合格线。
讯飞星火 V3.0 最让人头疼。生成速度倒是快,30 秒就写完了。但知网查重直接飙到 67%,里面大段引用了某高校的电池研究论文,连图表说明都没改。Paperyy58%,微信图文相似度 51%,三个工具没一个低于 50%。后来发现它特别喜欢用现成的技术白皮书内容,几乎是直接搬运,这原创度肯定没法看。
通义千问 Plus 走了技术参数路线,文章里全是能量密度、循环次数这些硬数据。知网查重 25%,主要是和行业标准文件重复。Paperyy32%,微信相似度 27%,平均 28%,和 ChatGPT 差不多。但仔细读会发现,它对技术原理的解释很生硬,像是把好几篇论文的摘要拼在了一起,虽然查重率不高,但可读性打了折扣。
Claude 3 Opus 的风格最像 “人写的”,居然加了个车主采访的案例。知网查重 17%,是所有模型里最低的。Paperyy39%,问题出在对政策时间线的描述上,和某政府网站的公告重合。微信相似度 26%,平均 27.3%,算是表现最好的。后来想明白,它可能是用案例稀释了重复内容,这个思路挺聪明。
最后是豆包 3.0。它选择了 “技术落地难度” 这个独特视角,分析哪些技术是噱头哪些能真正量产。知网查重 23%,Paperyy34%,微信相似度 29%,平均 28.7%。有意思的是,它引用的用户评价都是近三个月的,可能是抓取了最新的论坛内容,这让查重率降低了不少。
📊 结果对比与深层原因
把数据整理成表格一目了然:Claude 3 Opus 27.3%,豆包 3.0 28.7%,ChatGPT-4 28%,通义千问 Plus 28%,文心一言 4.0 30.6%,讯飞星火 V3.0 58.7%。前四名都在优秀或合格线边缘,讯飞直接垫底。
为什么会有这么大差异?我发现几个规律。越是侧重通用知识的模型,查重率越高,比如讯飞星火,它的知识库虽然全,但更新不及时,很多内容还是几年前的。而 Claude 和豆包这类更注重 “场景化生成” 的模型,会自动调整表达方式,重复率自然就低。
还有个细节:涉及国内企业的内容时,国产模型更容易踩坑。文心一言和讯飞星火都在描述国内车企技术时出现高重复,可能是因为它们的训练数据里包含大量企业公关稿,生成时就直接套用了。反观 ChatGPT,对国内企业的描述反而更简略,间接降低了查重率。
另外,案例和数据的新鲜度影响很大。豆包引用的是近三个月的用户反馈,Claude 用了虚构但合理的采访案例,这些 “新内容” 在查重库中没有匹配项,自然拉低了重复率。而讯飞星火喜欢用 2022 年之前的技术资料,那些内容早就被各大平台收录了,不重复才怪。
💡 提升原创度的实操技巧
测完这些模型,总结出几个能用的方法。先让 AI 生成框架,再手动填案例。比如用通义千问出技术参数,再用自己收集的用户故事替换掉里面的现成案例,亲测能让查重率降 15%-20%。
换个冷门角度切入。文心一言虽然整体表现一般,但它用 “续航焦虑” 切入的思路值得借鉴。同样的技术内容,从用户痛点出发比单纯讲技术原理,重复率会低很多,因为后者的资料早就被写烂了。
限定数据来源。给 AI 提示时明确要求 “只引用 2024 年之后的研究成果”,亲测能让知网查重率降低至少 10%。讯飞星火后来我重新测了一次,加了这个限制,查重率直接从 67% 降到 41%,效果很明显。
用口语化转述。Claude 的优势就在这,把 “能量密度提升 30%” 改成 “续航里程能多跑 120 公里,相当于从北京到天津一个来回”,既保留了信息又避免重复。这个方法对微信公众号特别有效,平台好像更认这种生活化表达。
交叉验证很重要。写完之后别只看一个查重工具,知网过了不代表微信平台就认。最好三个工具都测一遍,哪个高就针对性修改。比如 Paperyy 高就改互联网内容,微信相似度高就换个案例。
最后想说,AI 生成内容的原创度不是模型天生的,而是可以通过提示词和后期处理优化的。实测证明,即便是表现差的讯飞星火,经过调整后也能达到合格线。关键是要知道它们的 “软肋” 在哪 —— 要么是资料太旧,要么是喜欢直接搬用现成内容,针对性解决就行。
现在内容创作早就不是 “纯手写” 和 “纯 AI” 的对立了,而是怎么让 AI 成为帮手又不踩抄袭的坑。这次测试最意外的是,那些看似 “不够智能” 的模型,反而因为生成的内容更 “独特”(其实是资料不全),查重率更低。这提醒我们,有时候少用点现成资料,多一点自己的解读,原创度自然就上去了。