随着人工智能(AI)大模型火爆全网金融杠杆证券,内容生成形态已然发生了颠覆性的变革,一些挑战与风险也随之而来。
一份由头豹研究院2月26日发布的《从DeepSeek现象到信息治理革命:共建数字时代清朗空间》(下称《报告》)微报告称,“AI技术进步在提升生产效率的同时,也带来了信息过载严重、模型偏见加剧、逻辑自证陷阱等风险”。通俗来讲,一旦媒体、券商、咨询机构等使用AI大模型生成了虚假或错误内容,不但会严重削弱公众对结果真实性的信任,还会引发资本市场波动,并且低成本的内容生成模式已对数据中心、芯片厂商等传统产业链产生冲击。
事实上,中央网信办也在近期发布了2025年“清朗”系列专项行动整治重点并明确提出,要“整治‘自媒体’发布不实信息、整治AI技术滥用乱象”。那么,政府、企业、公众等各方主体正在面对的AI大模型“幻觉”问题应如何解决?
直面“幻觉”
《报告》中提到的“信息过载严重”,在于AI大模型会将各种来源和立场的内容混杂在一起,而公众难以在海量信息中迅速辨别信息的权威与否和真伪。
此外,AI大模型会出现“模型偏见加剧”,即由于训练过程中的潜在偏见和错误被放大所导致生成内容出现事实偏差和歪曲,如生成女性图片形象时倾向于输出过度性感化的效果,或将某些职业与特定性别高度关联。而“逻辑自证陷阱”则指AI大模型能通过看似严谨的论证构建出看似合理的内容结果。
《报告》撰写方、头豹联合创始人兼总裁王晨晖告诉记者,AI大模型一旦生成了虚假或错误内容,会对“内容生态”以及公众产生一系列严重影响。现有的内容生态包括传统的媒体和新闻机构(如报纸、电视台、网站等),券商、研究咨询机构、投行等,以及自媒体、网民个人和利用AI技术生成和传播内容的各类平台和个人。错误和虚假内容的泛滥会破坏整个信息生态的健康发展。
如何应对?为此,王晨晖建议,首先在内容生产阶段,内容创作必须依赖专业团队或具备高度专业性的机构进行严格把关,确保内容的专业性、准确性和可靠性。特别是在资本市场、公共健康、法律法规等领域,内容的准确性至关重要,避免任何不合格的信息流入互联网生态,导致误导性传播。
其次,内容发布平台需建立完善的溯源审查机制,确保每一条信息都能追溯到其源头,尤其对于AI生成内容(AIGC),要建立系统化的真实性和时效性审查标准。这一标准应覆盖从创作、编辑、审核到发布的每一个环节,并对内容的来源进行严格核查,确保信息的真实性、无偏性和合法合规性。
此外,在内容流入市场后,若虚假信息依然存在,网安公司与AI搜索引擎平台需加强合作,建立强有力的防火墙和知识库。通过AI技术与人工审核相结合,对信息进行实时监控、分类和过滤,确保最终传递给用户的是经过验证、具有高价值的信息。
在中国数实融合50人论坛副秘书长胡麒牧看来,虽然AI大模型之所以会生成虚假或错误内容与模型训练相关,但本质还是语料输入的问题。
胡麒牧解释,一方面,现有的一些通用大模型在进行训练时,其输入的语料并非专业数据而是公共数据,这是因为专业数据一般都在企业内部形成,属于企业的核心竞争力,除非企业本地化部署AI大模型,不然不会对通用大模型开放。另一方面,一些通用大模型目前通过公域渠道拿到的数据里,英文语料比较多,中文语料非常少、有的甚至不足1%。而优质AI大模型的训练有赖于丰富的优质语料和算法的迭代。
找到最优解
避免AI大模型产生“幻觉”,业内有最优解吗?
上海人工智能研究院算法专家陆文韬告诉记者,为了能有效避免AI大模型生成错误结果、产生“幻觉”,从技术实现角度应该注意三个方面问题。
第一,确保训练数据的高质量和多样性至关重要。训练数据应做到标注来源、时效性和引用链,使用准确、权威的数据源,避免偏见和错误信息的引入。此外,建立行业共享的“幻觉”黑名单库,杜绝使用可能会产生“幻觉”的内容。
第二,是调整模型架构与训练策略。可以采用“预训练+强化学习+人类反馈”的混合范式,例如通过人工标注数据迭代奖励模型(Reward Model),约束生成边界。对于金融、医疗等领域,强制调用监管认证的知识库,减少自由生成风险。对于高风险领域生成内容需附加置信度评分与溯源标识。
第三,完善实时监控与反馈机制。在AI大模型部署后,需要建立实时监控系统,检测并纠正潜在的错误输出,使用多模态交叉验证(如文本与权威数据库比对)。通过用户反馈,不断完善模型的性能和可靠性,动态修正模型输出。
进一步来看,如何在不抑制行业发展(开放专业性较强的语料)的同时,也保护好行业的核心技术和数据?
胡麒牧表示,行业、企业毋庸置疑掌握着优质语料,但这一方面在于企业要主动、愿意去训练自己专有的AI大模型,或者通过接入Deepseek等训练AI大模型并提供背后的服务。另一方面,要让企业拿出专业语料库,一些数据流通和交易机制(如补偿机制等)必不可少,“要让企业认为,开放专业语料库后,市场给他们所带来的收益是要远大于数据公开所带来的行业壁垒降低风险。”
陆文韬告诉记者,未来,如何平衡语料价值挖掘与技术秘密保护之间的关系是重点,“行业、企业需重点关注数据安全技术与合规机制并行推进。”
陆文韬表示,数据脱敏与加密、可信数据生态构建、合规工具链完善等方法都值得行业、企业在实操过程中借鉴。比如,数据脱敏与加密方面,企业可以采用联邦学习实现“数据可用不可见”,企业仅共享模型参数和梯度,确保原始数据不外泄等等。
再如,可信数据生态构建方面,利用区块链技术进行语料共享存证,确保数据确权与溯源等。合规工具链完善方面,企业则可以部署自动敏感信息过滤系统,利用自然语言处理(NER)模型屏蔽敏感数据,企业同时还制定智能合约来约束数据的使用范围。
有效监管
上述《报告》称,随着信息生态复杂度不断提升,单一的管理和监管手段已难以应对虚假信息的广泛传播。网络安全公司可以与AI技术强强联手,构建起从语料生成、联网引用、知识库构建到最终内容输出的全链条监控体系。
全链条监控体系是否可实现,具体如何做?为此,胡麒牧表示,AI大模型会在接收专业语料输入的同时,通过不断地纠偏、调整来达到一个安全“域值”,低于安全“域值”的模型就需要警惕其可能生成虚假或错误内容。目前,监管部门在全流程、全链条对AI大模型进行监控还不太现实,但可以通过了解或识别安全“域值”来提前预判可能会产生风险。
“不过,尽管了解或识别了安全‘域值’,监管部门也无法真正能够弄清楚哪些语料是真实的,哪些语料是虚假的。这些领域就涉及了道德风险,属于市场失灵的范畴。”胡麒牧称,对于存在道德风险的语料输入者,其实未来也可以通过打标签、人工复核的方式去处理,“但总的来说,现阶段,对于内容生态中的主体,建议可以用AI大模型来生成初稿,再进行人工校对和校验是比较稳妥的。”
陆文韬则从技术层面给出建议称,制度与技术需要协同。比如,创建白名单知识库;在金融、医疗等领域强制调用权威知识库(如国家药监局数据库),确保信息的准确性和可靠性。再比如,进行跨境数据审查;对跨境数据实施语义分析与IP溯源审查,拦截可能引发地缘误导的信息。
“国际上已有相关案例供我们参考。欧盟《数字服务法案》已要求平台部署全链条监控体系,以应对虚假信息传播等问题。Twitter(现为X平台)也通过生成标记+传播限流的技术组合,显著提升了虚假信息的拦截效率。”陆文韬补充。
王晨晖也呼吁,需要跨行业的协作,“只有通过这些多层次、全方位的防控机制,共同构建起一个坚固的内容监管链条,从源头到终端确保内容的质量和可信度,才能推动AI时代内容的普惠化生产,促进信息生态的健康发展。”
举报 第一财经广告合作,请点击这里此内容为第一财经原创,著作权归第一财经所有。未经第一财经书面授权,不得以任何方式加以使用,包括转载、摘编、复制或建立镜像。第一财经保留追究侵权者法律责任的权利。 如需获得授权请联系第一财经版权部:021-22002972或021-22002335;banquan@yicai.com。 文章作者邹臻杰
相关阅读AI与金融的融合是大势所趋,DeepSeek热潮只是开端。技术创新应提升市场效率,法律和监管更需加速适配,明确AI应用的边界,确保其服务于股民权利保护和资本市场健康发展。
0 38分钟前现阶段,AI大模型最多只能用来进行院内导诊、辅助诊断,还不能用来给出用药建议、手术方案,更不能生成电子处方
202 02-26 16:47与通用AI模型不同,观心大模型CardioMind的最大技术突破是,它是一个拥有“专科化+多模态”能力的“超级大脑”。
239 02-26 15:30中国信通院互联网法律研究中心主任何波称,AI手机作为一个新应用新事物,对很多普通用户而言目前还难以清晰认知到可能带来的安全风险,尤其是在用户信息被抓取和隐私权限被开启时。此外,虽然现在的隐私政策更加细致了,但对普通用户而言也更加复杂难懂。
537 02-23 11:16在深圳福田金融杠杆证券,基于DeepSeek开发的“AI数智员工”已被推出,并上线福田区政务大模型2.0版。
723 02-19 14:54 一财最热 点击关闭