目前,小微企业的信用数据来源主要包含几个部分:除了人行征信系统和银行内部自有数据以外,主要集中在政府部门或公共事业部门,其他同业金融机构,还有部分是分散在供应链核心企业,以及互联网企业中的替代性数据。数据来源的分散化、碎片化使银行获取数据的成本高、难度大,加上整个社会信用信息体系尚未完全打通,信息获取的渠道不通畅,彼此之间仍然存在着组织壁垒、数据孤岛的问题。
另外,由于替代性数据的信息采集和处理机制不同、来源复杂,数据的准确性、真实性相对较低,银行出于合规考虑,对数据厂商的选择和合作也更加谨慎;供应链核心企业所掌握的上下游交易数据、产品数据等保密程度高,加上链条各环节数据口径不统一,数据质量难以保证,并且存在大量半结构化、非结构化的数据,造成银行实际可用的数据量和数据有效性不足,也加大了数据治理的难度。
相关的法律法规在要求保护数据安全的同时,也重视对数据的合规开发利用。政务数据和金融同业数据本身的质量高、有效性强,能够帮助银行全面了解小微企业信息,银政、银银合作布局普惠金融,可以形成政府、银行、担保、保险等多方数据安全共享的体系,共同解决小微企业贷款的数据难题。隐私计算“可用不可见”的优势是这个过程中实现数据脱敏、脱密的关键,可以从技术上保障数据流通的合规和安全,满足政府、同业、供应链核心企业等对数据保密性的要求。可以利用多方安全计算技术加强在信贷业务场景的应用,例如在小微企业信贷业务申请、客户评级、图像隐私保护、黑名单共享、贷款资金流向监测等关键环节,通过在各方部署隐私计算节点,共同完成任务调度。但隐私计算目前还尚未发展到大规模落地的成熟阶段,银行在考虑部署隐私计算平台前,需要结合自身业务特点和IT架构进行充分评估和验证。在加强数据采集的基础上,需要对数据质量、真实性和合规性做进一步判断和治理。数据治理的关键是建立全行统一的数据标准,构建企业级的数据能力中台,打造数据底座,在数据治理的基础上,推进模块的快速迭代和复用,基于大数据、人工智能技术形成全流程、全生命周期的数据治理方案,结合小微企业的信贷业务场景、合同文本、业务图像等非结构化数据,对原始数据进行解析,融合计算机视觉、NLP、知识图谱技术,通过内容管理进行非结构化数据处理,实现智能搜索、内容安全洞察、内容自动化管理,提升小微企业数据的可用性,盘活数据价值。3、提升模型性能,在数据有限的情况下充分挖掘数据价值在数据量有限的情况下,对数据的挖掘、模型的建设变得更加重要,一方面可以利用人工智能的深度学习与知识图谱技术,通过业务规则设置、模型设计去识别、融合、分析自有数据,深度挖掘产业链条上下游企业的关联关系,建立小微企业的关系视图,挖掘风险传导的路径;另一方面可以通过机器学习进行历史数据洞察,分析哪些数据可以更加有效、精准地识别客户,哪些数据具有普遍性,哪些数据只针对特定客群有应用价值,从数据中推导模式来帮助信用模型或业务策略的改善。