大数据征信

“征信”的英文单词是Credit Reporting或者Credit Sharing,可以理解为信用报告或者信用分享。这种报告和分享的需求最早来自放贷机构,机构在放贷之前需要了解借款人的信用状况,征信中心就是这样一个信息交流和共享的平台。

从1992年到2006年,在央行的主导下,中国逐渐建立起全国统一的企业和个人征信系统,基本覆盖了所有征信机构以及每一个有信用活动的企业和个人。目前,这个征信系统已经成为我国重要的金融基础设施,但央行个人征信中心在数据的覆盖面上也有不足。比如,目前个人征信中心的数据主要是放贷数据,那些没有贷款记录的人,征信中心并没有数据,这就给基于数据的互联网征信带来了发展机遇。

大数据、云计算和人工智能等技术的发展深刻地改变了征信业,技术的进步使征信从原本放贷机构之间信息报送和共享的范畴中跳了出来,一跃成为五彩斑斓的生活场景。在当今中国的征信市场,芝麻信用等互联网公司背景的征信机构将大数据征信作为抓手,希望利用电商、社交、金融交易等广泛的数据来源,开启“大数据征信”的崭新时代。

与此同时,中国征信市场的准入政策的放开,为芝麻信用这样的民营征信机构打开了参与这个市场的大门。

2013年,国务院发布了《征信业管理条例》(以下简称《条例》)。《条例》的公布为中国征信业的发展奠定了法治基础。《条例》对从事个人征信业务的机构和企业征信业务的机构规定了不同的设立条件,前者采用审批制,后者采用备案制。

就在胡滔入职的第二天,即2015年1月5日,芝麻信用就收到了央行正式批筹的文件。胡滔的同事说,这是她入职带来的好运。同样也正是在当天下午,一堂针对在京记者的征信小课在北京东三环环球财富中心蚂蚁金服的办公室里举行,芝麻信用首席数据科学家俞吴杰是授课讲师之一,那也是他大学毕业后时隔十年第一次回到北京。对胡滔和俞吴杰而言,此时接到央行正式批筹的文件具有特殊的意义。

央行网站发布的《关于做好个人征信业务准备工作的通知》(以下简称《通知》)中,要求芝麻信用等八家公司做好个人征信业务的准备工作。事实上,蚂蚁金服关于征信业务的研究和探讨早在2012年就开始了。此前,小贷业务在这方面积累了丰富的数据运营和风控的经验。

与传统征信机构不同的是,芝麻信用是一家通过数据来判断信用的技术公司,致力于通过云计算、机器学习等技术客观呈现个人的信用状况。在芝麻信用一百三十多人的团队中,数据和技术团队占比超过2/3。目前,其团队主要由数据科学家、国外征信公司华人精英,以及本土培养的数据技术与风险管理人才三部分构成。其中不乏在国外知名征信机构工作十余年的资深数据科学家、风控和数据分析专家。[1]

胡滔将芝麻信用的核心能力概括为三点。一是具有充分的数据源。二是在数据源完善的情况下的建模能力,即在海量的数据中利用算法找到核心变量,揭示规律的本质。前两点可以归纳为大数据的能力。三是云计算的能力。云计算一方面提供了更为强大、灵活、可拓展的计算能力;另一方面使芝麻信用能够在云端更便利地与合作机构交互。

目前,芝麻信用有数十家数据合作伙伴。其中,正面数据有教育部的学历、学籍,各地的水电煤、社保、公积金、税务缴纳等;负面数据包括最高法“老赖”、法院涉及经济纠纷的判案裁决、合作伙伴反馈的违约信息等。可以说,实时、多维的数据是评分科学、客观、公正的关键。

在有了数据之后,芝麻信用的大数据科学家会通过逻辑回归、决策树、随机森林等模型算法,对各维度数据进行综合处理和评估,并从用户信用历史、行为偏好、履约能力、身份特质、人脉关系五个维度呈现个人信用状况。比如,要考察一个既有家庭责任感又经常进行爱心捐助的人的信用水平,就要靠这两个因子进行组合验证运算,而更多的情况下,变量不止两两组合。因此,在算法的背后还有强大的运算能力作为支撑。

《蚂蚁金服》