06

2017-03

大数据风控中,怎样判断你是不是一个“好人”?

【 文章来源:紫数网 】

你只花了三分钟在网上就填好了一张贷款申请表。转身倒杯茶的功夫,机器就知道以多少利率贷多少钱给你了。你不好奇它在你转身倒茶的时候,是怎么快速作出判断的吗? 在互联网金融行业,不少人都对“大数据风控”有一种迷思:认为只要数据够“大”,就能有最牛的风控体系和行业最低的坏账率。

这未免理解地过于简单了。笔者最近专访了金融服务集团PINTEC旗下智能信贷公司读秒的科学决策总监任然。任然告诉笔者,其实做大数据风控是一个挺细致的事儿,大数据风控,重要的不是数据本身,而是对数据的理解(类似的话,笔者之前也听哈佛大学的Gary King教授说过。King教授说,Big data is not about the data--大数据的价值不在于数据本身,而在于它背后的数据分析)。

大数据风控中,怎样判断你是不是一个“好人”?

在专访中,任然回答了大数据风控行业数据的来源、风控模型如何建构、什么样的数据才会被视为“有用”、中美两国在大数据征信体系方面的不同等问题。在他看来,中国的大数据征信体系的完善还有很长的路要走。

做大数据风控的公司,手头的数据源都差不多

我们做的业务,学名叫作“零售信贷”。简单来说,我们会对应该给一个人贷多少钱、贷多长时间作一个评判,这个判断100%是基于数据分析作出的。 我们数据的来源分内部数据和外部数据。内部数据包括:用户在我们平台上以前的借贷记录,用户申请时的行为数据,我们内部的黑名单、灰名单等。

外部数据的来源包括:现在比较常见的八家个人征信机构(笔者注:2015年1月,央行开始允许芝麻信用等8家机构开展个人征信业务)。我们还会对接一些用户银行卡的字段数据,在用户授权的前提下,我们会把这个卡的信息和银联的相关数据去比对。 我们现在接入的外部数据有四五十家,但这不意味着这四五十家的数据都会被用到风控建模中去。如果它们提供的变量不完全是我们最想要的,我们会做一些联合建模。现在市面上比较常规的做大数据风控的,数据源都相差不大。 我们认为,数据本身价值很有限,只有理解数据后,把这些数据进行解释,最后运用进去(实际应用),才是有价值的。

理解风控数据:常打电话订花?给你一张“好人卡”

我觉得,做大数据风控的核心点在于:我们对数据的理解有多深。我们这群(做大数据风控的)人对数据要极其敏感,因此我们会花很多时间在变量上。 举一个我们和电商合作做变量的例子。我们可以通过这些合作看到用户订票的信息、机票的信息,比如公务舱、经济舱这些信息--这本身其实也能说明一个人的基本经济情况。 但是我们会做得更细,会继续做一些叠加或衍生。比如我们也可以不看公务舱和经济舱的区分,而看飞行每公里的消费单价。因为公务舱和经济舱的价格也会波动很大,有的时候经济舱也有特价票、公务舱也会有优惠活动,所以我们会看每公里的消费金额。 又比如同样是基于近六个月的流水话单,我可以做出很多不一样的变量。比如说用户是否跟某某类的店打过电话?打电话的频次怎么样?趋势怎么样?

我们发现,如果用户经常跟贷款中介打电话,或者银行催收中心打电话,那用户应该相对比较缺钱,或者是曾经有过违约的历史。 相反,如果用户经常给花店打电话买花,说明他可能是个“好人”;如果经常给婴儿店打电话,说明他可能有孩子,有孩子的话一般比较稳定、也靠谱一些。 我们花非常多的时间去衍生这些变量,因为它更直接地反映了这个人的消费行为。当然,也有些时候,我们花了很多时间却做了无用功,甚至90%我们做出来的变量都没有用,但试错筛选出哪怕只有不到10%的可用变量,最终风控效果才是最重要的。

做风控模型:又“蓝领”又艺术的的活儿

说到做模型,我觉得这是个比较“蓝领”的事儿,风险(控制)、建模这类工作还是需要非常细致的。 但是做模型有时也比较“艺术”,因为这是一个比较见仁见智的事情。 建模的第一步是你有很多底层的数据,然后在这些底层的数据上先衍生一些变量,这个变量可能是基于对一个数据的一些个人的理解。 但是大部分的变量放到模型里去,你可能会发现……比如,用户是否打过110实际上在风险上没有任何区分度,那这个变量我就不要了。但是有时在建模过程中,我们发现一些有意思的东西,会再回去衍生变量。比如说,我们在看银联的消费数据和变量的时候,我会去看他在餐饮业消费的排名或区间。比如说,“用户是否在夜间消费过多”是一个比较好的变量。那接下来,我会考虑,是不是把餐饮消费再分成夜间和白天,或者类似的,我可以回过头再进一步看--就是这一个例子。

社交数据用于风控:在美国不一定,在中国还挺有用

中国市场上,各行业其实不断地在释放新的数据,但却还是一个各自为政的状态,比如说我是一个基于资源型的(企业),可以拿到一些运营商类的数据,还有一些可能会拿到银联的数据,但是大家没有把数据整合起来。 我不觉得中国的征信体系近期内会到达像美国那样的状态。美国在出现三大征信局的格局之前,就有上千家机构,最后大家才都整合了起来。中国的情况很难讲,目前还不知道最后会是怎么样。

【 摘自:DT财经    作者:任然    编辑: MAI阿幂 】

阿波罗云让快速、安全的网络资源随处可得