大數(shù)據(jù)+AI打造互聯(lián)網(wǎng)金融反欺詐體系
今天分享的主題就是利用大數(shù)據(jù)和AI結(jié)合機(jī)器學(xué)習(xí)的方法在當(dāng)前的技術(shù)環(huán)境下面在互聯(lián)網(wǎng)金融的一個(gè)反欺詐架構(gòu),這次分享與線上風(fēng)控相關(guān)。介紹一下中國(guó)當(dāng)前風(fēng)控環(huán)境、反欺詐形態(tài)、目前所用的數(shù)據(jù)和算法如何在反欺詐中應(yīng)用,將從以下幾個(gè)方面介紹。
國(guó)家政策對(duì)金融監(jiān)管還是比較嚴(yán)格,每個(gè)國(guó)家應(yīng)對(duì)的也大不相同,我國(guó)目前經(jīng)濟(jì)發(fā)展迅速,尤其互聯(lián)網(wǎng)金融發(fā)展迅猛。目前GDP中消費(fèi)支出占了較大的比例(與美國(guó)已經(jīng)相差不大)消費(fèi)已經(jīng)成為巨大驅(qū)動(dòng)力,比重越來(lái)越高,尤其淘寶起來(lái)很大作用。人們?cè)絹?lái)越趨向于網(wǎng)上購(gòu)物,在這個(gè)過(guò)程中技術(shù)也有了飛速的發(fā)展,中國(guó)在這方面處于領(lǐng)先地位,中國(guó)的環(huán)境、服務(wù)、平臺(tái)都非常穩(wěn)健,這個(gè)我們的金融科技打下來(lái)非常堅(jiān)實(shí)的基礎(chǔ)。這個(gè)趨勢(shì)不可逆轉(zhuǎn),雖然國(guó)家政策表面上收緊,但是還有很多正面意義,互聯(lián)網(wǎng)金融近幾年發(fā)展也確實(shí)存在很多亂象,如暴利、惡意催收。政府收緊其實(shí)是一個(gè)洗牌過(guò)程,如果你沒(méi)有技術(shù)力量,靠以前這種野蠻手段在新的監(jiān)管環(huán)境你就很難生存。真正依靠數(shù)據(jù)、科技去驅(qū)動(dòng),你就可以很好地應(yīng)對(duì)政策。
美國(guó)是個(gè)人消費(fèi)實(shí)力很強(qiáng)的一個(gè)國(guó)家,我們以它為標(biāo)桿。圖中藍(lán)線代表中國(guó),紅線代表美國(guó)。預(yù)測(cè)中國(guó)短期個(gè)人貸款到2020年達(dá)10萬(wàn)億元,可見(jiàn)市場(chǎng)龐大。個(gè)人消費(fèi)不僅僅靠大銀行,還要靠其他小型機(jī)構(gòu);因?yàn)榇筱y行本身這種特點(diǎn)(客群優(yōu)質(zhì)),很難下放到下層服務(wù)。在信用風(fēng)險(xiǎn)中欺詐風(fēng)險(xiǎn)在我國(guó)占的比例非常高,數(shù)額也比較大,經(jīng)常是有組織的欺詐,如做“網(wǎng)絡(luò)黑產(chǎn)”有百萬(wàn)級(jí)人員,市場(chǎng)規(guī)模為千億級(jí),很多公司被迫無(wú)法經(jīng)營(yíng),據(jù)估計(jì),互聯(lián)網(wǎng)金融一半以上的壞賬風(fēng)險(xiǎn)來(lái)自欺詐風(fēng)險(xiǎn)。對(duì)比美國(guó)這方面比例就相對(duì)小的很多,如一個(gè)千億級(jí)個(gè)人消費(fèi),中能達(dá)20-30億美元,美國(guó)則只有幾千萬(wàn)美元。原因有一點(diǎn)是美國(guó)征信做的比較好,幾乎覆蓋所有成年人。反欺詐就是提高欺詐的成本。
接下來(lái)介紹下不同領(lǐng)域的金融欺詐類型,如銀行業(yè)釣魚(yú)網(wǎng)站,木馬病毒,做一個(gè)假的網(wǎng)站;電商行業(yè)促銷讓利大部分便宜了黃牛黨或競(jìng)爭(zhēng)對(duì)手—薅羊毛,與此同時(shí)退單電信詐騙,刷評(píng),協(xié)議支付面臨的銀行卡盜刷等問(wèn)題也是常有發(fā)生;消費(fèi)信貸中借款人冒用身份、老賴、多平臺(tái)借款、黑中介、企業(yè)經(jīng)營(yíng)異常貸后無(wú)法跟蹤等問(wèn)題。
用技術(shù)去做反欺詐都是有針對(duì)性的,在進(jìn)行反欺詐時(shí)需要知道欺詐的類型,下面是欺詐分類,有第一方欺詐,第三方欺詐等。第三方欺詐就是欺詐分子通過(guò)非法途徑獲取他人身份進(jìn)行騙貸等欺詐行為;線下欺詐是通過(guò)信用卡偷盜,盜取其他用戶賬戶資金的行為或者通過(guò)偽造申請(qǐng)材料,線下面對(duì)面申請(qǐng)的欺詐行為;申請(qǐng)欺詐是以欺詐為目的,申請(qǐng)個(gè)人信貸賬戶以騙取銀行或P2P平臺(tái)等機(jī)構(gòu)資金的行為??杉?xì)分為虛假身份申請(qǐng)和虛假資料申請(qǐng)(這在反欺詐中很重要,將壞人擋于門(mén)外);交易欺詐對(duì)數(shù)據(jù)實(shí)時(shí)性比較高。欺詐風(fēng)險(xiǎn)是惡意的,自始至終就是不想還貸,信用風(fēng)險(xiǎn)更多的是一種還款意愿或還款能力導(dǎo)致無(wú)法還款。信用風(fēng)險(xiǎn)主要是看征信、數(shù)據(jù),建模型進(jìn)行處理,計(jì)算欺詐概率,而欺詐是要分清黑白。
接下來(lái)我們講一下大數(shù)據(jù)+AI的反欺詐,風(fēng)控需要對(duì)監(jiān)管的改變,市場(chǎng)的形態(tài)我們都要時(shí)常關(guān)注。我們雖然不是銀行但是我很多事都是按銀行來(lái)做,自己做壓力測(cè)試,如果變壞我們能否承受得住,而且我們的反應(yīng)一定要快。金融危機(jī)發(fā)生很快根本不會(huì)給你思考的時(shí)間,如果你去現(xiàn)設(shè)計(jì)或者反應(yīng)可能會(huì)造成很大的損失。08年危機(jī)反應(yīng)快的銀行會(huì)及時(shí)剝離壞的資產(chǎn),后面有機(jī)會(huì)我們會(huì)講如何在經(jīng)濟(jì)危機(jī)下處理我們的資產(chǎn)。對(duì)于大數(shù)據(jù)和AI來(lái)說(shuō),我們并不陌生,任何新技術(shù)出來(lái)有人會(huì)質(zhì)疑,如數(shù)據(jù)早就有了只是數(shù)據(jù)量大了點(diǎn)。最近流行的AI算法其實(shí)一點(diǎn)也不新,早就有了只是目前有一定的突破、發(fā)展快、效率比較高、得到廣泛的應(yīng)用,最近消費(fèi)水平的提升與技術(shù)的成熟是分不開(kāi)的。大數(shù)據(jù)在美國(guó)有種說(shuō)法叫另類數(shù)據(jù)。美國(guó)征信數(shù)據(jù)很豐富,它屬于強(qiáng)金融數(shù)據(jù),比如我在哪里借了錢(qián)、還多少、利率是多少、逾期多少等,這些數(shù)據(jù)對(duì)信貸風(fēng)險(xiǎn)評(píng)估是非常有用的,對(duì)欺詐風(fēng)險(xiǎn)評(píng)估也是很有用的。但在中國(guó)這種數(shù)據(jù)很多人沒(méi)有或者缺失不完整,因此補(bǔ)充的數(shù)據(jù)就非常有效,如有些推廣數(shù)據(jù)、你有那些銀行賬戶、安裝的APP、消費(fèi)習(xí)慣、年齡段等都與他的資產(chǎn)和收入有關(guān),這是非常有用的。比如手機(jī)可以判斷他是一個(gè)正常人,不是專門(mén)的欺詐。大數(shù)據(jù)不是結(jié)構(gòu)化的,但是征信數(shù)據(jù)是結(jié)構(gòu)化的(要求嚴(yán)格),因此這類數(shù)據(jù)分析是很容易的。機(jī)器學(xué)習(xí)提供了很多方法,如統(tǒng)計(jì)方法等是非常有效的。美國(guó)每個(gè)人都有一個(gè)信用評(píng)分,這個(gè)評(píng)分準(zhǔn)確度非常高,數(shù)據(jù)結(jié)構(gòu)化,采用邏輯回歸方法 。在中國(guó)你有這種高維的、稀疏的、數(shù)據(jù)準(zhǔn)確度可能會(huì)有問(wèn)題,但是利用機(jī)器學(xué)習(xí)的方法也可以達(dá)到很好的精度。
大數(shù)據(jù)是多維的,例如在海外,不同的國(guó)家有不同的數(shù)據(jù),如在巴西一個(gè)項(xiàng)目,他們有稅務(wù)的數(shù)據(jù),這個(gè)是公開(kāi)的,也能很好地評(píng)估你的收入;還有些國(guó)家有電信的數(shù)據(jù),如東南亞分期付款手機(jī)業(yè)務(wù),這不屬于金融數(shù)據(jù),這方面包含數(shù)據(jù)有很多(地址、戶籍,手機(jī)是什么)。手機(jī)型號(hào)用的網(wǎng)絡(luò)進(jìn)行比較,位置指標(biāo),這些都是很好的指標(biāo)。提取些規(guī)律和緯度,這些在建模時(shí)都是很有效的。
我們常用的一些反欺詐的數(shù)據(jù)和方法有:(1)身份驗(yàn)證,這個(gè)是非常重要的,身份驗(yàn)證在中國(guó)很偉大,如中國(guó)解決了第三方欺詐的問(wèn)題。因?yàn)橹袊?guó)手機(jī)實(shí)名認(rèn)證,有些時(shí)候你很難去做假,這樣我們可以交叉驗(yàn)證,這樣就提高了欺詐的成本;(2)法院/征信信息,內(nèi)部黑名單,有公司會(huì)專門(mén)整理這些信息,可以公開(kāi)給我們使用。用戶信息整合,通過(guò)各公司間信息碰撞,規(guī)則匹配,如果發(fā)現(xiàn)過(guò)去欺詐行為就不給他提供金融服務(wù);(3)模型,評(píng)估用戶行為,進(jìn)行規(guī)則評(píng)判他這種行為是不是欺詐,如何減少錯(cuò)殺準(zhǔn)確抓住欺詐人員。
下面是欺詐與未知欺詐甄別問(wèn)題,主要是監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)。監(jiān)督學(xué)習(xí)是知道一個(gè)人以前欺詐(父母信息不對(duì),電話號(hào)碼有誤等),我們就會(huì)打上標(biāo)簽,歷史數(shù)據(jù)就會(huì)訓(xùn)練我們的模型,統(tǒng)計(jì)模型所用數(shù)據(jù)大都都是有標(biāo)簽的;非監(jiān)督學(xué)習(xí)也是經(jīng)常使用的,因?yàn)槠墼p是經(jīng)常改變的或不同特征的,我并不知道他是否是欺詐,我們用關(guān)聯(lián)網(wǎng)絡(luò),每個(gè)人間有聯(lián)系,這種網(wǎng)絡(luò)快速發(fā)展;還有一種是兩者結(jié)合起來(lái),利用權(quán)重評(píng)估。
下面是反欺詐常用算法,比如邏輯回歸,并不是就不用了,因?yàn)樗慕忉屝苑浅:?。機(jī)器學(xué)習(xí)很多時(shí)候是黑盒子,中間過(guò)程無(wú)法獲取,而銀行很少用機(jī)器學(xué)習(xí)的方法,因?yàn)楸O(jiān)管就無(wú)法通過(guò)(比如它要了解你的資產(chǎn)質(zhì)量,但是它連你怎么評(píng)估都不清楚,它不會(huì)認(rèn)可你的結(jié)果),因此很多大銀行都會(huì)用邏輯回歸。而機(jī)器學(xué)習(xí)存在過(guò)擬合現(xiàn)象,很難匹配一個(gè)度。因此在風(fēng)控行業(yè)經(jīng)驗(yàn)非常重要,有一句老話講“風(fēng)控是技術(shù)和藝術(shù)的結(jié)合”,這絕對(duì)不是純技術(shù)問(wèn)題,單純靠技術(shù)是會(huì)存在風(fēng)險(xiǎn)的。
復(fù)雜網(wǎng)絡(luò)這一塊用的非常多,很多公司都有開(kāi)發(fā),只是網(wǎng)的大小問(wèn)題,人都是有關(guān)系的,無(wú)論是微信或是Facebook等的人都是通過(guò)網(wǎng)絡(luò)聯(lián)系在一起的。而且“物以類聚,人以群分”,欺詐團(tuán)伙因素,比如不一定你是欺詐,但是和欺詐有關(guān)系的人風(fēng)險(xiǎn)會(huì)很高。如通話記錄、短息記錄、住址等利用模糊匹配。提一點(diǎn)在欺詐模型評(píng)估時(shí)主要用到準(zhǔn)確率和召回率指標(biāo)。
接下來(lái)講一下我們線上的一個(gè)反欺詐系統(tǒng)框架,下圖簡(jiǎn)化了實(shí)際反欺詐系統(tǒng)。介紹了基本流程,首先是身份的交叉驗(yàn)證,證明你是你。不光是銀行卡、手機(jī)、身份證交叉認(rèn)證,還有你的照片、活體認(rèn)證(你在上面動(dòng)來(lái)動(dòng)去);內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)有一個(gè)決策引擎,這里面存儲(chǔ)了各種規(guī)則;接下就是一個(gè)評(píng)分分析系統(tǒng),這些數(shù)據(jù)有手機(jī)的行為數(shù)據(jù)也有其他外部數(shù)據(jù)(不可控,最好有個(gè)穩(wěn)定模型進(jìn)行備份);除此之外還有個(gè)預(yù)警系統(tǒng),對(duì)我們的模型進(jìn)行監(jiān)管,需要對(duì)實(shí)時(shí)數(shù)據(jù)進(jìn)行一些評(píng)估,這一點(diǎn)也是非常重要的。
下面是欺詐模型建模過(guò)程,底層是基礎(chǔ)數(shù)據(jù)的數(shù)據(jù)倉(cāng)庫(kù)將所有外部數(shù)據(jù)、內(nèi)部數(shù)據(jù)、不同來(lái)源的數(shù)據(jù)搜集起來(lái)。中間層是如何提取一些特征,將多維的、離散的數(shù)據(jù)進(jìn)行整合。模型是金字塔的頂端,一個(gè)好的模型往往是非常困難的,社會(huì)上也很缺乏這種人才。
閉環(huán)系統(tǒng)也就是打標(biāo)簽,比如我們公司就有專門(mén)的反欺詐的專員不僅對(duì)已有的客戶,也會(huì)追蹤一些論團(tuán)、微信群或者黑產(chǎn)群、戒賭吧,了解他們的動(dòng)態(tài),搜集數(shù)據(jù),這些會(huì)反饋在我們的模型上。及時(shí)獲取最新欺詐手段或技術(shù)非常重要。
對(duì)未來(lái)一點(diǎn)展望,欺詐永遠(yuǎn)不會(huì)停止、不會(huì)消失,尤其在中國(guó)征信沒(méi)有完全建立,人口多,社會(huì)缺乏金融知識(shí),對(duì)征信了解很少,收入差距比較大的環(huán)境下,欺詐現(xiàn)象會(huì)長(zhǎng)期存在,這在風(fēng)控里面是考慮的一個(gè)重要部分。征信體系的建立和完善,雖然這個(gè)過(guò)程會(huì)很長(zhǎng);目前第三方反欺詐公司推出的服務(wù)產(chǎn)品有同質(zhì)化的特點(diǎn),預(yù)計(jì)行業(yè)發(fā)展到后期會(huì)競(jìng)爭(zhēng)加劇,最終會(huì)形成幾家專業(yè)化的行業(yè)巨頭。(文字來(lái)源:今日頭條)