大數(shù)據(jù)文摘出品記者:CoolBoy、魏子敏在這個(gè)大數(shù)據(jù)盛行的時(shí)代,許多人對“機(jī)器學(xué)習(xí)、商業(yè)智能”這些名詞只聞其聲,不知其形,如何將大數(shù)據(jù)建模普及可能會(huì)是未來的一個(gè)焦點(diǎn)。本次我們邀請到美國中佛羅里達(dá)大學(xué)統(tǒng)計(jì)系教授王中慶老師,來與大家分享智能化建模的奧秘以及他對未來大數(shù)據(jù)技術(shù)的展望。
人物介紹:王中慶教授
王教授于1991年獲得美國愛荷華大學(xué)統(tǒng)計(jì)博士學(xué)位,現(xiàn)任美國中佛羅里達(dá)大學(xué)教授兼數(shù)據(jù)挖掘中心主任。主要研究方向?yàn)閿?shù)據(jù)挖掘,網(wǎng)絡(luò)挖掘,數(shù)據(jù)挖掘在商業(yè)智能,教育智能及健康智能的應(yīng)用。
指導(dǎo)過的學(xué)生團(tuán)隊(duì)在2011、2012和2016年國際SAS數(shù)據(jù)挖掘競賽獲勝。曾擔(dān)任美國富國銀行( WELLS FARGO)、美國藍(lán)十字藍(lán)盾保險(xiǎn)公司( BlueCross and BlueShield)、美 國 Whole Foods Market、美國恒久銀行( Ever Bank) 數(shù)據(jù)分析顧問。
文摘:目前市面上已有不少AI自動(dòng)化工具(如谷歌的AutoML、國內(nèi)第四范式的先知平臺)相比,智能化建模與這些產(chǎn)品是一致的嗎?王:這里提到的平臺,基本進(jìn)行的是自動(dòng)化建模工作。而智能化建模是包含自動(dòng)化的一種新的方式。在建模之前,系統(tǒng)會(huì)對數(shù)據(jù)進(jìn)行預(yù)處理,提取出更多的信息量。比方說,數(shù)據(jù)中的缺失值就包含了很多信息,因?yàn)闇y不到數(shù)據(jù)也反映了某些事件的特征。那么利用MVP(缺失值補(bǔ)全技術(shù))處理數(shù)據(jù),可能就會(huì)使保險(xiǎn)公司的事件預(yù)測準(zhǔn)確度增長。
同時(shí),提到的這些自動(dòng)化建模工具做了許多人臉識別、聲音識別的工作。這些數(shù)據(jù)的信息量大,使用深度學(xué)習(xí)的模型會(huì)有優(yōu)勢 。而智能化建模更適用于噪音相對高、信息量低的金融信貸和保險(xiǎn)的數(shù)據(jù),使用數(shù)據(jù)清洗和傳統(tǒng)的數(shù)據(jù)挖掘方式進(jìn)行智能建模。 在銀行里對于不同的客戶快速建立不同的模型,把更多的時(shí)間放在決策上的話,價(jià)值就很快體現(xiàn)出來了。
很重要的一點(diǎn)是,相對于優(yōu)化測試準(zhǔn)確率的傳統(tǒng)建模觀點(diǎn), 智能化建模會(huì)略微犧牲準(zhǔn)確率,專注于縮小訓(xùn)練準(zhǔn)確率和測試準(zhǔn)確率的差,也就是提升模型的穩(wěn)定度。
另外,為了提升建模的速度,全局搜尋的方法應(yīng)該被避免,最好是在每一步追求局部的最佳解。局部解的累積雖然可能不是最佳解,但是相對上會(huì)是一個(gè)理想的結(jié)果,并且會(huì)大大提升建模的速度。

文摘:如何平衡模型的速度、準(zhǔn)確率和穩(wěn)定度呢?王:首先,在數(shù)據(jù)清洗階段,使用Java這個(gè)較快的語言會(huì)提高效率。 其次,建模階段,我們使用了Python 的擴(kuò)展庫,并且采用平行處理的技術(shù)進(jìn)行提速。這個(gè)平行處理平臺是由我的合作伙伴蔣總親自帶隊(duì)開發(fā)的,會(huì)比市面上流行的平臺,如Sparks,更有效率。這個(gè)過程中還會(huì)有統(tǒng)計(jì)方法的介入,比如建立樹模型的時(shí)候,如果先預(yù)計(jì)出一個(gè)最佳的層數(shù),建模會(huì)省去很多不必要的時(shí)間。
在建模方面,我們對于每個(gè)變量首先進(jìn)行缺失值處理,之后會(huì)對每個(gè)變量依次進(jìn)行非線性變換與篩選。具體的說就是先計(jì)入單個(gè)變量的全部變換,再根據(jù)不重要性進(jìn)行剔除。之后要分別建立不同模型,如樹模型、線性模型等,再依照一定的規(guī)則進(jìn)行模型混合。 為了控制模型的穩(wěn)定度,一些正規(guī)化手段需要被采用。
之前有提到,智能化建模目前針對的行業(yè),數(shù)據(jù)噪音都比較高。這就意味著,現(xiàn)實(shí)的情況和訓(xùn)練的數(shù)據(jù)會(huì)有一定的差距。因?yàn)槲覀円WC業(yè)務(wù)部門使用模型的時(shí)候,得到的反饋和試驗(yàn)的時(shí)候差不多,所以我們需要保證模型的穩(wěn)定度,這樣合作的公司使用智能建模的時(shí)候我們才會(huì)放心。
同時(shí),未來的數(shù)據(jù)和現(xiàn)在的數(shù)據(jù)相比也會(huì)有一定的差異。由于現(xiàn)在社會(huì)發(fā)展很快,我們的生活習(xí)慣也改變得很快,比如在長途旅行上,大家以前更多選擇飛機(jī),現(xiàn)在則會(huì)考慮高鐵。時(shí)間差會(huì)帶來生活方式的改變,自然也就會(huì)帶來數(shù)據(jù)的差異。從這個(gè)角度看,專注于測試準(zhǔn)確率便不是一個(gè)理想的選擇。那么實(shí)際情況也是如此--從敲定合同到產(chǎn)品部署,從獲取數(shù)據(jù)到訓(xùn)練模型,都存在時(shí)間差。相比強(qiáng)調(diào)準(zhǔn)確率,強(qiáng)調(diào)穩(wěn)定度可以使模型適應(yīng)這一時(shí)間差。
文摘:那么您對于自動(dòng)化與智能化建模的前景與看法是怎樣的?
王:這應(yīng)該是未來的趨勢。目前像傳統(tǒng)行業(yè),比如金融、保險(xiǎn),或是非傳統(tǒng)行業(yè),比如電商,基本沒有不用數(shù)據(jù)的行業(yè)。
有些公司可能有專業(yè)的建模人員,但是人工建模需要先預(yù)處理數(shù)據(jù),選擇模型,選擇變量,之后還要調(diào)試參數(shù),需要花費(fèi)很多時(shí)間。如果有1000個(gè)項(xiàng)目,在有限的時(shí)間內(nèi),可能人工只能建立起其中的100個(gè),但是利用智能建模技術(shù)就可以完成這1000個(gè)建模任務(wù)。并且如果“建立模型”和“使用模型”都由同一個(gè)人來完成,更多的精力就可以放到制定決策上。
經(jīng)管類的同學(xué),有時(shí)需要數(shù)據(jù)建模來解決項(xiàng)目上的問題。利用智能建模技術(shù),這些同學(xué)就可以在沒有數(shù)據(jù)科學(xué)的背景下就完成建模,然后把更多的精力投入到問題的本身,從而提高效率。
想想手機(jī)的例子:十幾年前,大家的手機(jī)只用來打電話發(fā)短信。而現(xiàn)在智能手機(jī)除了這些基本功能,還取代了錢包,甚至公交卡。我認(rèn)為大數(shù)據(jù)會(huì)像智能手機(jī)一樣,一定會(huì)改變我們的生活。那么將數(shù)據(jù)智能建模普及各個(gè)行業(yè)就會(huì)是一個(gè)大趨勢。
我注意到最近也有開源的自動(dòng)建模工具Auto-Keras發(fā)布。這些開源的工具肯定有它的優(yōu)點(diǎn),但主要還是面向數(shù)據(jù)從業(yè)人員的建模工作。而我們希望將智能化建模的工作交給無相關(guān)經(jīng)驗(yàn)的人員,讓他們可以簡單完成數(shù)據(jù)建模。
另外,市面上現(xiàn)在有一些公司,如SAS,已經(jīng)開發(fā)出了一些半自動(dòng)的建模工具。在這些工具上,建模人員可以通過輸入一些參數(shù),自己調(diào)試來完成建模任務(wù)。而智能化建模技術(shù)則是在這個(gè)基礎(chǔ)上邁出了更簡化的一步。
之所以這些公司不愿意邁出這一步,是因?yàn)槟壳暗能浖䲡?huì)帶來很多的,很穩(wěn)定的年收入。如果進(jìn)行了技術(shù)革新,他們需要重新發(fā)展整個(gè)市場,這就帶來了不確定性,所以這些公司對革新一事還是保持慎重的心態(tài)。雖然現(xiàn)在智能化建模有著靈活性稍差,準(zhǔn)確率稍低等缺點(diǎn),但是,我認(rèn)為全自動(dòng)化的智能建模技術(shù)終究會(huì)取代這些產(chǎn)品。
目前金融和保險(xiǎn)還是智能化建模針對的主要方向,之后我們希望這項(xiàng)技術(shù)能應(yīng)用到電網(wǎng)公司、風(fēng)電公司、甚至整個(gè)工業(yè)大數(shù)據(jù)的方向來。