謝林燕,劉紀(jì)偉,張 玉,張 峰
(國家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心河北分中心,河北 石家莊 050021)
0 引言
互聯(lián)網(wǎng)技術(shù)迅速發(fā)展,互聯(lián)網(wǎng)金融作為一種新生的金融形式逐漸發(fā)展起來;ヂ(lián)網(wǎng)金融網(wǎng)頁的業(yè)態(tài)識(shí)別是互聯(lián)網(wǎng)金融監(jiān)測(cè)預(yù)警與風(fēng)險(xiǎn)防范的核心基礎(chǔ)。然而在實(shí)際中頻繁出現(xiàn)新興金融業(yè)態(tài),相關(guān)網(wǎng)頁數(shù)量較少,其中只有少量的網(wǎng)頁經(jīng)過人工標(biāo)注。面對(duì)當(dāng)前新興互聯(lián)網(wǎng)金融業(yè)態(tài)網(wǎng)頁訓(xùn)練樣本過少的情況,如何實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)金融網(wǎng)頁的高效業(yè)態(tài)判定成為關(guān)注熱點(diǎn)。
網(wǎng)頁分類主要立足于文本分類,機(jī)器學(xué)習(xí)是網(wǎng)頁分類的一種常見方法,集中體現(xiàn)在網(wǎng)頁的特征選取、數(shù)據(jù)的特征表達(dá)上。文獻(xiàn)[1]提出了一種基于樸素貝葉斯協(xié)調(diào)分類器綜合網(wǎng)頁結(jié)構(gòu)信息及內(nèi)容文本的分類方法,通過組合分類器的方法,使分類性能得到了一定程度的提高。文獻(xiàn)[2]主要采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)進(jìn)行文本分類,提出用于句子分類的單卷積層的卷積神經(jīng)網(wǎng)絡(luò)(Text CNN),利用多個(gè)大小不同的卷積核來并行地提取不同的 n-gram 信息,然后對(duì)其進(jìn)行最大池化(Max Pooling)操作提取重要的特征,從而完成分類。文獻(xiàn)[3]提出了循環(huán)卷積神經(jīng)網(wǎng)絡(luò)(Recurrent Convolutional Neural Network,RCNN)模型,有效解決了固定窗口的卷積操作使得每一個(gè)詞向量的上下文受限的問題,實(shí)驗(yàn)證明該模型在文本分類中普遍優(yōu)于單獨(dú)的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)或CNN 模型。文獻(xiàn)[4]設(shè)計(jì)了基于深度學(xué)習(xí)的高效網(wǎng)頁分類算法框架,利用深度神經(jīng)網(wǎng)絡(luò),搭建了一種多通道輸入、復(fù)合特征抽取結(jié)構(gòu)的分類模型,有效地提高了網(wǎng)頁分類的準(zhǔn)確率。
深度學(xué)習(xí)的優(yōu)勢(shì)主要依賴于其大數(shù)據(jù)的提取能力,在樣本量足夠的情況下,深度學(xué)習(xí)往往可以取得較好的效果。然而對(duì)于互聯(lián)網(wǎng)金融網(wǎng)頁來說,數(shù)據(jù)量不足會(huì)導(dǎo)致模型出現(xiàn)過擬合的問題。因此,針對(duì)小數(shù)據(jù)集的小樣本學(xué)習(xí)技術(shù)是解決互聯(lián)網(wǎng)金融網(wǎng)頁分類問題的關(guān)鍵。文獻(xiàn)[5]通過對(duì)傳統(tǒng)支持向量機(jī)(Support Vector Machine,SVM)算法模型進(jìn)行調(diào)整,引入新的參數(shù)控制模型超平面的位置,以緩解正負(fù)樣本不平衡對(duì)分類準(zhǔn)確率的影響。文獻(xiàn)[6]提出基于主動(dòng)學(xué)習(xí)的半監(jiān)督支持向量機(jī)學(xué)習(xí)算法,以少量的有標(biāo)記數(shù)據(jù)來訓(xùn)練初始學(xué)習(xí)器,通過主動(dòng)學(xué)習(xí)策略來選擇最佳訓(xùn)練樣本,并通過刪除非支持向量來降低學(xué)習(xí)代價(jià),獲得較好的學(xué)習(xí)效果。文獻(xiàn)[7]提出了一種基于遷移學(xué)習(xí)與權(quán)重支持向量機(jī)的圖像自動(dòng)標(biāo)注方法,解決了所選數(shù)據(jù)集規(guī)模較小,無法訓(xùn)練出最優(yōu)的卷積神經(jīng)網(wǎng)絡(luò)的問題。文獻(xiàn)[8]基于遷移學(xué)習(xí)算法對(duì)SVM 模型進(jìn)行優(yōu)化(Transferlearning-Support Vector Machine,TLSVM),通過使用目標(biāo)域少量已標(biāo)記數(shù)據(jù)和大量相關(guān)領(lǐng)域的舊數(shù)據(jù)來為目標(biāo)域構(gòu)建一個(gè)高質(zhì)量的分類模型。
關(guān)于小樣本學(xué)習(xí),目前常用的有基于數(shù)據(jù)增強(qiáng)和基于遷移學(xué)習(xí)的方法;跀(shù)據(jù)增強(qiáng)的方法,主要是利用輔助數(shù)據(jù)集或者輔助信息增強(qiáng)目標(biāo)數(shù)據(jù)集中樣本的特征,或者擴(kuò)充目標(biāo)數(shù)據(jù)集,使模型能夠更好地提取特征[9]。基于遷移學(xué)習(xí)的方法,主要是運(yùn)用已存有的知識(shí)對(duì)不同但相關(guān)的領(lǐng)域問題進(jìn)行求解的一種新的機(jī)器學(xué)習(xí)方法。它放寬了傳統(tǒng)機(jī)器學(xué)習(xí)中的兩個(gè)基本假設(shè),目的是遷移已有的知識(shí)來解決目標(biāo)領(lǐng)域中僅有少量有標(biāo)簽樣本數(shù)據(jù)甚至沒有的學(xué)習(xí)問題[10]。
通過上述分析,為了準(zhǔn)確、快速地對(duì)互聯(lián)網(wǎng)金融網(wǎng)頁業(yè)態(tài)進(jìn)行識(shí)別,本文在遷移學(xué)習(xí)和數(shù)據(jù)增強(qiáng)方法的基礎(chǔ)上,通過調(diào)整超平面位置改進(jìn)SVM算法,實(shí)現(xiàn)對(duì)小數(shù)據(jù)集的訓(xùn)練與檢測(cè)。實(shí)驗(yàn)結(jié)果表明,本文提出的基于超平面位置調(diào)優(yōu)SVM 的遷移學(xué)習(xí)算法對(duì)于互聯(lián)網(wǎng)金融網(wǎng)頁業(yè)態(tài)識(shí)別具有較好的分類效果,能夠有效檢測(cè)出已知業(yè)態(tài)的金融網(wǎng)頁,從而加強(qiáng)對(duì)各類金融網(wǎng)頁的關(guān)注,強(qiáng)化風(fēng)險(xiǎn)防范,促進(jìn)互聯(lián)網(wǎng)金融發(fā)展。
1 TL-SVM
SVM 是Corinna Cortes 和Vapnik 等 人[11]于1995 年提出的,主要用來解決小樣本、非線性及高維模式的識(shí)別。該方法是以統(tǒng)計(jì)學(xué)習(xí)理論(Statistical Learning Theory,SLT)[12]的VC 維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理為基礎(chǔ)建立起來的,其本身的優(yōu)化目標(biāo)并非經(jīng)驗(yàn)風(fēng)險(xiǎn)最小,而是結(jié)構(gòu)化風(fēng)險(xiǎn)最小,根據(jù)有限的樣本信息在模型的復(fù)雜性和學(xué)習(xí)能力之間尋求最佳的折衷方案,以期獲得最好的推廣泛化能力[13]。
文獻(xiàn)[8]提出的TL-SVM 算法的核心理論是:若兩領(lǐng)域相關(guān),則其各自分類器的ω值應(yīng)相近,因此在SVM 目標(biāo)式中增加遷移項(xiàng)μ||ωt-ωs||2。
式中:C為懲罰因子,代表算法對(duì)于分類錯(cuò)誤樣本的容忍程度;代表第i個(gè)樣本的分類損失。
該算法在目標(biāo)領(lǐng)域訓(xùn)練分類模型時(shí)引入了源領(lǐng)域知識(shí)ωs,在目標(biāo)函數(shù)構(gòu)建的過程中利用源領(lǐng)域和目標(biāo)領(lǐng)域知識(shí)最接近的遷移學(xué)習(xí)項(xiàng),實(shí)現(xiàn)有效遷移學(xué)習(xí)。然而,當(dāng)源領(lǐng)域和目標(biāo)領(lǐng)域相關(guān)性較小時(shí),則會(huì)出現(xiàn)負(fù)遷移現(xiàn)象,即遷移過程完成后實(shí)現(xiàn)的分類效果差于僅利用目標(biāo)領(lǐng)域已標(biāo)記數(shù)據(jù)的監(jiān)督分類效果。
2 基于超平面位置調(diào)優(yōu)SVM 的遷移學(xué)習(xí)算法
2.1 數(shù)據(jù)增強(qiáng)
數(shù)據(jù)增強(qiáng)[14](Data Augmentation,DA)改善了深度學(xué)習(xí)中數(shù)據(jù)不足的場(chǎng)景,在不實(shí)質(zhì)性地增加數(shù)據(jù)的情況下,讓有限的數(shù)據(jù)產(chǎn)生等價(jià)于更多數(shù)據(jù)的價(jià)值。其原理是,通過對(duì)原始數(shù)據(jù)融入先驗(yàn)知識(shí),加工出更多數(shù)據(jù)的表示,有助于模型判別數(shù)據(jù)中的統(tǒng)計(jì)噪聲,減少模型過擬合。其主要的方向是增加訓(xùn)練數(shù)據(jù)的多樣性,從而提高模型泛化能力。小樣本學(xué)習(xí)的主要問題是樣本量過少,從而導(dǎo)致樣本多樣性不足以刻畫完整樣本分布,可以通過樣本增強(qiáng)來提升樣本多樣性;跀(shù)據(jù)增強(qiáng)的方法是利用輔助數(shù)據(jù)集或者輔助信息對(duì)目標(biāo)數(shù)據(jù)集進(jìn)行數(shù)據(jù)擴(kuò)充或特征增強(qiáng),使模型能更好擬合。數(shù)據(jù)擴(kuò)充可以是無標(biāo)簽或者合成帶標(biāo)簽數(shù)據(jù);特征增強(qiáng)是在原樣本的特征空間中添加便于分類的特征,增加特征多樣性,從而降低樣本間的不均衡性,提高模型的泛化能力,使模型的魯棒性更高。
在樣本少、分布不均衡的情況下,可以通過數(shù)據(jù)增強(qiáng)[15]擴(kuò)充訓(xùn)練數(shù)據(jù)的量,降低樣本間的不均衡性,提高模型的泛化能力,使模型的魯棒性更高。數(shù)據(jù)增強(qiáng)技術(shù)包括回譯(Back Translation)、隨機(jī)詞替換、非核心詞替換、基于上下文信息的數(shù)據(jù)增強(qiáng)和基于語言生成模型的數(shù)據(jù)增強(qiáng)5 種經(jīng)典方案。其中,基于隨機(jī)詞替換的數(shù)據(jù)增強(qiáng)方法類似于圖像增強(qiáng)技術(shù)中的隨機(jī)裁剪、圖像縮放,通常是隨機(jī)地選擇文本中一定比例的詞,對(duì)其進(jìn)行同義詞替換、刪除等簡(jiǎn)單操作。本文采用基于隨機(jī)詞替換的簡(jiǎn)單數(shù)據(jù)增強(qiáng)(Easy Data Augmentation,EDA)[15]文本增強(qiáng)方法實(shí)現(xiàn)數(shù)據(jù)增強(qiáng),主要包含以下4 種操作:
(1)同義詞替換(Synonym Replacement,SR):從句子中隨機(jī)選擇非停用詞,用隨機(jī)選擇的同義詞替換這些單詞。
(2)隨機(jī)插入(Random Insertion,RI):隨機(jī)找出句子中某個(gè)不屬于停用詞集的詞,并求出其隨機(jī)的同義詞,將該同義詞插入句子的一個(gè)隨機(jī)位置,重復(fù)n次。
(3)隨機(jī)交換(Random Swap,RS):隨機(jī)選擇句子中兩個(gè)單詞并交換它們的位置,重復(fù)n次。
(4)隨機(jī)刪除(Random Deletion,RD):以概率p隨機(jī)刪除句子中某個(gè)單詞。
2.2 基于超平面位置優(yōu)化SVM 的遷移學(xué)習(xí)算法
由于標(biāo)記樣本數(shù)量不足,因此在模型訓(xùn)練過程中可提供的有效信息不均衡,同時(shí),基于SVM 算法的分類,在樣本數(shù)量少、無法準(zhǔn)確預(yù)估負(fù)類樣本存在空間的情況下,引入?yún)?shù)主動(dòng)調(diào)整分類超平面的位置,使其靠近正類樣本,為負(fù)類樣本預(yù)留較大的存在空間,以此提高分類的準(zhǔn)確率;诔矫嫖恢脙(yōu)化SVM 的遷移學(xué)習(xí)算法實(shí)現(xiàn)了領(lǐng)域間參數(shù)的遷移,原理如圖1 所示,其優(yōu)化目標(biāo)函數(shù)的表達(dá)式為:

圖1 基于超平面位置優(yōu)化SVM 的遷移學(xué)習(xí)算法檢測(cè)流程
式中:調(diào)整超平面的程度通過參數(shù)λ進(jìn)行控制,若λ較大,則源領(lǐng)域和目標(biāo)領(lǐng)域的分類超平面非常接近;若λ較小,則源領(lǐng)域和目標(biāo)領(lǐng)域的分類超平面相對(duì)獨(dú)立。
對(duì)于優(yōu)化目標(biāo)函數(shù),列出如下說明:
(1)式(2)中前兩項(xiàng)分別表示目標(biāo)領(lǐng)域數(shù)據(jù)的結(jié)構(gòu)風(fēng)險(xiǎn)項(xiàng)和經(jīng)驗(yàn)風(fēng)險(xiǎn)項(xiàng)。
(2)||ωt-ωs||2表示目標(biāo)領(lǐng)域與源領(lǐng)域的差異程度,數(shù)值越大表示分類器之間的差異越大,反之表示二者相似,μ為協(xié)調(diào)系數(shù)。
式中:α=(α1,α2,…,αn)T和β=(β1,β2,…,βn)T為拉格朗日系數(shù)。
依據(jù)KKT[16](Karush-Kuhn-Tucker)條件,對(duì)ωt,和bt求偏導(dǎo)數(shù),推導(dǎo)如下:
將式(4)、式(5)代入式(3),化簡(jiǎn)后可得對(duì)偶問題形式如下:
2.3 基于超平面位置調(diào)優(yōu)SVM 的遷移學(xué)習(xí)算法流程
(2)利用二次規(guī)劃原理求得目標(biāo)域拉格朗日系數(shù)αt=(α1,α2,…,αn)T;
(3)根據(jù)式(4)求得決策超平面法向量ωt;
(5)構(gòu)建劃分超平面ωtxt+bt=0,輸出分類決策函數(shù)
綜上,基于超平面位置優(yōu)化SVM 的遷移學(xué)習(xí)算法檢測(cè)流程如圖1 所示。
3 實(shí)驗(yàn)與分析
為評(píng)價(jià)驗(yàn)證基于超平面位置調(diào)優(yōu)SVM 的遷移學(xué)習(xí)算法在互聯(lián)網(wǎng)金融網(wǎng)頁業(yè)態(tài)分類中的效果,實(shí)驗(yàn)采用從互聯(lián)網(wǎng)收集到的金融網(wǎng)頁為評(píng)測(cè)數(shù)據(jù)集,該數(shù)據(jù)集包含451 個(gè)互聯(lián)網(wǎng)金融網(wǎng)頁,涉及4 個(gè)金融業(yè)態(tài)下的8 個(gè)金融子業(yè)態(tài),表1 為金融業(yè)態(tài)與相關(guān)網(wǎng)頁的數(shù)量。每?jī)蓚(gè)金融業(yè)態(tài)分別作為正樣本和負(fù)樣本,基于子業(yè)態(tài)進(jìn)行檢測(cè),學(xué)習(xí)任務(wù)的具體情況如表2 所示。在目標(biāo)領(lǐng)域選取源領(lǐng)域訓(xùn)練集數(shù)量的20%作為目標(biāo)領(lǐng)域的訓(xùn)練集,構(gòu)成遷移學(xué)習(xí)任務(wù)。實(shí)驗(yàn)主要從非遷移、遷移和基于超平面位置調(diào)優(yōu)SVM 的遷移3 個(gè)角度來進(jìn)行,從而展現(xiàn)所提分類算法的優(yōu)勢(shì)。

表1 金融業(yè)態(tài)與相關(guān)網(wǎng)頁數(shù)量

表2 學(xué)習(xí)任務(wù)具體情況
3.1 評(píng)價(jià)指標(biāo)
本文采用正確率(Precision)、召回率(Recall)和綜合指標(biāo)F1-指數(shù)(F1)來評(píng)測(cè)互聯(lián)網(wǎng)金融網(wǎng)頁檢測(cè)的性能。其中,正確率P表示返回結(jié)果中正確的比例,召回率R表示所有正確結(jié)果中返回的比例。在檢測(cè)結(jié)果中,如表3 所示,假設(shè)檢測(cè)到的互聯(lián)網(wǎng)金融網(wǎng)頁中,相關(guān)網(wǎng)頁的數(shù)量為a,不相關(guān)網(wǎng)頁的數(shù)量為b;在未檢測(cè)到的互聯(lián)網(wǎng)金融網(wǎng)頁中,相關(guān)網(wǎng)頁的數(shù)量為c,不相關(guān)網(wǎng)頁的數(shù)量為d。

表3 評(píng)價(jià)指標(biāo)
其中,測(cè)試數(shù)據(jù)中與金融業(yè)態(tài)相關(guān)的互聯(lián)網(wǎng)金融網(wǎng)頁數(shù)目為a+c,不相關(guān)的互聯(lián)網(wǎng)金融網(wǎng)頁數(shù)目為b+d。檢測(cè)結(jié)果中,判定與金融業(yè)態(tài)相關(guān)的互聯(lián)網(wǎng)金融網(wǎng)頁數(shù)目為a+b,不相關(guān)的互聯(lián)網(wǎng)金融網(wǎng)頁數(shù)目為c+d。關(guān)于實(shí)驗(yàn)中的數(shù)據(jù)集,源領(lǐng)域和目標(biāo)領(lǐng)域的樣本均為已標(biāo)記信息,但目標(biāo)領(lǐng)域樣本的標(biāo)記信息僅用于評(píng)價(jià)各算法的分類性能。正確率P、召回率R和綜合指標(biāo)F1 的計(jì)算方法如下:
3.2 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
本文將各類業(yè)態(tài)互聯(lián)網(wǎng)金融網(wǎng)頁按照test_size=0.5,劃分為訓(xùn)練集和測(cè)試集。同時(shí),按照目標(biāo)域訓(xùn)練樣本總數(shù)20%的比例,選取目標(biāo)域中的數(shù)據(jù)集作為目標(biāo)域訓(xùn)練集,剩余為目標(biāo)領(lǐng)域測(cè)試集,實(shí)現(xiàn)遷移學(xué)習(xí)。
本文實(shí)驗(yàn)中所有算法的最優(yōu)參數(shù)均通過網(wǎng)格搜索的方式來確定。其中懲罰因子Ct,μ的選取參照文獻(xiàn)[8]的設(shè)定策略,即因目標(biāo)域參與訓(xùn)練的樣本數(shù)量少,應(yīng)盡量保證分類的正確性,因此Ct在(0.01,0.05,0.1,0.5,1,5,10,20,50)中選最 優(yōu);μ在(0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1)中選最優(yōu)。
通過超平面位置調(diào)整參數(shù)λ,實(shí)現(xiàn)對(duì)超平面的最優(yōu)位置的選定,從而實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)金融網(wǎng)頁業(yè)態(tài)識(shí)別的準(zhǔn)確度。實(shí)驗(yàn)采用本文提出的基于超平面位置優(yōu)化SVM 的遷移學(xué)習(xí)算法,通過調(diào)整λ的值,確定超平面位置對(duì)互聯(lián)網(wǎng)金融網(wǎng)頁業(yè)態(tài)分類的影響情況。由于本文主要針對(duì)小數(shù)據(jù)集的小樣本學(xué)習(xí),考慮到提高數(shù)據(jù)分類的正確率便于后續(xù)分類模型的優(yōu)化,若λ較大,則源領(lǐng)域和目標(biāo)領(lǐng)域的分類超平面非常接近,出現(xiàn)誤報(bào)的概率增大;若λ較小,則源領(lǐng)域和目標(biāo)領(lǐng)域的分類超平面相對(duì)獨(dú)立,可有效保證分類的正確率。為保證超平面位置向正類樣本靠近,為負(fù)類樣本留出更大的存在可能性空間,λ的取值范圍為(0,1)。
本文實(shí)驗(yàn)采用源領(lǐng)域與目標(biāo)領(lǐng)域已標(biāo)記樣本合集作為SVM 的訓(xùn)練集進(jìn)行訓(xùn)練,標(biāo)記為SVM-ST,利用此方法與遷移學(xué)習(xí)方法做比較,同時(shí),將本文提出的方法與文獻(xiàn)[8]中提出的TL-SVM 方法做比較,用以說明本文所提方法的優(yōu)越性。3 種方法在6 個(gè)學(xué)習(xí)任務(wù)中的分類性能比較如表4 所示。

表4 3 種方法性能比較
根據(jù)實(shí)驗(yàn)結(jié)果,得出以下結(jié)論:
(1)通過對(duì)比3 個(gè)實(shí)驗(yàn)的結(jié)果發(fā)現(xiàn),遷移學(xué)習(xí)方法的引入對(duì)分類效果有明顯提升,對(duì)比SVMST 分類方法,正確率提升較為明顯,TL-SVM 算法較SVM-ST 算法的分類正確率提升了3.2%,F(xiàn)1 測(cè)試值提升了0.4%;基于超平面位置調(diào)優(yōu)SVM 遷移算法較SVM-ST 算法的分類正確率提升了4.0%,F(xiàn)1 測(cè)試值提升了0.9%,說明遷移學(xué)習(xí)方法在相似領(lǐng)域的數(shù)據(jù)分類中,優(yōu)勢(shì)更明顯。
(2)通過對(duì)比TL-SVM 算法和SVM-ST 算法的實(shí)驗(yàn)結(jié)果,發(fā)現(xiàn)對(duì)于源領(lǐng)域與目標(biāo)領(lǐng)域關(guān)聯(lián)性較低的數(shù)據(jù)集(網(wǎng)絡(luò)借貸vs 網(wǎng)絡(luò)銀行),TL-SVM 的分類正確率反而降低了,說明TL-SVM 在處理數(shù)據(jù)負(fù)遷移方面有所欠缺。
(3)通過對(duì)比TL-SVM 和基于超平面位置調(diào)優(yōu)SVM 遷移算法的實(shí)驗(yàn)結(jié)果,發(fā)現(xiàn)通過調(diào)整超平面位置,使其向正類樣本靠近,保證了分類的正確率;诔矫嫖恢谜{(diào)優(yōu)SVM 遷移算法較TL-SVM算法的分類正確率提升了0.8%,F(xiàn)1 測(cè)試值提升了0.5%,說明通過數(shù)據(jù)增強(qiáng)和分類超平面位置調(diào)整,在樣本數(shù)量少、無法準(zhǔn)確預(yù)估負(fù)類樣本存在空間的情況下,分類超平面主動(dòng)靠近正類樣本,保證了分類的正確性。
4 結(jié)語
本文提出了基于超平面位置調(diào)優(yōu)的SVM 遷移算法。該方法通過分類調(diào)整超平面位置,使其充分靠近正類樣本,結(jié)合數(shù)據(jù)增強(qiáng)技術(shù),實(shí)現(xiàn)對(duì)小數(shù)據(jù)集的訓(xùn)練與檢測(cè),對(duì)于數(shù)據(jù)量不足的互聯(lián)網(wǎng)金融網(wǎng)頁來說,有效解決了模型出現(xiàn)過擬合的問題。實(shí)驗(yàn)結(jié)果表明,基于超平面位置調(diào)優(yōu)的SVM 遷移算法在小樣本的情況下能夠提高檢測(cè)性能指標(biāo)。