汪明達(dá),劉世鈺,聶大成,楊 慧,張 翔,邱鴻杰
(中國(guó)電子科技集團(tuán)公司第三十研究所,四川 成都 610041)
0 引言
隨著全球數(shù)字化、信息化進(jìn)程的深度推進(jìn),互聯(lián)網(wǎng)逐漸成為人類最重要的基礎(chǔ)設(shè)施之一,承載了涉及人類生活工作方方面面的海量信息。與此同時(shí),互聯(lián)網(wǎng)的普及極大簡(jiǎn)化了從門(mén)戶網(wǎng)站、社交媒體、博客等公開(kāi)信息源獲取信息數(shù)據(jù)的過(guò)程,這些開(kāi)源信息數(shù)據(jù)可為人們提供有價(jià)值的決策支撐信息,幫助人們更好地認(rèn)知、理解甚至預(yù)測(cè)特定實(shí)體或概念對(duì)象的屬性和行為,進(jìn)而掌握事件的規(guī)模、熱度、發(fā)展趨勢(shì)等。為此,互聯(lián)網(wǎng)開(kāi)源信息處理逐漸成為世界各國(guó)爭(zhēng)相研究的熱點(diǎn)。
互聯(lián)網(wǎng)開(kāi)源信息處理(以下簡(jiǎn)稱“開(kāi)源信息處理”)是指從互聯(lián)網(wǎng)上的公開(kāi)信息源獲取數(shù)據(jù)并分析處理,進(jìn)而獲得有價(jià)值的開(kāi)源信息的過(guò)程。開(kāi)源信息處理中涉及的信息范圍十分廣泛,涵蓋了政治、軍事、商業(yè)、社會(huì)等眾多領(lǐng)域。在政治領(lǐng)域,開(kāi)源信息處理可以用于分析其他國(guó)家的政策和決策,幫助決策者預(yù)測(cè)目標(biāo)國(guó)家的行為趨勢(shì)。在商業(yè)領(lǐng)域,開(kāi)源信息處理可以用于分析競(jìng)爭(zhēng)對(duì)手的戰(zhàn)略和市場(chǎng)趨勢(shì),幫助企業(yè)制定更好的市場(chǎng)營(yíng)銷策略。在社會(huì)領(lǐng)域,開(kāi)源信息處理可用于分析犯罪活動(dòng)和社會(huì)趨勢(shì),幫助執(zhí)法部門(mén)和政府機(jī)構(gòu)制定更好的政策和措施。
本文將對(duì)國(guó)外開(kāi)源信息處理的有關(guān)研究進(jìn)行綜述,包括開(kāi)源信息處理的定義、技術(shù)手段、應(yīng)用系統(tǒng)等,總結(jié)現(xiàn)有研究存在的問(wèn)題,提出未來(lái)可能的研究方向,旨在為有關(guān)領(lǐng)域的從業(yè)人員提供一個(gè)可參考的系統(tǒng)性知識(shí)框架,助力開(kāi)源信息處理技術(shù)發(fā)展。
1 技術(shù)流程
開(kāi)源信息處理的主要技術(shù)流程包括4 個(gè)部分,分別是數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、信息分析和決策支撐,如圖1 所示。

圖1 開(kāi)源信息處理主要技術(shù)流程
一是數(shù)據(jù)采集,是指從互聯(lián)網(wǎng)公開(kāi)數(shù)據(jù)源采集信息數(shù)據(jù),為開(kāi)源信息處理分析提供基礎(chǔ)數(shù)據(jù)支撐。采集的信息需要經(jīng)過(guò)初步篩選和過(guò)濾,以保證基本的數(shù)據(jù)準(zhǔn)確性和有效性,避免采集資源浪費(fèi)。數(shù)據(jù)預(yù)處理是指對(duì)采集到的開(kāi)源數(shù)據(jù)進(jìn)行分析前的預(yù)先處理。二是數(shù)據(jù)預(yù)處理,其目的是在于提高數(shù)據(jù)的質(zhì)量和可用性,以便后續(xù)分析能夠更加有效地利用,常見(jiàn)的預(yù)處理包括數(shù)據(jù)清洗、格式轉(zhuǎn)換、數(shù)據(jù)重構(gòu)和存儲(chǔ)管理等,能夠使數(shù)據(jù)更加規(guī)范化,降低數(shù)據(jù)冗余和錯(cuò)誤。三是信息分析,指利用分析算法對(duì)預(yù)處理數(shù)據(jù)進(jìn)行深度的統(tǒng)計(jì)、分析和判斷,從中挖掘出有價(jià)值的信息和規(guī)律,生成有價(jià)值的決策支撐信息,為用戶決策管理提供信息支撐,是開(kāi)源信息處理整體流程中的核心環(huán)節(jié)。四是決策支撐,指將分析的結(jié)果通過(guò)合理的方式傳遞給用戶,方式主要包括信息可視化、報(bào)告生成和信息共享,以便用戶更好地理解和使用決策支撐信息。
2 數(shù)據(jù)采集
2.1 人力整編
人力整編也稱眾包數(shù)據(jù)收集,是指通過(guò)數(shù)據(jù)工作者手工收集、完善和優(yōu)化從公開(kāi)數(shù)據(jù)源獲得的數(shù)據(jù)的過(guò)程。人力整編的優(yōu)勢(shì)主要在于通過(guò)引入專家知識(shí),一定程度上提高數(shù)據(jù)質(zhì)量,對(duì)于輕量級(jí)的數(shù)據(jù)采集工作能夠保證數(shù)據(jù)采集和管理的效率。然而,人力整編面臨數(shù)據(jù)隱私安全、人為偏見(jiàn)、眾包質(zhì)量參差不齊等問(wèn)題。
Chai 等人[1]在其綜述研究中提到,眾包數(shù)據(jù)庫(kù)系統(tǒng)能夠有效解決現(xiàn)有公共眾包平臺(tái)(如Amazon Mechanical Turk、CrowdFlower 等)交互設(shè)計(jì)非常不便的問(wèn)題。該綜述對(duì)眾包平臺(tái)有關(guān)研究進(jìn)行了梳理,概述了眾包的概念,總結(jié)了設(shè)計(jì)眾包數(shù)據(jù)庫(kù)的基本技術(shù),其中包含任務(wù)設(shè)計(jì)、任務(wù)分配、解決方案推理及延遲減少等,并回顧了眾包操作符設(shè)計(jì)策略,包括選擇、連接、排序、前k項(xiàng)、最大/最小值、計(jì)數(shù)、收集和填充等。
2.2 網(wǎng)絡(luò)爬蟲(chóng)
網(wǎng)絡(luò)爬蟲(chóng)是一種用于自動(dòng)化采集公開(kāi)數(shù)據(jù)的程序,數(shù)據(jù)類型覆蓋包括網(wǎng)頁(yè)文本、圖片、音頻、視頻等在內(nèi)的多媒體數(shù)據(jù)。經(jīng)過(guò)多年發(fā)展,網(wǎng)絡(luò)爬蟲(chóng)逐漸成為大數(shù)據(jù)分析、搜索引擎、推薦系統(tǒng)等技術(shù)的數(shù)據(jù)采集基礎(chǔ)。
Khder 等人[2]在其2021 年發(fā)表的研究綜述中提到,網(wǎng)絡(luò)爬蟲(chóng)的近期研究主要關(guān)注于爬蟲(chóng)技術(shù)的智能化及爬取效率的提高。相較于人工整編,使用網(wǎng)絡(luò)爬蟲(chóng)不僅可以獲得更全面、準(zhǔn)確和一致的數(shù)據(jù),還可從深暗網(wǎng)中大量獲取灰黑產(chǎn)數(shù)據(jù)以支撐執(zhí)法打擊決策,應(yīng)用場(chǎng)景更為廣泛。同時(shí),該文強(qiáng)調(diào)了爬蟲(chóng)應(yīng)用導(dǎo)致的倫理和法律問(wèn)題,尤其是個(gè)人隱私泄露、版權(quán)侵犯、不正當(dāng)競(jìng)爭(zhēng)、網(wǎng)絡(luò)攻擊等。
Neelakandan 等人[3]提出了一種用于定向網(wǎng)絡(luò)爬蟲(chóng)的自動(dòng)參數(shù)調(diào)整深度學(xué)習(xí)詞嵌入模型。該模型涉及多個(gè)步驟,包括預(yù)處理、基于負(fù)采樣的增量式跳躍語(yǔ)法模型詞嵌入、雙向長(zhǎng)短期記憶分類以及基于鳥(niǎo)群優(yōu)化的超參數(shù)調(diào)整。該研究的實(shí)驗(yàn)結(jié)果表明,所提出的模型在網(wǎng)頁(yè)收集方面獲得了更高的采集成功率,達(dá)到了85%。
3 數(shù)據(jù)預(yù)處理
在開(kāi)源信息處理中,數(shù)據(jù)預(yù)處理包括很多方面的內(nèi)容,例如數(shù)據(jù)的目標(biāo)抽取、清洗、格式轉(zhuǎn)換、取值標(biāo)準(zhǔn)化、多源數(shù)據(jù)集成、信息精煉等。
Johnsen 等人[4]提出了一種基于主題模型的隱式狄利克雷分布(Latent Dirichlet Allocation,LDA)的文本預(yù)處理方法。該研究基于對(duì)大量有關(guān)研究文獻(xiàn)的總結(jié),設(shè)計(jì)了一組預(yù)處理規(guī)則,并在真實(shí)的網(wǎng)絡(luò)論壇中進(jìn)行了演示應(yīng)用。該研究的實(shí)驗(yàn)結(jié)果表明,如果要保證主題建模的結(jié)果可以實(shí)際運(yùn)用于開(kāi)源信息處理,其建模過(guò)程需要遵循非常嚴(yán)格的流程,且通過(guò)調(diào)整LDA 的超參數(shù)和主題數(shù)可以產(chǎn)生更可靠的結(jié)果。該研究通過(guò)對(duì)主題模型進(jìn)行迭代改善,保證了所提取主題內(nèi)容的連貫性和針對(duì)性。
Chandrasekar 等人[5]為提高C4.5 決策樹(shù)算法信息挖掘的準(zhǔn)確性,提出通過(guò)在數(shù)據(jù)預(yù)處理中利用監(jiān)督過(guò)濾離散化操作來(lái)構(gòu)建決策樹(shù),并將結(jié)果與未經(jīng)離散化的C4.5 決策樹(shù)進(jìn)行了比較。實(shí)驗(yàn)結(jié)果表明,經(jīng)離散化預(yù)處理后的C4.5 決策樹(shù)能夠取得更高的準(zhǔn)確度。Garcia 等人[6]對(duì)大數(shù)據(jù)分析場(chǎng)景下的數(shù)據(jù)預(yù)處理方法進(jìn)行了綜述,描述了大數(shù)據(jù)中數(shù)據(jù)預(yù)處理方法的定義、特征和分類方式,探討了大數(shù)據(jù)和數(shù)據(jù)預(yù)處理在各種方法和大數(shù)據(jù)技術(shù)族群中的作用。該綜述總結(jié)了現(xiàn)有研究面臨的挑戰(zhàn),重點(diǎn)描述了不同大數(shù)據(jù)框架(如Hadoop、Spark 和Flink)的發(fā)展?fàn)顩r,以及一些數(shù)據(jù)預(yù)處理方法和新大數(shù)據(jù)挖掘模式的應(yīng)用。
4.1 基于規(guī)則判斷的開(kāi)源信息處理
基于規(guī)則判斷的開(kāi)源信息處理是指從專家的先驗(yàn)知識(shí)出發(fā),手工設(shè)計(jì)開(kāi)源信息處理分析所需的判定規(guī)則,如閾值判定規(guī)則、類型判定規(guī)則、規(guī)則匹配方式等,并利用這些規(guī)則對(duì)開(kāi)源信息數(shù)據(jù)進(jìn)行分析處理,進(jìn)而達(dá)到信息分析目的的方法。
規(guī)則判斷在開(kāi)源信息處理中的應(yīng)用優(yōu)勢(shì)主要有兩點(diǎn)。一是由于規(guī)則判斷能夠根據(jù)領(lǐng)域?qū)<业慕?jīng)驗(yàn)進(jìn)行快速設(shè)計(jì),因此相較于其他基于復(fù)雜算法的開(kāi)源信息處理,基于規(guī)則判斷的開(kāi)源信息處理能夠快速、高效地滿足輕量數(shù)據(jù)的分類和篩選需求。二是手工規(guī)則可以充分利用專家的主觀經(jīng)驗(yàn)判斷力,能夠在某些數(shù)據(jù)分析領(lǐng)域中準(zhǔn)確描述分析需求,定位關(guān)鍵問(wèn)題,例如對(duì)于具體自然語(yǔ)言的解釋和推斷等。但與此同時(shí),手工規(guī)則對(duì)專家的專業(yè)知識(shí)的高要求導(dǎo)致規(guī)則維護(hù)所需的人工開(kāi)銷大,容易被專家知識(shí)的偏向性影響,且囿于數(shù)據(jù)的復(fù)雜性而難以處理大量數(shù)據(jù)。
Tariq Soomro 等人[7]分析了收集自2020 年3月1 日至2020 年5 月31 日的超過(guò)1 800 萬(wàn)條與冠狀病毒有關(guān)的Twitter 消息,并利用基于規(guī)則的監(jiān)督機(jī)器學(xué)習(xí)工具Vader 來(lái)進(jìn)行情感分析,以評(píng)估公眾情緒與新型冠狀病毒肺炎(Corona Virus Disease 2019,COVID-19)病例數(shù)之間的關(guān)系。此外,該研究還分析了在推文中提到一個(gè)國(guó)家的數(shù)量與該國(guó)COVID-19 每日病例數(shù)的增加之間的關(guān)系。該研究發(fā)現(xiàn),一些結(jié)果表明在意大利、美國(guó)和英國(guó)提到的推文數(shù)量與這些國(guó)家每日新COVID-19 病例數(shù)的增加之間存在相關(guān)性。
4.2 基于機(jī)器學(xué)習(xí)的開(kāi)源信息處理
在開(kāi)源信息處理中廣泛應(yīng)用的傳統(tǒng)機(jī)器學(xué)習(xí)算法主要包括決策樹(shù)類算法、樸素貝葉斯、最近鄰居算法、支持向量機(jī)、邏輯回歸等。開(kāi)源信息處理中應(yīng)用機(jī)器學(xué)習(xí)的優(yōu)勢(shì)主要在于能夠有效平衡專家經(jīng)驗(yàn)知識(shí)和算法自動(dòng)化的影響,能夠處理結(jié)構(gòu)化和非結(jié)構(gòu)化等多種數(shù)據(jù)類型,具有較高的容錯(cuò)性、可擴(kuò)展性。然而,傳統(tǒng)機(jī)器學(xué)習(xí)仍然存在對(duì)數(shù)據(jù)預(yù)處理要求高、過(guò)度依賴手工特征等問(wèn)題,特征提取中專家知識(shí)的專業(yè)性和偏向性將對(duì)算法輸出產(chǎn)生較大影響。
Balaji 等人[8]對(duì)使用機(jī)器學(xué)習(xí)進(jìn)行開(kāi)源信息處理分析,尤其是社交媒體分析方面的研究進(jìn)行了綜述。該綜述認(rèn)為,機(jī)器學(xué)習(xí)已經(jīng)成為社交媒體分析的基礎(chǔ)技術(shù)手段,在社交媒體的情感分析、用戶畫(huà)像、社交網(wǎng)絡(luò)分析、事件檢測(cè)和推薦系統(tǒng)等方面發(fā)揮著重要作用,技術(shù)類型包括監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)等,F(xiàn)有研究面臨的挑戰(zhàn)主要在于數(shù)據(jù)獲取、數(shù)據(jù)質(zhì)量、算法效率、模型解釋性等方面,可以在算法的效率和準(zhǔn)確性,如特征選擇、深度學(xué)習(xí)、自適應(yīng)算法等角度開(kāi)展進(jìn)一步研究。
Khadjeh Nassirtoussi 等人[9]對(duì)文本挖掘在開(kāi)源股市預(yù)測(cè)方面的應(yīng)用研究進(jìn)行了綜述。文本挖掘在股市預(yù)測(cè)方面的應(yīng)用已經(jīng)得到了廣泛的研究,數(shù)據(jù)源主要包括新聞、社交媒體、公司報(bào)告、股市評(píng)論等方面的數(shù)據(jù)。在方法和模型方面,研究者們主要采用了機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、情感分析等技術(shù)來(lái)進(jìn)行文本挖掘和預(yù)測(cè)。該論文指出,文本挖掘在股市預(yù)測(cè)方面的應(yīng)用可以提高預(yù)測(cè)的準(zhǔn)確性和效率,但數(shù)據(jù)來(lái)源不確定、模型過(guò)度擬合等問(wèn)題帶來(lái)的預(yù)測(cè)效果下降的情況不容忽視。因此,在進(jìn)行文本挖掘的時(shí)候需要注意數(shù)據(jù)的質(zhì)量并選擇合適的模型和方法,以提高預(yù)測(cè)的準(zhǔn)確性和可靠性。
Abbass 等人[10]提出了一個(gè)基于開(kāi)源數(shù)據(jù)進(jìn)行社交媒體犯罪行為預(yù)測(cè)的技術(shù)框架,涉及的網(wǎng)絡(luò)犯罪類型包括網(wǎng)絡(luò)跟蹤、網(wǎng)絡(luò)欺凌、網(wǎng)絡(luò)黑客、網(wǎng)絡(luò)騷擾和網(wǎng)絡(luò)詐騙。該框架由三個(gè)模塊組成,包括數(shù)據(jù)(推文)預(yù)處理、分類模型構(gòu)建和預(yù)測(cè)。為構(gòu)建預(yù)測(cè)模型,該研究使用了多項(xiàng)式樸素貝葉斯(Multinomial Naïve Bayes,MNB)、K 近 鄰(K Nearest Neighbors,KNN)和支持向量機(jī)(Support Vector Machine,SVM)對(duì)數(shù)據(jù)進(jìn)行分類,以確定不同的犯罪類別。使用這些機(jī)器學(xué)習(xí)算法的N-Gram語(yǔ)言模型來(lái)識(shí)別n的最佳值,并測(cè)量系統(tǒng)在不同n取值(例如Unigram、Bigram、Trigram 和4-gram)下的準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明,所有三個(gè)算法的精確度、召回率和F 值均超過(guò)0.9,其中支持向量機(jī)表現(xiàn)略優(yōu)。
Ghazi 等人[11]提出采用有監(jiān)督的機(jī)器學(xué)習(xí)從不規(guī)整、高噪聲、海量的開(kāi)源非結(jié)構(gòu)化威脅信息數(shù)據(jù)中提取威脅數(shù)據(jù)源,提取精度約為70%,且該方法能生成符合STIX 等標(biāo)準(zhǔn)的全面的威脅報(bào)告,進(jìn)而幫助組織主動(dòng)防御已知和未知的威脅,減少手動(dòng)分析的煩瑣工作。
4.3 基于神經(jīng)網(wǎng)絡(luò)的開(kāi)源信息處理
神經(jīng)網(wǎng)絡(luò)系列算法已經(jīng)廣泛應(yīng)用于開(kāi)源信息處理分析領(lǐng)域,主要包括前向全連接網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)、圖卷積神經(jīng)網(wǎng)絡(luò)、自編碼器、生成對(duì)抗網(wǎng)絡(luò)、殘差網(wǎng)絡(luò)等,以及深度學(xué)習(xí)、注意力機(jī)制、預(yù)訓(xùn)練模型、增強(qiáng)學(xué)習(xí)、遷移學(xué)習(xí)、少樣本學(xué)習(xí)等新型學(xué)習(xí)框架的應(yīng)用。神經(jīng)網(wǎng)絡(luò)分析方法的優(yōu)勢(shì)在于能夠自適應(yīng)和自我學(xué)習(xí),可以進(jìn)行端到端的學(xué)習(xí)和操作,對(duì)非線性和復(fù)雜數(shù)據(jù)具有良好的擬合能力,適合進(jìn)行預(yù)測(cè)和分類任務(wù)。然而,神經(jīng)網(wǎng)絡(luò)的模型訓(xùn)練需要大量的數(shù)據(jù)和計(jì)算資源,模型的可解釋性有待提高,難以評(píng)估網(wǎng)絡(luò)的魯棒性,模型容易出現(xiàn)過(guò)擬合情況。
Martins 等人[12]提出了一種基于神經(jīng)網(wǎng)絡(luò)的聯(lián)合學(xué)習(xí)框架,將命名實(shí)體識(shí)別(Named Entity Recognition,NER)和實(shí)體鏈接(Entity Linking,EL)兩個(gè)任務(wù)結(jié)合在一起進(jìn)行學(xué)習(xí),實(shí)現(xiàn)協(xié)同優(yōu)化。該方法主要包括三個(gè)組件。一是共享編碼器,用于將輸入的文本轉(zhuǎn)化為向量表示。二是NER 解碼器,用于預(yù)測(cè)文本中的命名實(shí)體。三是EL 解碼器,用于將預(yù)測(cè)出的命名實(shí)體鏈接到知識(shí)庫(kù)中的實(shí)體。該框架的主要特點(diǎn)是可以同時(shí)考慮文本中的命名實(shí)體和知識(shí)庫(kù)中的實(shí)體,從而能夠提高NER 和EL 兩個(gè)任務(wù)的準(zhǔn)確率。此外,該框架還可以通過(guò)聯(lián)合訓(xùn)練來(lái)減少模型的訓(xùn)練時(shí)間和資源消耗,提高模型的效率。以CoNLL 2003 和AIDA CoNLL-YAGO 為數(shù)據(jù)輸入的實(shí)驗(yàn)結(jié)果表明,與單獨(dú)訓(xùn)練NER 和EL 模型相比,該聯(lián)合學(xué)習(xí)框架可以顯著提高NER 和EL 兩個(gè)任務(wù)的準(zhǔn)確率,并且可以在保持準(zhǔn)確率的同時(shí)減少模型的訓(xùn)練時(shí)間和資源消耗。
Su 等人[13]對(duì)基于深度學(xué)習(xí)的社團(tuán)發(fā)現(xiàn)研究進(jìn)行了綜述。該綜述認(rèn)為從算法的角度來(lái)說(shuō),現(xiàn)有研究主要分為兩類,即基于節(jié)點(diǎn)表征學(xué)習(xí)的方法和基于圖表征學(xué)習(xí)的方法。前者主要通過(guò)學(xué)習(xí)節(jié)點(diǎn)的向量表征來(lái)判斷節(jié)點(diǎn)之間的相似性,后者則是通過(guò)學(xué)習(xí)圖的嵌入表征來(lái)捕捉社區(qū)結(jié)構(gòu)和節(jié)點(diǎn)間的關(guān)系。其中,基于圖表征學(xué)習(xí)的方法相對(duì)于基于節(jié)點(diǎn)表征學(xué)習(xí)的方法更具優(yōu)勢(shì),因?yàn)樗軌蚋玫夭蹲焦?jié)點(diǎn)之間的結(jié)構(gòu)和關(guān)系,從而更精確地刻畫(huà)社區(qū)結(jié)構(gòu),F(xiàn)有研究的挑戰(zhàn)主要在于如何利用深度學(xué)習(xí)方法更好地發(fā)現(xiàn)社區(qū)結(jié)構(gòu),如何應(yīng)對(duì)噪聲、稀疏性和異質(zhì)性等問(wèn)題,以及如何處理大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)的問(wèn)題。
Garcia 等人[14]針對(duì)COVID-19 病例數(shù)和死亡數(shù)均較高的巴西和美國(guó)兩個(gè)國(guó)家開(kāi)展了基于開(kāi)源數(shù)據(jù)的主題識(shí)別和情感分析研究。該研究使用了共計(jì)六百萬(wàn)條英語(yǔ)推文和葡萄牙語(yǔ)推文,比較和討論兩種語(yǔ)言的主題識(shí)別和情感分析的效果,并基于討論熱度排名的10 個(gè)主題進(jìn)行了話題演化分析。該研究填補(bǔ)了葡萄牙語(yǔ)開(kāi)源分析方面的研究空白,并對(duì)情感趨勢(shì)的長(zhǎng)期分析及其與新聞報(bào)道的關(guān)系進(jìn)行了探究,比較了疫情下兩個(gè)不同地區(qū)的人類行為。
Hashida 等人[15]提出了一種基于深度學(xué)習(xí)的分類方法,采用一種新的分布式單詞表示方法——多通道分布式表示法,表示一個(gè)單詞潛在特征的單詞向量。在此基礎(chǔ)上,為了進(jìn)一步增強(qiáng)分布式表示的能力,該研究在多通道分布式表示中使每個(gè)項(xiàng)都包含多個(gè)通道值。與其他CNN 模型和長(zhǎng)短期記憶模型(Long Short-Time Memory,LSTM)進(jìn)行的對(duì)比實(shí)驗(yàn)結(jié)果表明,深度學(xué)習(xí)模型的分類性能優(yōu)于樸素貝葉斯分類器,同時(shí)具有多通道分布式表示的CNN在分類推文方面表現(xiàn)更好。
4.4 基于復(fù)雜網(wǎng)絡(luò)的開(kāi)源信息處理
開(kāi)源信息處理中采用的復(fù)雜網(wǎng)絡(luò)分析主要面向圖結(jié)構(gòu)的開(kāi)源信息處理數(shù)據(jù)進(jìn)行處理,常用于傳播分析、用戶關(guān)聯(lián)關(guān)系挖掘等任務(wù)。復(fù)雜網(wǎng)絡(luò)分析通過(guò)模擬分析大規(guī)模圖結(jié)構(gòu)的復(fù)雜系統(tǒng),包括網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和系統(tǒng)動(dòng)力學(xué),在系統(tǒng)演化方面具有分析優(yōu)勢(shì)、較高的容錯(cuò)性和魯棒性。然而,復(fù)雜網(wǎng)絡(luò)分析對(duì)數(shù)據(jù)量的要求很高,計(jì)算復(fù)雜度高,可解釋性和可控制性較弱。
Berahmand 等人[16]提出了一種改進(jìn)歐幾里得隨機(jī)游走有效的方法進(jìn)行鏈路預(yù)測(cè)。該方法鼓勵(lì)隨機(jī)游走向具有更強(qiáng)影響力的節(jié)點(diǎn)移動(dòng),每一步都根據(jù)所在節(jié)點(diǎn)的影響力選擇下一個(gè)節(jié)點(diǎn)。該研究基于互信息度量,提出了節(jié)點(diǎn)之間的非對(duì)稱互惠影響的概念。實(shí)驗(yàn)結(jié)果表明,與其他鏈路預(yù)測(cè)方法相比,所提出的方法有更高的預(yù)測(cè)準(zhǔn)確性。
Li 等人[17]提出了一種基于自因果推斷中的混雜因素分析的無(wú)偏網(wǎng)絡(luò)混淆技術(shù),以解決推薦系統(tǒng)中非隨機(jī)缺失(Missing-Not-At-Random,MNAR)的問(wèn)題。該方法通過(guò)控制社交網(wǎng)絡(luò)的混淆保留觀測(cè)到的曝光信息,同時(shí)可以通過(guò)平衡表示學(xué)習(xí)實(shí)現(xiàn)去混淆,以保留主要的用戶和物品特征,在推薦評(píng)級(jí)預(yù)測(cè)方面具有很好的泛化能力。
Naik 等人[18]面向社交網(wǎng)絡(luò)復(fù)雜社團(tuán)劃分的并行處理和共享/分布式技術(shù)應(yīng)用情況開(kāi)展了綜述研究。該研究全面討論了在現(xiàn)有的社群檢測(cè)方法中應(yīng)用并行計(jì)算、共享內(nèi)存和分布式內(nèi)存的情況。
5 決策支撐
5.1 信息可視化
信息可視化通過(guò)將數(shù)據(jù)呈現(xiàn)為可交互的實(shí)體,幫助用戶更快捷、更直觀地理解信息,并在分析過(guò)程中更快捷地定位信息中的關(guān)鍵結(jié)構(gòu)和重點(diǎn)內(nèi)容。
Gonzalez-Granadillo 等人[19]使用Gephi 和D3.js兩種工具進(jìn)行開(kāi)源信息處理的網(wǎng)絡(luò)可視化及界面交互。該研究將網(wǎng)絡(luò)中的節(jié)點(diǎn)和邊用圖結(jié)構(gòu)的形式在屏幕上呈現(xiàn),方便用戶直觀地了解文本或其他類型數(shù)據(jù)中的關(guān)系,并提供更為豐富的交互式可視化,比如通過(guò)鼠標(biāo)拖拽、縮放和篩選等手段,實(shí)現(xiàn)對(duì)可視化數(shù)據(jù)的自定義和過(guò)濾。Hoppa 等人[20]使用多種數(shù)據(jù)可視化技術(shù),如熱力圖、時(shí)間線、餅圖和條形圖等,以幫助用戶更好地理解和分析收集到的Twitter 開(kāi)源信息處理數(shù)據(jù)。
5.2 報(bào)告生成及信息共享
信息報(bào)告生成有助于總結(jié)分析過(guò)程和結(jié)果,有利于信息的共享。信息共享的技術(shù)特點(diǎn)和效果通過(guò)提高安全性、可持續(xù)性和可擴(kuò)展性,使得安全生態(tài)系統(tǒng)的不同組織和應(yīng)用程序之間可以更好地協(xié)作和共享信息數(shù)據(jù),支持更有效的安全決策和風(fēng)險(xiǎn)管理。
Cerutti 等人[21]利用語(yǔ)言生成技術(shù)生成報(bào)告,并對(duì)分析過(guò)的數(shù)據(jù)進(jìn)行整理和歸納,該報(bào)告能夠清晰地反映事件的發(fā)展過(guò)程、現(xiàn)狀和未來(lái)預(yù)測(cè)。該技術(shù)的優(yōu)點(diǎn)在于將已有數(shù)據(jù)進(jìn)行人類語(yǔ)言轉(zhuǎn)化的同時(shí),能夠提高報(bào)告生成的效率和準(zhǔn)確性。生成的報(bào)告還可以提供交互式的方式,使用戶能夠根據(jù)自己的需求自由地選擇并瀏覽報(bào)告中的信息。
Schwarz 等人[22]根據(jù)抓取到的數(shù)據(jù)和分析的結(jié)果,自動(dòng)化地生成報(bào)告。報(bào)告生成的過(guò)程中可以完成報(bào)告格式的設(shè)定,包括報(bào)告樣式、字體大小等。同時(shí),也可以根據(jù)用戶的需求進(jìn)行調(diào)整,并且可以輸出多種格式的文件,如PDF、WORD、HTML 格式的文檔等。
Suryotrisongko 等人[23]將可解釋人工智能(Explainable Artificial Intelligence,XAI)引入到開(kāi)源信息處理中,實(shí)現(xiàn)了威脅信息的報(bào)告生成及共享。該研究利用XAI 技術(shù)解釋機(jī)器學(xué)習(xí)算法的特征決策貢獻(xiàn),從而加強(qiáng)對(duì)惡意域名生成算法的識(shí)別、查找和分析。同時(shí),XAI 技術(shù)也可以讓分析人員更直觀地理解和分析算法的結(jié)果,提高了分析的準(zhǔn)確性和可靠性。對(duì)于報(bào)告生成,通過(guò)數(shù)據(jù)庫(kù)技術(shù)來(lái)存儲(chǔ)搜集到的威脅信息,并利用可視化技術(shù)將數(shù)據(jù)進(jìn)行匯總和組織。報(bào)告不僅可以反映出威脅信息的趨勢(shì)和異常點(diǎn),還可以展示詳細(xì)的信息內(nèi)容和歷史數(shù)據(jù),讓用戶能夠更好地理解和利用數(shù)據(jù)。
6 應(yīng)用系統(tǒng)
在互聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代,世界各國(guó)不斷加大對(duì)開(kāi)源信息處理的研究部署和系統(tǒng)開(kāi)發(fā)的投入,形成的有關(guān)成果系統(tǒng)已紛紛得到應(yīng)用。
美國(guó)中央情報(bào)局、國(guó)家安全局等機(jī)構(gòu)支持研發(fā)并應(yīng)用了由Palantir 公司設(shè)計(jì)開(kāi)發(fā)的Gotham 開(kāi)源信息處理分析系統(tǒng)[24]。該系統(tǒng)的特點(diǎn)是能夠處理大量的多源異構(gòu)信息數(shù)據(jù),進(jìn)行數(shù)據(jù)的全方位整合與挖掘,并提供強(qiáng)大的數(shù)據(jù)可視化、模擬分析、信息查詢和預(yù)測(cè)建模等功能。在美國(guó)政府和軍隊(duì)部門(mén)方面,Palantir Gotham 系統(tǒng)被廣泛使用。在阿富汗和伊拉克戰(zhàn)爭(zhēng)期間,該系統(tǒng)被用于收集、整理和分析情報(bào)信息,發(fā)現(xiàn)恐怖組織的嫌疑人并進(jìn)行定位。
I2-Analyst’s Notebook(i2AN)[25]是美國(guó)IBM公司開(kāi)發(fā)的一款面向情報(bào)分析領(lǐng)域的數(shù)據(jù)分析軟件,主要用于互聯(lián)網(wǎng)開(kāi)源犯罪情報(bào)分析、反恐調(diào)查、金融欺詐案件分析、情報(bào)綜合分析等。i2AN 擁有多種分析功能,包括人物、地點(diǎn)、組織關(guān)系的可視化分析、時(shí)間線分析等,能夠挖掘出隱藏在數(shù)據(jù)中的潛在線索,理清有關(guān)事件的脈絡(luò),幫助用戶更加快速準(zhǔn)確地做出判斷,并可將所提供的信息、證據(jù)和結(jié)論生動(dòng)展示給申請(qǐng)人和決策者。i2AN 的用戶包括了全球許多機(jī)構(gòu)和部門(mén),特別是在美國(guó)政府和軍隊(duì)部門(mén)方面,包括聯(lián)邦調(diào)查局、中央情報(bào)局、國(guó)土安全部等部門(mén)都在使用該軟件。
Rosette[26]是美國(guó)Babel Street 公司的開(kāi)源信息處理產(chǎn)品,旨在幫助分析人員從多種非結(jié)構(gòu)化數(shù)據(jù)源中獲取信息,并進(jìn)行相關(guān)的分析和預(yù)測(cè),包括社交媒體、博客、新聞報(bào)道、圖片和音頻等。與傳統(tǒng)的信息分析方法不同,Rosette 采用了自然語(yǔ)言處理、機(jī)器學(xué)習(xí)和人工智能等前沿技術(shù)來(lái)輔助分析人員進(jìn)行信息分析。它具有多種語(yǔ)言支持、實(shí)時(shí)數(shù)據(jù)收集和處理、可視化分析和用戶定制等特點(diǎn)。Babel X在美國(guó)和其他國(guó)家的軍隊(duì)和情報(bào)機(jī)構(gòu)中得到了廣泛的應(yīng)用。
此外,現(xiàn)在已有很多開(kāi)源信息處理分析工具供世界范圍內(nèi)的研究者使用。SpiderFoot[27]是一款開(kāi)源的自動(dòng)化信息收集工具,可幫助用戶收集數(shù)據(jù)、分析數(shù)據(jù)、生成報(bào)告及進(jìn)行關(guān)聯(lián)分析,可用于情報(bào)分析、網(wǎng)絡(luò)偵察、趨勢(shì)分析和風(fēng)險(xiǎn)評(píng)估等。theHarvester[28]是一款使用Python 編程語(yǔ)言開(kāi)發(fā)的命令行工具,可幫助安全研究人員、滲透測(cè)試人員、信息安全企業(yè)、國(guó)家安全機(jī)構(gòu)等用戶,從互聯(lián)網(wǎng)上收集各種類型的信息,如電子郵件、域名、虛擬主機(jī)、URL、IP 地址等。Metagoofil[29]是一款開(kāi)源的可定制搜索引擎,支持從Google、Bing 和Yahoo 等搜索引擎中獲取有關(guān)目標(biāo)的信息,旨在幫助安全研究人員、滲透測(cè)試人員和安全顧問(wèn)等用戶,從互聯(lián)網(wǎng)上搜索與目標(biāo)公司或組織相關(guān)的文件,如文檔、圖片、代碼和其他文件。Mitaka[30]可以將多源數(shù)據(jù)聚合,自動(dòng)檢測(cè)并刪除無(wú)用數(shù)據(jù),并提供各種圖表和視圖,幫助用戶更好地理解數(shù)據(jù)和信息。
7 現(xiàn)有挑戰(zhàn)
在世界各國(guó)和學(xué)術(shù)界的共同推動(dòng)下,開(kāi)源信息處理技術(shù)已取得長(zhǎng)足進(jìn)步,但仍面臨以下3 個(gè)方面的挑戰(zhàn)。
一是數(shù)據(jù)質(zhì)量方面的挑戰(zhàn)。數(shù)據(jù)是一切開(kāi)源信息處理分析的基石,而開(kāi)源信息處理通常面對(duì)巨大的數(shù)據(jù)量,且不同源的數(shù)據(jù)結(jié)構(gòu)不統(tǒng)一,信息缺損的情況頻繁發(fā)生,數(shù)據(jù)可靠性評(píng)估過(guò)于依賴專業(yè)知識(shí),提高了人力、時(shí)間和空間開(kāi)銷。
二是分析算法方面的挑戰(zhàn)。如今,開(kāi)源信息處理常面臨跨域目標(biāo)分析需求,如何構(gòu)建合理的目標(biāo)行為表征,將跨域多源信息與目標(biāo)進(jìn)行有效關(guān)聯(lián),實(shí)現(xiàn)對(duì)目標(biāo)的全面分析,是如今開(kāi)源信息處理研究面臨的關(guān)鍵技術(shù)挑戰(zhàn)。
三是法律倫理方面的挑戰(zhàn)。開(kāi)源信息處理使用開(kāi)源數(shù)據(jù)時(shí)須遵守相應(yīng)的倫理規(guī)范和法律法規(guī),尤其是在處理敏感領(lǐng)域及個(gè)人隱私方面的信息時(shí),如何從技術(shù)上實(shí)現(xiàn)敏感及個(gè)人信息保護(hù),防范化解敏感信息泄露風(fēng)險(xiǎn),是如今開(kāi)源信息處理分析面臨的挑戰(zhàn)之一。
8 未來(lái)展望
未來(lái)開(kāi)源信息處理的研究大致有三個(gè)方向。一是先進(jìn)技術(shù)在開(kāi)源信息處理中的應(yīng)用,尤其是以深度學(xué)習(xí)為代表的人工智能技術(shù),其在開(kāi)源信息處理領(lǐng)域的應(yīng)用將會(huì)有效支撐開(kāi)源數(shù)據(jù)的快速處理和信息的精準(zhǔn)分析。二是跨學(xué)科研究。由于開(kāi)源信息處理涉及很多不同的領(lǐng)域,如商業(yè)、政治、軍事、國(guó)際關(guān)系等,如何將領(lǐng)域知識(shí)與開(kāi)源信息處理相結(jié)合,在實(shí)際領(lǐng)域應(yīng)用中解決實(shí)際的信息分析問(wèn)題,將成為開(kāi)源信息處理未來(lái)的研究熱點(diǎn)。三是決策支撐和信息檢索優(yōu)化。如何將開(kāi)源信息處理數(shù)據(jù)通過(guò)信息可視化的方式呈現(xiàn)出來(lái),生成信息分析報(bào)告并有效地傳遞到用戶手中,提供高效的信息檢索方式,將是未來(lái)開(kāi)源信息處理的研究方向之一。
9 結(jié)語(yǔ)
開(kāi)源信息處理具有數(shù)據(jù)獲取簡(jiǎn)易、信息覆蓋面廣等優(yōu)勢(shì),現(xiàn)已成為世界各國(guó)研究的熱點(diǎn),相關(guān)成果已應(yīng)用于社會(huì)各領(lǐng)域并發(fā)揮著重要作用。本文對(duì)當(dāng)前國(guó)外開(kāi)源信息處理研究的進(jìn)展進(jìn)行了綜述。在技術(shù)方面,本綜述覆蓋了數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、信息分析和決策支撐4 個(gè)開(kāi)源信息處理關(guān)鍵步驟的有關(guān)技術(shù),其中人工智能技術(shù)在開(kāi)源信息處理中的應(yīng)用最為廣泛。在應(yīng)用系統(tǒng)方面,本綜述對(duì)國(guó)外流行的開(kāi)源信息處理系統(tǒng)進(jìn)行了介紹,包括商業(yè)系統(tǒng)和開(kāi)源系統(tǒng)。在現(xiàn)有挑戰(zhàn)方面,數(shù)據(jù)質(zhì)量、算法分析和法律倫理是現(xiàn)有研究面臨的主要挑戰(zhàn),而先進(jìn)技術(shù)的應(yīng)用、跨學(xué)科研究、決策支撐和信息檢索優(yōu)化將是未來(lái)開(kāi)源信息處理的研究熱點(diǎn)。