成人午夜啪免费视频在线观看软件,日韩中文字幕有马二区

汪明達(dá)，劉世鈺，聶大成，楊慧，張翔，邱鴻杰

（中國電子科技集團(tuán)公司第三十研究所，四川成都 610041）

0 引言
隨著全球數(shù)字化、信息化進(jìn)程的深度推進(jìn)，互聯(lián)網(wǎng)逐漸成為人類最重要的基礎(chǔ)設(shè)施之一，承載了涉及人類生活工作方方面面的海量信息。與此同時(shí)，互聯(lián)網(wǎng)的普及極大簡化了從門戶網(wǎng)站、社交媒體、博客等公開信息源獲取信息數(shù)據(jù)的過程，這些開源信息數(shù)據(jù)可為人們提供有價(jià)值的決策支撐信息，幫助人們更好地認(rèn)知、理解甚至預(yù)測特定實(shí)體或概念對象的屬性和行為，進(jìn)而掌握事件的規(guī)模、熱度、發(fā)展趨勢等。為此，互聯(lián)網(wǎng)開源信息處理逐漸成為世界各國爭相研究的熱點(diǎn)。

互聯(lián)網(wǎng)開源信息處理（以下簡稱“開源信息處理”）是指從互聯(lián)網(wǎng)上的公開信息源獲取數(shù)據(jù)并分析處理，進(jìn)而獲得有價(jià)值的開源信息的過程。開源信息處理中涉及的信息范圍十分廣泛，涵蓋了政治、軍事、商業(yè)、社會(huì)等眾多領(lǐng)域。在政治領(lǐng)域，開源信息處理可以用于分析其他國家的政策和決策，幫助決策者預(yù)測目標(biāo)國家的行為趨勢。在商業(yè)領(lǐng)域，開源信息處理可以用于分析競爭對手的戰(zhàn)略和市場趨勢，幫助企業(yè)制定更好的市場營銷策略。在社會(huì)領(lǐng)域，開源信息處理可用于分析犯罪活動(dòng)和社會(huì)趨勢，幫助執(zhí)法部門和政府機(jī)構(gòu)制定更好的政策和措施。

本文將對國外開源信息處理的有關(guān)研究進(jìn)行綜述，包括開源信息處理的定義、技術(shù)手段、應(yīng)用系統(tǒng)等，總結(jié)現(xiàn)有研究存在的問題，提出未來可能的研究方向，旨在為有關(guān)領(lǐng)域的從業(yè)人員提供一個(gè)可參考的系統(tǒng)性知識框架，助力開源信息處理技術(shù)發(fā)展。

1 技術(shù)流程
開源信息處理的主要技術(shù)流程包括4 個(gè)部分，分別是數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、信息分析和決策支撐，如圖1 所示。

圖1 開源信息處理主要技術(shù)流程

一是數(shù)據(jù)采集，是指從互聯(lián)網(wǎng)公開數(shù)據(jù)源采集信息數(shù)據(jù)，為開源信息處理分析提供基礎(chǔ)數(shù)據(jù)支撐。采集的信息需要經(jīng)過初步篩選和過濾，以保證基本的數(shù)據(jù)準(zhǔn)確性和有效性，避免采集資源浪費(fèi)。數(shù)據(jù)預(yù)處理是指對采集到的開源數(shù)據(jù)進(jìn)行分析前的預(yù)先處理。二是數(shù)據(jù)預(yù)處理，其目的是在于提高數(shù)據(jù)的質(zhì)量和可用性，以便后續(xù)分析能夠更加有效地利用，常見的預(yù)處理包括數(shù)據(jù)清洗、格式轉(zhuǎn)換、數(shù)據(jù)重構(gòu)和存儲管理等，能夠使數(shù)據(jù)更加規(guī)范化，降低數(shù)據(jù)冗余和錯(cuò)誤。三是信息分析，指利用分析算法對預(yù)處理數(shù)據(jù)進(jìn)行深度的統(tǒng)計(jì)、分析和判斷，從中挖掘出有價(jià)值的信息和規(guī)律，生成有價(jià)值的決策支撐信息，為用戶決策管理提供信息支撐，是開源信息處理整體流程中的核心環(huán)節(jié)。四是決策支撐，指將分析的結(jié)果通過合理的方式傳遞給用戶，方式主要包括信息可視化、報(bào)告生成和信息共享，以便用戶更好地理解和使用決策支撐信息。

2 數(shù)據(jù)采集
2.1 人力整編
人力整編也稱眾包數(shù)據(jù)收集，是指通過數(shù)據(jù)工作者手工收集、完善和優(yōu)化從公開數(shù)據(jù)源獲得的數(shù)據(jù)的過程。人力整編的優(yōu)勢主要在于通過引入專家知識，一定程度上提高數(shù)據(jù)質(zhì)量，對于輕量級的數(shù)據(jù)采集工作能夠保證數(shù)據(jù)采集和管理的效率。然而，人力整編面臨數(shù)據(jù)隱私安全、人為偏見、眾包質(zhì)量參差不齊等問題。

Chai 等人[1]在其綜述研究中提到，眾包數(shù)據(jù)庫系統(tǒng)能夠有效解決現(xiàn)有公共眾包平臺（如Amazon Mechanical Turk、CrowdFlower 等）交互設(shè)計(jì)非常不便的問題。該綜述對眾包平臺有關(guān)研究進(jìn)行了梳理，概述了眾包的概念，總結(jié)了設(shè)計(jì)眾包數(shù)據(jù)庫的基本技術(shù)，其中包含任務(wù)設(shè)計(jì)、任務(wù)分配、解決方案推理及延遲減少等，并回顧了眾包操作符設(shè)計(jì)策略，包括選擇、連接、排序、前k項(xiàng)、最大/最小值、計(jì)數(shù)、收集和填充等。

2.2 網(wǎng)絡(luò)爬蟲
網(wǎng)絡(luò)爬蟲是一種用于自動(dòng)化采集公開數(shù)據(jù)的程序，數(shù)據(jù)類型覆蓋包括網(wǎng)頁文本、圖片、音頻、視頻等在內(nèi)的多媒體數(shù)據(jù)。經(jīng)過多年發(fā)展，網(wǎng)絡(luò)爬蟲逐漸成為大數(shù)據(jù)分析、搜索引擎、推薦系統(tǒng)等技術(shù)的數(shù)據(jù)采集基礎(chǔ)。

Khder 等人[2]在其2021 年發(fā)表的研究綜述中提到，網(wǎng)絡(luò)爬蟲的近期研究主要關(guān)注于爬蟲技術(shù)的智能化及爬取效率的提高。相較于人工整編，使用網(wǎng)絡(luò)爬蟲不僅可以獲得更全面、準(zhǔn)確和一致的數(shù)據(jù)，還可從深暗網(wǎng)中大量獲取灰黑產(chǎn)數(shù)據(jù)以支撐執(zhí)法打擊決策，應(yīng)用場景更為廣泛。同時(shí)，該文強(qiáng)調(diào)了爬蟲應(yīng)用導(dǎo)致的倫理和法律問題，尤其是個(gè)人隱私泄露、版權(quán)侵犯、不正當(dāng)競爭、網(wǎng)絡(luò)攻擊等。

Neelakandan 等人[3]提出了一種用于定向網(wǎng)絡(luò)爬蟲的自動(dòng)參數(shù)調(diào)整深度學(xué)習(xí)詞嵌入模型。該模型涉及多個(gè)步驟，包括預(yù)處理、基于負(fù)采樣的增量式跳躍語法模型詞嵌入、雙向長短期記憶分類以及基于鳥群優(yōu)化的超參數(shù)調(diào)整。該研究的實(shí)驗(yàn)結(jié)果表明，所提出的模型在網(wǎng)頁收集方面獲得了更高的采集成功率，達(dá)到了85%。

3 數(shù)據(jù)預(yù)處理
在開源信息處理中，數(shù)據(jù)預(yù)處理包括很多方面的內(nèi)容，例如數(shù)據(jù)的目標(biāo)抽取、清洗、格式轉(zhuǎn)換、取值標(biāo)準(zhǔn)化、多源數(shù)據(jù)集成、信息精煉等。

Johnsen 等人[4]提出了一種基于主題模型的隱式狄利克雷分布（Latent Dirichlet Allocation，LDA）的文本預(yù)處理方法。該研究基于對大量有關(guān)研究文獻(xiàn)的總結(jié)，設(shè)計(jì)了一組預(yù)處理規(guī)則，并在真實(shí)的網(wǎng)絡(luò)論壇中進(jìn)行了演示應(yīng)用。該研究的實(shí)驗(yàn)結(jié)果表明，如果要保證主題建模的結(jié)果可以實(shí)際運(yùn)用于開源信息處理，其建模過程需要遵循非常嚴(yán)格的流程，且通過調(diào)整LDA 的超參數(shù)和主題數(shù)可以產(chǎn)生更可靠的結(jié)果。該研究通過對主題模型進(jìn)行迭代改善，保證了所提取主題內(nèi)容的連貫性和針對性。

Chandrasekar 等人[5]為提高C4.5 決策樹算法信息挖掘的準(zhǔn)確性，提出通過在數(shù)據(jù)預(yù)處理中利用監(jiān)督過濾離散化操作來構(gòu)建決策樹，并將結(jié)果與未經(jīng)離散化的C4.5 決策樹進(jìn)行了比較。實(shí)驗(yàn)結(jié)果表明，經(jīng)離散化預(yù)處理后的C4.5 決策樹能夠取得更高的準(zhǔn)確度。Garcia 等人[6]對大數(shù)據(jù)分析場景下的數(shù)據(jù)預(yù)處理方法進(jìn)行了綜述，描述了大數(shù)據(jù)中數(shù)據(jù)預(yù)處理方法的定義、特征和分類方式，探討了大數(shù)據(jù)和數(shù)據(jù)預(yù)處理在各種方法和大數(shù)據(jù)技術(shù)族群中的作用。該綜述總結(jié)了現(xiàn)有研究面臨的挑戰(zhàn)，重點(diǎn)描述了不同大數(shù)據(jù)框架（如Hadoop、Spark 和Flink）的發(fā)展?fàn)顩r，以及一些數(shù)據(jù)預(yù)處理方法和新大數(shù)據(jù)挖掘模式的應(yīng)用。

4 信息分析
4.1 基于規(guī)則判斷的開源信息處理
基于規(guī)則判斷的開源信息處理是指從專家的先驗(yàn)知識出發(fā)，手工設(shè)計(jì)開源信息處理分析所需的判定規(guī)則，如閾值判定規(guī)則、類型判定規(guī)則、規(guī)則匹配方式等，并利用這些規(guī)則對開源信息數(shù)據(jù)進(jìn)行分析處理，進(jìn)而達(dá)到信息分析目的的方法。

規(guī)則判斷在開源信息處理中的應(yīng)用優(yōu)勢主要有兩點(diǎn)。一是由于規(guī)則判斷能夠根據(jù)領(lǐng)域?qū)＜业慕?jīng)驗(yàn)進(jìn)行快速設(shè)計(jì)，因此相較于其他基于復(fù)雜算法的開源信息處理，基于規(guī)則判斷的開源信息處理能夠快速、高效地滿足輕量數(shù)據(jù)的分類和篩選需求。二是手工規(guī)則可以充分利用專家的主觀經(jīng)驗(yàn)判斷力，能夠在某些數(shù)據(jù)分析領(lǐng)域中準(zhǔn)確描述分析需求，定位關(guān)鍵問題，例如對于具體自然語言的解釋和推斷等。但與此同時(shí)，手工規(guī)則對專家的專業(yè)知識的高要求導(dǎo)致規(guī)則維護(hù)所需的人工開銷大，容易被專家知識的偏向性影響，且囿于數(shù)據(jù)的復(fù)雜性而難以處理大量數(shù)據(jù)。

Tariq Soomro 等人[7]分析了收集自2020 年3月1 日至2020 年5 月31 日的超過1 800 萬條與冠狀病毒有關(guān)的Twitter 消息，并利用基于規(guī)則的監(jiān)督機(jī)器學(xué)習(xí)工具Vader 來進(jìn)行情感分析，以評估公眾情緒與新型冠狀病毒肺炎（Corona Virus Disease 2019，COVID-19）病例數(shù)之間的關(guān)系。此外，該研究還分析了在推文中提到一個(gè)國家的數(shù)量與該國COVID-19 每日病例數(shù)的增加之間的關(guān)系。該研究發(fā)現(xiàn)，一些結(jié)果表明在意大利、美國和英國提到的推文數(shù)量與這些國家每日新COVID-19 病例數(shù)的增加之間存在相關(guān)性。

4.2 基于機(jī)器學(xué)習(xí)的開源信息處理
在開源信息處理中廣泛應(yīng)用的傳統(tǒng)機(jī)器學(xué)習(xí)算法主要包括決策樹類算法、樸素貝葉斯、最近鄰居算法、支持向量機(jī)、邏輯回歸等。開源信息處理中應(yīng)用機(jī)器學(xué)習(xí)的優(yōu)勢主要在于能夠有效平衡專家經(jīng)驗(yàn)知識和算法自動(dòng)化的影響，能夠處理結(jié)構(gòu)化和非結(jié)構(gòu)化等多種數(shù)據(jù)類型，具有較高的容錯(cuò)性、可擴(kuò)展性。然而，傳統(tǒng)機(jī)器學(xué)習(xí)仍然存在對數(shù)據(jù)預(yù)處理要求高、過度依賴手工特征等問題，特征提取中專家知識的專業(yè)性和偏向性將對算法輸出產(chǎn)生較大影響。

Balaji 等人[8]對使用機(jī)器學(xué)習(xí)進(jìn)行開源信息處理分析，尤其是社交媒體分析方面的研究進(jìn)行了綜述。該綜述認(rèn)為，機(jī)器學(xué)習(xí)已經(jīng)成為社交媒體分析的基礎(chǔ)技術(shù)手段，在社交媒體的情感分析、用戶畫像、社交網(wǎng)絡(luò)分析、事件檢測和推薦系統(tǒng)等方面發(fā)揮著重要作用，技術(shù)類型包括監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)等。現(xiàn)有研究面臨的挑戰(zhàn)主要在于數(shù)據(jù)獲取、數(shù)據(jù)質(zhì)量、算法效率、模型解釋性等方面，可以在算法的效率和準(zhǔn)確性，如特征選擇、深度學(xué)習(xí)、自適應(yīng)算法等角度開展進(jìn)一步研究。

Khadjeh Nassirtoussi 等人[9]對文本挖掘在開源股市預(yù)測方面的應(yīng)用研究進(jìn)行了綜述。文本挖掘在股市預(yù)測方面的應(yīng)用已經(jīng)得到了廣泛的研究，數(shù)據(jù)源主要包括新聞、社交媒體、公司報(bào)告、股市評論等方面的數(shù)據(jù)。在方法和模型方面，研究者們主要采用了機(jī)器學(xué)習(xí)、自然語言處理、情感分析等技術(shù)來進(jìn)行文本挖掘和預(yù)測。該論文指出，文本挖掘在股市預(yù)測方面的應(yīng)用可以提高預(yù)測的準(zhǔn)確性和效率，但數(shù)據(jù)來源不確定、模型過度擬合等問題帶來的預(yù)測效果下降的情況不容忽視。因此，在進(jìn)行文本挖掘的時(shí)候需要注意數(shù)據(jù)的質(zhì)量并選擇合適的模型和方法，以提高預(yù)測的準(zhǔn)確性和可靠性。

Abbass 等人[10]提出了一個(gè)基于開源數(shù)據(jù)進(jìn)行社交媒體犯罪行為預(yù)測的技術(shù)框架，涉及的網(wǎng)絡(luò)犯罪類型包括網(wǎng)絡(luò)跟蹤、網(wǎng)絡(luò)欺凌、網(wǎng)絡(luò)黑客、網(wǎng)絡(luò)騷擾和網(wǎng)絡(luò)詐騙。該框架由三個(gè)模塊組成，包括數(shù)據(jù)（推文）預(yù)處理、分類模型構(gòu)建和預(yù)測。為構(gòu)建預(yù)測模型，該研究使用了多項(xiàng)式樸素貝葉斯（Multinomial Naïve Bayes，MNB）、K 近鄰（K Nearest Neighbors，KNN）和支持向量機(jī)（Support Vector Machine，SVM）對數(shù)據(jù)進(jìn)行分類，以確定不同的犯罪類別。使用這些機(jī)器學(xué)習(xí)算法的N-Gram語言模型來識別n的最佳值，并測量系統(tǒng)在不同n取值（例如Unigram、Bigram、Trigram 和4-gram）下的準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明，所有三個(gè)算法的精確度、召回率和F 值均超過0.9，其中支持向量機(jī)表現(xiàn)略優(yōu)。

Ghazi 等人[11]提出采用有監(jiān)督的機(jī)器學(xué)習(xí)從不規(guī)整、高噪聲、海量的開源非結(jié)構(gòu)化威脅信息數(shù)據(jù)中提取威脅數(shù)據(jù)源，提取精度約為70%，且該方法能生成符合STIX 等標(biāo)準(zhǔn)的全面的威脅報(bào)告，進(jìn)而幫助組織主動(dòng)防御已知和未知的威脅，減少手動(dòng)分析的煩瑣工作。

4.3 基于神經(jīng)網(wǎng)絡(luò)的開源信息處理
神經(jīng)網(wǎng)絡(luò)系列算法已經(jīng)廣泛應(yīng)用于開源信息處理分析領(lǐng)域，主要包括前向全連接網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）、循環(huán)神經(jīng)網(wǎng)絡(luò)、圖卷積神經(jīng)網(wǎng)絡(luò)、自編碼器、生成對抗網(wǎng)絡(luò)、殘差網(wǎng)絡(luò)等，以及深度學(xué)習(xí)、注意力機(jī)制、預(yù)訓(xùn)練模型、增強(qiáng)學(xué)習(xí)、遷移學(xué)習(xí)、少樣本學(xué)習(xí)等新型學(xué)習(xí)框架的應(yīng)用。神經(jīng)網(wǎng)絡(luò)分析方法的優(yōu)勢在于能夠自適應(yīng)和自我學(xué)習(xí)，可以進(jìn)行端到端的學(xué)習(xí)和操作，對非線性和復(fù)雜數(shù)據(jù)具有良好的擬合能力，適合進(jìn)行預(yù)測和分類任務(wù)。然而，神經(jīng)網(wǎng)絡(luò)的模型訓(xùn)練需要大量的數(shù)據(jù)和計(jì)算資源，模型的可解釋性有待提高，難以評估網(wǎng)絡(luò)的魯棒性，模型容易出現(xiàn)過擬合情況。

Martins 等人[12]提出了一種基于神經(jīng)網(wǎng)絡(luò)的聯(lián)合學(xué)習(xí)框架，將命名實(shí)體識別（Named Entity Recognition，NER）和實(shí)體鏈接（Entity Linking，EL）兩個(gè)任務(wù)結(jié)合在一起進(jìn)行學(xué)習(xí)，實(shí)現(xiàn)協(xié)同優(yōu)化。該方法主要包括三個(gè)組件。一是共享編碼器，用于將輸入的文本轉(zhuǎn)化為向量表示。二是NER 解碼器，用于預(yù)測文本中的命名實(shí)體。三是EL 解碼器，用于將預(yù)測出的命名實(shí)體鏈接到知識庫中的實(shí)體。該框架的主要特點(diǎn)是可以同時(shí)考慮文本中的命名實(shí)體和知識庫中的實(shí)體，從而能夠提高NER 和EL 兩個(gè)任務(wù)的準(zhǔn)確率。此外，該框架還可以通過聯(lián)合訓(xùn)練來減少模型的訓(xùn)練時(shí)間和資源消耗，提高模型的效率。以CoNLL 2003 和AIDA CoNLL-YAGO 為數(shù)據(jù)輸入的實(shí)驗(yàn)結(jié)果表明，與單獨(dú)訓(xùn)練NER 和EL 模型相比，該聯(lián)合學(xué)習(xí)框架可以顯著提高NER 和EL 兩個(gè)任務(wù)的準(zhǔn)確率，并且可以在保持準(zhǔn)確率的同時(shí)減少模型的訓(xùn)練時(shí)間和資源消耗。

Su 等人[13]對基于深度學(xué)習(xí)的社團(tuán)發(fā)現(xiàn)研究進(jìn)行了綜述。該綜述認(rèn)為從算法的角度來說，現(xiàn)有研究主要分為兩類，即基于節(jié)點(diǎn)表征學(xué)習(xí)的方法和基于圖表征學(xué)習(xí)的方法。前者主要通過學(xué)習(xí)節(jié)點(diǎn)的向量表征來判斷節(jié)點(diǎn)之間的相似性，后者則是通過學(xué)習(xí)圖的嵌入表征來捕捉社區(qū)結(jié)構(gòu)和節(jié)點(diǎn)間的關(guān)系。其中，基于圖表征學(xué)習(xí)的方法相對于基于節(jié)點(diǎn)表征學(xué)習(xí)的方法更具優(yōu)勢，因?yàn)樗軌蚋玫夭蹲焦?jié)點(diǎn)之間的結(jié)構(gòu)和關(guān)系，從而更精確地刻畫社區(qū)結(jié)構(gòu)�，F(xiàn)有研究的挑戰(zhàn)主要在于如何利用深度學(xué)習(xí)方法更好地發(fā)現(xiàn)社區(qū)結(jié)構(gòu)，如何應(yīng)對噪聲、稀疏性和異質(zhì)性等問題，以及如何處理大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)的問題。

Garcia 等人[14]針對COVID-19 病例數(shù)和死亡數(shù)均較高的巴西和美國兩個(gè)國家開展了基于開源數(shù)據(jù)的主題識別和情感分析研究。該研究使用了共計(jì)六百萬條英語推文和葡萄牙語推文，比較和討論兩種語言的主題識別和情感分析的效果，并基于討論熱度排名的10 個(gè)主題進(jìn)行了話題演化分析。該研究填補(bǔ)了葡萄牙語開源分析方面的研究空白，并對情感趨勢的長期分析及其與新聞報(bào)道的關(guān)系進(jìn)行了探究，比較了疫情下兩個(gè)不同地區(qū)的人類行為。

Hashida 等人[15]提出了一種基于深度學(xué)習(xí)的分類方法，采用一種新的分布式單詞表示方法——多通道分布式表示法，表示一個(gè)單詞潛在特征的單詞向量。在此基礎(chǔ)上，為了進(jìn)一步增強(qiáng)分布式表示的能力，該研究在多通道分布式表示中使每個(gè)項(xiàng)都包含多個(gè)通道值。與其他CNN 模型和長短期記憶模型（Long Short-Time Memory，LSTM）進(jìn)行的對比實(shí)驗(yàn)結(jié)果表明，深度學(xué)習(xí)模型的分類性能優(yōu)于樸素貝葉斯分類器，同時(shí)具有多通道分布式表示的CNN在分類推文方面表現(xiàn)更好。

4.4 基于復(fù)雜網(wǎng)絡(luò)的開源信息處理
開源信息處理中采用的復(fù)雜網(wǎng)絡(luò)分析主要面向圖結(jié)構(gòu)的開源信息處理數(shù)據(jù)進(jìn)行處理，常用于傳播分析、用戶關(guān)聯(lián)關(guān)系挖掘等任務(wù)。復(fù)雜網(wǎng)絡(luò)分析通過模擬分析大規(guī)模圖結(jié)構(gòu)的復(fù)雜系統(tǒng)，包括網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和系統(tǒng)動(dòng)力學(xué)，在系統(tǒng)演化方面具有分析優(yōu)勢、較高的容錯(cuò)性和魯棒性。然而，復(fù)雜網(wǎng)絡(luò)分析對數(shù)據(jù)量的要求很高，計(jì)算復(fù)雜度高，可解釋性和可控制性較弱。

Berahmand 等人[16]提出了一種改進(jìn)歐幾里得隨機(jī)游走有效的方法進(jìn)行鏈路預(yù)測。該方法鼓勵(lì)隨機(jī)游走向具有更強(qiáng)影響力的節(jié)點(diǎn)移動(dòng)，每一步都根據(jù)所在節(jié)點(diǎn)的影響力選擇下一個(gè)節(jié)點(diǎn)。該研究基于互信息度量，提出了節(jié)點(diǎn)之間的非對稱互惠影響的概念。實(shí)驗(yàn)結(jié)果表明，與其他鏈路預(yù)測方法相比，所提出的方法有更高的預(yù)測準(zhǔn)確性。

Li 等人[17]提出了一種基于自因果推斷中的混雜因素分析的無偏網(wǎng)絡(luò)混淆技術(shù)，以解決推薦系統(tǒng)中非隨機(jī)缺失（Missing-Not-At-Random，MNAR）的問題。該方法通過控制社交網(wǎng)絡(luò)的混淆保留觀測到的曝光信息，同時(shí)可以通過平衡表示學(xué)習(xí)實(shí)現(xiàn)去混淆，以保留主要的用戶和物品特征，在推薦評級預(yù)測方面具有很好的泛化能力。

Naik 等人[18]面向社交網(wǎng)絡(luò)復(fù)雜社團(tuán)劃分的并行處理和共享/分布式技術(shù)應(yīng)用情況開展了綜述研究。該研究全面討論了在現(xiàn)有的社群檢測方法中應(yīng)用并行計(jì)算、共享內(nèi)存和分布式內(nèi)存的情況。

5 決策支撐
5.1 信息可視化
信息可視化通過將數(shù)據(jù)呈現(xiàn)為可交互的實(shí)體，幫助用戶更快捷、更直觀地理解信息，并在分析過程中更快捷地定位信息中的關(guān)鍵結(jié)構(gòu)和重點(diǎn)內(nèi)容。

Gonzalez-Granadillo 等人[19]使用Gephi 和D3.js兩種工具進(jìn)行開源信息處理的網(wǎng)絡(luò)可視化及界面交互。該研究將網(wǎng)絡(luò)中的節(jié)點(diǎn)和邊用圖結(jié)構(gòu)的形式在屏幕上呈現(xiàn)，方便用戶直觀地了解文本或其他類型數(shù)據(jù)中的關(guān)系，并提供更為豐富的交互式可視化，比如通過鼠標(biāo)拖拽、縮放和篩選等手段，實(shí)現(xiàn)對可視化數(shù)據(jù)的自定義和過濾。Hoppa 等人[20]使用多種數(shù)據(jù)可視化技術(shù)，如熱力圖、時(shí)間線、餅圖和條形圖等，以幫助用戶更好地理解和分析收集到的Twitter 開源信息處理數(shù)據(jù)。

5.2 報(bào)告生成及信息共享
信息報(bào)告生成有助于總結(jié)分析過程和結(jié)果，有利于信息的共享。信息共享的技術(shù)特點(diǎn)和效果通過提高安全性、可持續(xù)性和可擴(kuò)展性，使得安全生態(tài)系統(tǒng)的不同組織和應(yīng)用程序之間可以更好地協(xié)作和共享信息數(shù)據(jù)，支持更有效的安全決策和風(fēng)險(xiǎn)管理。

Cerutti 等人[21]利用語言生成技術(shù)生成報(bào)告，并對分析過的數(shù)據(jù)進(jìn)行整理和歸納，該報(bào)告能夠清晰地反映事件的發(fā)展過程、現(xiàn)狀和未來預(yù)測。該技術(shù)的優(yōu)點(diǎn)在于將已有數(shù)據(jù)進(jìn)行人類語言轉(zhuǎn)化的同時(shí)，能夠提高報(bào)告生成的效率和準(zhǔn)確性。生成的報(bào)告還可以提供交互式的方式，使用戶能夠根據(jù)自己的需求自由地選擇并瀏覽報(bào)告中的信息。

Schwarz 等人[22]根據(jù)抓取到的數(shù)據(jù)和分析的結(jié)果，自動(dòng)化地生成報(bào)告。報(bào)告生成的過程中可以完成報(bào)告格式的設(shè)定，包括報(bào)告樣式、字體大小等。同時(shí)，也可以根據(jù)用戶的需求進(jìn)行調(diào)整，并且可以輸出多種格式的文件，如PDF、WORD、HTML 格式的文檔等。

Suryotrisongko 等人[23]將可解釋人工智能（Explainable Artificial Intelligence，XAI）引入到開源信息處理中，實(shí)現(xiàn)了威脅信息的報(bào)告生成及共享。該研究利用XAI 技術(shù)解釋機(jī)器學(xué)習(xí)算法的特征決策貢獻(xiàn)，從而加強(qiáng)對惡意域名生成算法的識別、查找和分析。同時(shí)，XAI 技術(shù)也可以讓分析人員更直觀地理解和分析算法的結(jié)果，提高了分析的準(zhǔn)確性和可靠性。對于報(bào)告生成，通過數(shù)據(jù)庫技術(shù)來存儲搜集到的威脅信息，并利用可視化技術(shù)將數(shù)據(jù)進(jìn)行匯總和組織。報(bào)告不僅可以反映出威脅信息的趨勢和異常點(diǎn)，還可以展示詳細(xì)的信息內(nèi)容和歷史數(shù)據(jù)，讓用戶能夠更好地理解和利用數(shù)據(jù)。

6 應(yīng)用系統(tǒng)
在互聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代，世界各國不斷加大對開源信息處理的研究部署和系統(tǒng)開發(fā)的投入，形成的有關(guān)成果系統(tǒng)已紛紛得到應(yīng)用。

美國中央情報(bào)局、國家安全局等機(jī)構(gòu)支持研發(fā)并應(yīng)用了由Palantir 公司設(shè)計(jì)開發(fā)的Gotham 開源信息處理分析系統(tǒng)[24]。該系統(tǒng)的特點(diǎn)是能夠處理大量的多源異構(gòu)信息數(shù)據(jù)，進(jìn)行數(shù)據(jù)的全方位整合與挖掘，并提供強(qiáng)大的數(shù)據(jù)可視化、模擬分析、信息查詢和預(yù)測建模等功能。在美國政府和軍隊(duì)部門方面，Palantir Gotham 系統(tǒng)被廣泛使用。在阿富汗和伊拉克戰(zhàn)爭期間，該系統(tǒng)被用于收集、整理和分析情報(bào)信息，發(fā)現(xiàn)恐怖組織的嫌疑人并進(jìn)行定位。

I2-Analyst’s Notebook（i2AN）[25]是美國IBM公司開發(fā)的一款面向情報(bào)分析領(lǐng)域的數(shù)據(jù)分析軟件，主要用于互聯(lián)網(wǎng)開源犯罪情報(bào)分析、反恐調(diào)查、金融欺詐案件分析、情報(bào)綜合分析等。i2AN 擁有多種分析功能，包括人物、地點(diǎn)、組織關(guān)系的可視化分析、時(shí)間線分析等，能夠挖掘出隱藏在數(shù)據(jù)中的潛在線索，理清有關(guān)事件的脈絡(luò)，幫助用戶更加快速準(zhǔn)確地做出判斷，并可將所提供的信息、證據(jù)和結(jié)論生動(dòng)展示給申請人和決策者。i2AN 的用戶包括了全球許多機(jī)構(gòu)和部門，特別是在美國政府和軍隊(duì)部門方面，包括聯(lián)邦調(diào)查局、中央情報(bào)局、國土安全部等部門都在使用該軟件。

Rosette[26]是美國Babel Street 公司的開源信息處理產(chǎn)品，旨在幫助分析人員從多種非結(jié)構(gòu)化數(shù)據(jù)源中獲取信息，并進(jìn)行相關(guān)的分析和預(yù)測，包括社交媒體、博客、新聞報(bào)道、圖片和音頻等。與傳統(tǒng)的信息分析方法不同，Rosette 采用了自然語言處理、機(jī)器學(xué)習(xí)和人工智能等前沿技術(shù)來輔助分析人員進(jìn)行信息分析。它具有多種語言支持、實(shí)時(shí)數(shù)據(jù)收集和處理、可視化分析和用戶定制等特點(diǎn)。Babel X在美國和其他國家的軍隊(duì)和情報(bào)機(jī)構(gòu)中得到了廣泛的應(yīng)用。

此外，現(xiàn)在已有很多開源信息處理分析工具供世界范圍內(nèi)的研究者使用。SpiderFoot[27]是一款開源的自動(dòng)化信息收集工具，可幫助用戶收集數(shù)據(jù)、分析數(shù)據(jù)、生成報(bào)告及進(jìn)行關(guān)聯(lián)分析，可用于情報(bào)分析、網(wǎng)絡(luò)偵察、趨勢分析和風(fēng)險(xiǎn)評估等。theHarvester[28]是一款使用Python 編程語言開發(fā)的命令行工具，可幫助安全研究人員、滲透測試人員、信息安全企業(yè)、國家安全機(jī)構(gòu)等用戶，從互聯(lián)網(wǎng)上收集各種類型的信息，如電子郵件、域名、虛擬主機(jī)、URL、IP 地址等。Metagoofil[29]是一款開源的可定制搜索引擎，支持從Google、Bing 和Yahoo 等搜索引擎中獲取有關(guān)目標(biāo)的信息，旨在幫助安全研究人員、滲透測試人員和安全顧問等用戶，從互聯(lián)網(wǎng)上搜索與目標(biāo)公司或組織相關(guān)的文件，如文檔、圖片、代碼和其他文件。Mitaka[30]可以將多源數(shù)據(jù)聚合，自動(dòng)檢測并刪除無用數(shù)據(jù)，并提供各種圖表和視圖，幫助用戶更好地理解數(shù)據(jù)和信息。

7 現(xiàn)有挑戰(zhàn)
在世界各國和學(xué)術(shù)界的共同推動(dòng)下，開源信息處理技術(shù)已取得長足進(jìn)步，但仍面臨以下3 個(gè)方面的挑戰(zhàn)。

一是數(shù)據(jù)質(zhì)量方面的挑戰(zhàn)。數(shù)據(jù)是一切開源信息處理分析的基石，而開源信息處理通常面對巨大的數(shù)據(jù)量，且不同源的數(shù)據(jù)結(jié)構(gòu)不統(tǒng)一，信息缺損的情況頻繁發(fā)生，數(shù)據(jù)可靠性評估過于依賴專業(yè)知識，提高了人力、時(shí)間和空間開銷。

二是分析算法方面的挑戰(zhàn)。如今，開源信息處理常面臨跨域目標(biāo)分析需求，如何構(gòu)建合理的目標(biāo)行為表征，將跨域多源信息與目標(biāo)進(jìn)行有效關(guān)聯(lián)，實(shí)現(xiàn)對目標(biāo)的全面分析，是如今開源信息處理研究面臨的關(guān)鍵技術(shù)挑戰(zhàn)。

三是法律倫理方面的挑戰(zhàn)。開源信息處理使用開源數(shù)據(jù)時(shí)須遵守相應(yīng)的倫理規(guī)范和法律法規(guī)，尤其是在處理敏感領(lǐng)域及個(gè)人隱私方面的信息時(shí)，如何從技術(shù)上實(shí)現(xiàn)敏感及個(gè)人信息保護(hù)，防范化解敏感信息泄露風(fēng)險(xiǎn)，是如今開源信息處理分析面臨的挑戰(zhàn)之一。

8 未來展望
未來開源信息處理的研究大致有三個(gè)方向。一是先進(jìn)技術(shù)在開源信息處理中的應(yīng)用，尤其是以深度學(xué)習(xí)為代表的人工智能技術(shù)，其在開源信息處理領(lǐng)域的應(yīng)用將會(huì)有效支撐開源數(shù)據(jù)的快速處理和信息的精準(zhǔn)分析。二是跨學(xué)科研究。由于開源信息處理涉及很多不同的領(lǐng)域，如商業(yè)、政治、軍事、國際關(guān)系等，如何將領(lǐng)域知識與開源信息處理相結(jié)合，在實(shí)際領(lǐng)域應(yīng)用中解決實(shí)際的信息分析問題，將成為開源信息處理未來的研究熱點(diǎn)。三是決策支撐和信息檢索優(yōu)化。如何將開源信息處理數(shù)據(jù)通過信息可視化的方式呈現(xiàn)出來，生成信息分析報(bào)告并有效地傳遞到用戶手中，提供高效的信息檢索方式，將是未來開源信息處理的研究方向之一。

9 結(jié)語
開源信息處理具有數(shù)據(jù)獲取簡易、信息覆蓋面廣等優(yōu)勢，現(xiàn)已成為世界各國研究的熱點(diǎn)，相關(guān)成果已應(yīng)用于社會(huì)各領(lǐng)域并發(fā)揮著重要作用。本文對當(dāng)前國外開源信息處理研究的進(jìn)展進(jìn)行了綜述。在技術(shù)方面，本綜述覆蓋了數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、信息分析和決策支撐4 個(gè)開源信息處理關(guān)鍵步驟的有關(guān)技術(shù)，其中人工智能技術(shù)在開源信息處理中的應(yīng)用最為廣泛。在應(yīng)用系統(tǒng)方面，本綜述對國外流行的開源信息處理系統(tǒng)進(jìn)行了介紹，包括商業(yè)系統(tǒng)和開源系統(tǒng)。在現(xiàn)有挑戰(zhàn)方面，數(shù)據(jù)質(zhì)量、算法分析和法律倫理是現(xiàn)有研究面臨的主要挑戰(zhàn)，而先進(jìn)技術(shù)的應(yīng)用、跨學(xué)科研究、決策支撐和信息檢索優(yōu)化將是未來開源信息處理的研究熱點(diǎn)。

无码成人A片在线观看,性欧美videofree高清变态,中文字幕有码无码av,国产无人区卡一卡二扰乱码 ,最近高清日本免费