无码成人A片在线观看,性欧美videofree高清变态,中文字幕有码无码av,国产无人区卡一卡二扰乱码 ,最近高清日本免费

CNTXJ.NET | 通信界-中國(guó)通信門戶 | 通信圈 | 通信家 | 下載吧 | 說(shuō)吧 | 人物 | 前瞻 | 智慧(區(qū)塊鏈 | AI
 國(guó)際新聞 | 國(guó)內(nèi)新聞 | 運(yùn)營(yíng)動(dòng)態(tài) | 市場(chǎng)動(dòng)態(tài) | 信息安全 | 通信電源 | 網(wǎng)絡(luò)融合 | 通信測(cè)試 | 通信終端 | 通信政策
 專網(wǎng)通信 | 交換技術(shù) | 視頻通信 | 接入技術(shù) | 無(wú)線通信 | 通信線纜 | 互聯(lián)網(wǎng)絡(luò) | 數(shù)據(jù)通信 | 通信視界 | 通信前沿
 智能電網(wǎng) | 虛擬現(xiàn)實(shí) | 人工智能 | 自動(dòng)化 | 光通信 | IT | 6G | 烽火 | FTTH | IPTV | NGN | 知本院 | 通信會(huì)展
您現(xiàn)在的位置: 通信界 >> 專網(wǎng)通信 >> 技術(shù)正文
 
國(guó)外互聯(lián)網(wǎng)開源信息處理研究綜述
[ 通信界 | 汪明達(dá) 劉世鈺 聶大成 楊慧 張翔 邱鴻杰 | m.k-94.cn | 2023/11/19 12:17:01 ]
 

汪明達(dá),劉世鈺,聶大成,楊 慧,張 翔,邱鴻杰

(中國(guó)電子科技集團(tuán)公司第三十研究所,四川 成都 610041)

0 引言
隨著全球數(shù)字化、信息化進(jìn)程的深度推進(jìn),互聯(lián)網(wǎng)逐漸成為人類最重要的基礎(chǔ)設(shè)施之一,承載了涉及人類生活工作方方面面的海量信息。與此同時(shí),互聯(lián)網(wǎng)的普及極大簡(jiǎn)化了從門戶網(wǎng)站、社交媒體、博客等公開信息源獲取信息數(shù)據(jù)的過(guò)程,這些開源信息數(shù)據(jù)可為人們提供有價(jià)值的決策支撐信息,幫助人們更好地認(rèn)知、理解甚至預(yù)測(cè)特定實(shí)體或概念對(duì)象的屬性和行為,進(jìn)而掌握事件的規(guī)模、熱度、發(fā)展趨勢(shì)等。為此,互聯(lián)網(wǎng)開源信息處理逐漸成為世界各國(guó)爭(zhēng)相研究的熱點(diǎn)。

互聯(lián)網(wǎng)開源信息處理(以下簡(jiǎn)稱“開源信息處理”)是指從互聯(lián)網(wǎng)上的公開信息源獲取數(shù)據(jù)并分析處理,進(jìn)而獲得有價(jià)值的開源信息的過(guò)程。開源信息處理中涉及的信息范圍十分廣泛,涵蓋了政治、軍事、商業(yè)、社會(huì)等眾多領(lǐng)域。在政治領(lǐng)域,開源信息處理可以用于分析其他國(guó)家的政策和決策,幫助決策者預(yù)測(cè)目標(biāo)國(guó)家的行為趨勢(shì)。在商業(yè)領(lǐng)域,開源信息處理可以用于分析競(jìng)爭(zhēng)對(duì)手的戰(zhàn)略和市場(chǎng)趨勢(shì),幫助企業(yè)制定更好的市場(chǎng)營(yíng)銷策略。在社會(huì)領(lǐng)域,開源信息處理可用于分析犯罪活動(dòng)和社會(huì)趨勢(shì),幫助執(zhí)法部門和政府機(jī)構(gòu)制定更好的政策和措施。

本文將對(duì)國(guó)外開源信息處理的有關(guān)研究進(jìn)行綜述,包括開源信息處理的定義、技術(shù)手段、應(yīng)用系統(tǒng)等,總結(jié)現(xiàn)有研究存在的問題,提出未來(lái)可能的研究方向,旨在為有關(guān)領(lǐng)域的從業(yè)人員提供一個(gè)可參考的系統(tǒng)性知識(shí)框架,助力開源信息處理技術(shù)發(fā)展。

1 技術(shù)流程
開源信息處理的主要技術(shù)流程包括4 個(gè)部分,分別是數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、信息分析和決策支撐,如圖1 所示。

 圖1 開源信息處理主要技術(shù)流程

一是數(shù)據(jù)采集,是指從互聯(lián)網(wǎng)公開數(shù)據(jù)源采集信息數(shù)據(jù),為開源信息處理分析提供基礎(chǔ)數(shù)據(jù)支撐。采集的信息需要經(jīng)過(guò)初步篩選和過(guò)濾,以保證基本的數(shù)據(jù)準(zhǔn)確性和有效性,避免采集資源浪費(fèi)。數(shù)據(jù)預(yù)處理是指對(duì)采集到的開源數(shù)據(jù)進(jìn)行分析前的預(yù)先處理。二是數(shù)據(jù)預(yù)處理,其目的是在于提高數(shù)據(jù)的質(zhì)量和可用性,以便后續(xù)分析能夠更加有效地利用,常見的預(yù)處理包括數(shù)據(jù)清洗、格式轉(zhuǎn)換、數(shù)據(jù)重構(gòu)和存儲(chǔ)管理等,能夠使數(shù)據(jù)更加規(guī)范化,降低數(shù)據(jù)冗余和錯(cuò)誤。三是信息分析,指利用分析算法對(duì)預(yù)處理數(shù)據(jù)進(jìn)行深度的統(tǒng)計(jì)、分析和判斷,從中挖掘出有價(jià)值的信息和規(guī)律,生成有價(jià)值的決策支撐信息,為用戶決策管理提供信息支撐,是開源信息處理整體流程中的核心環(huán)節(jié)。四是決策支撐,指將分析的結(jié)果通過(guò)合理的方式傳遞給用戶,方式主要包括信息可視化、報(bào)告生成和信息共享,以便用戶更好地理解和使用決策支撐信息。

2 數(shù)據(jù)采集
2.1 人力整編
人力整編也稱眾包數(shù)據(jù)收集,是指通過(guò)數(shù)據(jù)工作者手工收集、完善和優(yōu)化從公開數(shù)據(jù)源獲得的數(shù)據(jù)的過(guò)程。人力整編的優(yōu)勢(shì)主要在于通過(guò)引入專家知識(shí),一定程度上提高數(shù)據(jù)質(zhì)量,對(duì)于輕量級(jí)的數(shù)據(jù)采集工作能夠保證數(shù)據(jù)采集和管理的效率。然而,人力整編面臨數(shù)據(jù)隱私安全、人為偏見、眾包質(zhì)量參差不齊等問題。

Chai 等人[1]在其綜述研究中提到,眾包數(shù)據(jù)庫(kù)系統(tǒng)能夠有效解決現(xiàn)有公共眾包平臺(tái)(如Amazon Mechanical Turk、CrowdFlower 等)交互設(shè)計(jì)非常不便的問題。該綜述對(duì)眾包平臺(tái)有關(guān)研究進(jìn)行了梳理,概述了眾包的概念,總結(jié)了設(shè)計(jì)眾包數(shù)據(jù)庫(kù)的基本技術(shù),其中包含任務(wù)設(shè)計(jì)、任務(wù)分配、解決方案推理及延遲減少等,并回顧了眾包操作符設(shè)計(jì)策略,包括選擇、連接、排序、前k項(xiàng)、最大/最小值、計(jì)數(shù)、收集和填充等。

2.2 網(wǎng)絡(luò)爬蟲
網(wǎng)絡(luò)爬蟲是一種用于自動(dòng)化采集公開數(shù)據(jù)的程序,數(shù)據(jù)類型覆蓋包括網(wǎng)頁(yè)文本、圖片、音頻、視頻等在內(nèi)的多媒體數(shù)據(jù)。經(jīng)過(guò)多年發(fā)展,網(wǎng)絡(luò)爬蟲逐漸成為大數(shù)據(jù)分析、搜索引擎、推薦系統(tǒng)等技術(shù)的數(shù)據(jù)采集基礎(chǔ)。

Khder 等人[2]在其2021 年發(fā)表的研究綜述中提到,網(wǎng)絡(luò)爬蟲的近期研究主要關(guān)注于爬蟲技術(shù)的智能化及爬取效率的提高。相較于人工整編,使用網(wǎng)絡(luò)爬蟲不僅可以獲得更全面、準(zhǔn)確和一致的數(shù)據(jù),還可從深暗網(wǎng)中大量獲取灰黑產(chǎn)數(shù)據(jù)以支撐執(zhí)法打擊決策,應(yīng)用場(chǎng)景更為廣泛。同時(shí),該文強(qiáng)調(diào)了爬蟲應(yīng)用導(dǎo)致的倫理和法律問題,尤其是個(gè)人隱私泄露、版權(quán)侵犯、不正當(dāng)競(jìng)爭(zhēng)、網(wǎng)絡(luò)攻擊等。

Neelakandan 等人[3]提出了一種用于定向網(wǎng)絡(luò)爬蟲的自動(dòng)參數(shù)調(diào)整深度學(xué)習(xí)詞嵌入模型。該模型涉及多個(gè)步驟,包括預(yù)處理、基于負(fù)采樣的增量式跳躍語(yǔ)法模型詞嵌入、雙向長(zhǎng)短期記憶分類以及基于鳥群優(yōu)化的超參數(shù)調(diào)整。該研究的實(shí)驗(yàn)結(jié)果表明,所提出的模型在網(wǎng)頁(yè)收集方面獲得了更高的采集成功率,達(dá)到了85%。

3 數(shù)據(jù)預(yù)處理
在開源信息處理中,數(shù)據(jù)預(yù)處理包括很多方面的內(nèi)容,例如數(shù)據(jù)的目標(biāo)抽取、清洗、格式轉(zhuǎn)換、取值標(biāo)準(zhǔn)化、多源數(shù)據(jù)集成、信息精煉等。

Johnsen 等人[4]提出了一種基于主題模型的隱式狄利克雷分布(Latent Dirichlet Allocation,LDA)的文本預(yù)處理方法。該研究基于對(duì)大量有關(guān)研究文獻(xiàn)的總結(jié),設(shè)計(jì)了一組預(yù)處理規(guī)則,并在真實(shí)的網(wǎng)絡(luò)論壇中進(jìn)行了演示應(yīng)用。該研究的實(shí)驗(yàn)結(jié)果表明,如果要保證主題建模的結(jié)果可以實(shí)際運(yùn)用于開源信息處理,其建模過(guò)程需要遵循非常嚴(yán)格的流程,且通過(guò)調(diào)整LDA 的超參數(shù)和主題數(shù)可以產(chǎn)生更可靠的結(jié)果。該研究通過(guò)對(duì)主題模型進(jìn)行迭代改善,保證了所提取主題內(nèi)容的連貫性和針對(duì)性。

Chandrasekar 等人[5]為提高C4.5 決策樹算法信息挖掘的準(zhǔn)確性,提出通過(guò)在數(shù)據(jù)預(yù)處理中利用監(jiān)督過(guò)濾離散化操作來(lái)構(gòu)建決策樹,并將結(jié)果與未經(jīng)離散化的C4.5 決策樹進(jìn)行了比較。實(shí)驗(yàn)結(jié)果表明,經(jīng)離散化預(yù)處理后的C4.5 決策樹能夠取得更高的準(zhǔn)確度。Garcia 等人[6]對(duì)大數(shù)據(jù)分析場(chǎng)景下的數(shù)據(jù)預(yù)處理方法進(jìn)行了綜述,描述了大數(shù)據(jù)中數(shù)據(jù)預(yù)處理方法的定義、特征和分類方式,探討了大數(shù)據(jù)和數(shù)據(jù)預(yù)處理在各種方法和大數(shù)據(jù)技術(shù)族群中的作用。該綜述總結(jié)了現(xiàn)有研究面臨的挑戰(zhàn),重點(diǎn)描述了不同大數(shù)據(jù)框架(如Hadoop、Spark 和Flink)的發(fā)展?fàn)顩r,以及一些數(shù)據(jù)預(yù)處理方法和新大數(shù)據(jù)挖掘模式的應(yīng)用。

4 信息分析
4.1 基于規(guī)則判斷的開源信息處理
基于規(guī)則判斷的開源信息處理是指從專家的先驗(yàn)知識(shí)出發(fā),手工設(shè)計(jì)開源信息處理分析所需的判定規(guī)則,如閾值判定規(guī)則、類型判定規(guī)則、規(guī)則匹配方式等,并利用這些規(guī)則對(duì)開源信息數(shù)據(jù)進(jìn)行分析處理,進(jìn)而達(dá)到信息分析目的的方法。

規(guī)則判斷在開源信息處理中的應(yīng)用優(yōu)勢(shì)主要有兩點(diǎn)。一是由于規(guī)則判斷能夠根據(jù)領(lǐng)域?qū)<业慕?jīng)驗(yàn)進(jìn)行快速設(shè)計(jì),因此相較于其他基于復(fù)雜算法的開源信息處理,基于規(guī)則判斷的開源信息處理能夠快速、高效地滿足輕量數(shù)據(jù)的分類和篩選需求。二是手工規(guī)則可以充分利用專家的主觀經(jīng)驗(yàn)判斷力,能夠在某些數(shù)據(jù)分析領(lǐng)域中準(zhǔn)確描述分析需求,定位關(guān)鍵問題,例如對(duì)于具體自然語(yǔ)言的解釋和推斷等。但與此同時(shí),手工規(guī)則對(duì)專家的專業(yè)知識(shí)的高要求導(dǎo)致規(guī)則維護(hù)所需的人工開銷大,容易被專家知識(shí)的偏向性影響,且囿于數(shù)據(jù)的復(fù)雜性而難以處理大量數(shù)據(jù)。

Tariq Soomro 等人[7]分析了收集自2020 年3月1 日至2020 年5 月31 日的超過(guò)1 800 萬(wàn)條與冠狀病毒有關(guān)的Twitter 消息,并利用基于規(guī)則的監(jiān)督機(jī)器學(xué)習(xí)工具Vader 來(lái)進(jìn)行情感分析,以評(píng)估公眾情緒與新型冠狀病毒肺炎(Corona Virus Disease 2019,COVID-19)病例數(shù)之間的關(guān)系。此外,該研究還分析了在推文中提到一個(gè)國(guó)家的數(shù)量與該國(guó)COVID-19 每日病例數(shù)的增加之間的關(guān)系。該研究發(fā)現(xiàn),一些結(jié)果表明在意大利、美國(guó)和英國(guó)提到的推文數(shù)量與這些國(guó)家每日新COVID-19 病例數(shù)的增加之間存在相關(guān)性。

4.2 基于機(jī)器學(xué)習(xí)的開源信息處理
在開源信息處理中廣泛應(yīng)用的傳統(tǒng)機(jī)器學(xué)習(xí)算法主要包括決策樹類算法、樸素貝葉斯、最近鄰居算法、支持向量機(jī)、邏輯回歸等。開源信息處理中應(yīng)用機(jī)器學(xué)習(xí)的優(yōu)勢(shì)主要在于能夠有效平衡專家經(jīng)驗(yàn)知識(shí)和算法自動(dòng)化的影響,能夠處理結(jié)構(gòu)化和非結(jié)構(gòu)化等多種數(shù)據(jù)類型,具有較高的容錯(cuò)性、可擴(kuò)展性。然而,傳統(tǒng)機(jī)器學(xué)習(xí)仍然存在對(duì)數(shù)據(jù)預(yù)處理要求高、過(guò)度依賴手工特征等問題,特征提取中專家知識(shí)的專業(yè)性和偏向性將對(duì)算法輸出產(chǎn)生較大影響。

Balaji 等人[8]對(duì)使用機(jī)器學(xué)習(xí)進(jìn)行開源信息處理分析,尤其是社交媒體分析方面的研究進(jìn)行了綜述。該綜述認(rèn)為,機(jī)器學(xué)習(xí)已經(jīng)成為社交媒體分析的基礎(chǔ)技術(shù)手段,在社交媒體的情感分析、用戶畫像、社交網(wǎng)絡(luò)分析、事件檢測(cè)和推薦系統(tǒng)等方面發(fā)揮著重要作用,技術(shù)類型包括監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)等,F(xiàn)有研究面臨的挑戰(zhàn)主要在于數(shù)據(jù)獲取、數(shù)據(jù)質(zhì)量、算法效率、模型解釋性等方面,可以在算法的效率和準(zhǔn)確性,如特征選擇、深度學(xué)習(xí)、自適應(yīng)算法等角度開展進(jìn)一步研究。

Khadjeh Nassirtoussi 等人[9]對(duì)文本挖掘在開源股市預(yù)測(cè)方面的應(yīng)用研究進(jìn)行了綜述。文本挖掘在股市預(yù)測(cè)方面的應(yīng)用已經(jīng)得到了廣泛的研究,數(shù)據(jù)源主要包括新聞、社交媒體、公司報(bào)告、股市評(píng)論等方面的數(shù)據(jù)。在方法和模型方面,研究者們主要采用了機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、情感分析等技術(shù)來(lái)進(jìn)行文本挖掘和預(yù)測(cè)。該論文指出,文本挖掘在股市預(yù)測(cè)方面的應(yīng)用可以提高預(yù)測(cè)的準(zhǔn)確性和效率,但數(shù)據(jù)來(lái)源不確定、模型過(guò)度擬合等問題帶來(lái)的預(yù)測(cè)效果下降的情況不容忽視。因此,在進(jìn)行文本挖掘的時(shí)候需要注意數(shù)據(jù)的質(zhì)量并選擇合適的模型和方法,以提高預(yù)測(cè)的準(zhǔn)確性和可靠性。

Abbass 等人[10]提出了一個(gè)基于開源數(shù)據(jù)進(jìn)行社交媒體犯罪行為預(yù)測(cè)的技術(shù)框架,涉及的網(wǎng)絡(luò)犯罪類型包括網(wǎng)絡(luò)跟蹤、網(wǎng)絡(luò)欺凌、網(wǎng)絡(luò)黑客、網(wǎng)絡(luò)騷擾和網(wǎng)絡(luò)詐騙。該框架由三個(gè)模塊組成,包括數(shù)據(jù)(推文)預(yù)處理、分類模型構(gòu)建和預(yù)測(cè)。為構(gòu)建預(yù)測(cè)模型,該研究使用了多項(xiàng)式樸素貝葉斯(Multinomial Naïve Bayes,MNB)、K 近 鄰(K Nearest Neighbors,KNN)和支持向量機(jī)(Support Vector Machine,SVM)對(duì)數(shù)據(jù)進(jìn)行分類,以確定不同的犯罪類別。使用這些機(jī)器學(xué)習(xí)算法的N-Gram語(yǔ)言模型來(lái)識(shí)別n的最佳值,并測(cè)量系統(tǒng)在不同n取值(例如Unigram、Bigram、Trigram 和4-gram)下的準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明,所有三個(gè)算法的精確度、召回率和F 值均超過(guò)0.9,其中支持向量機(jī)表現(xiàn)略優(yōu)。

Ghazi 等人[11]提出采用有監(jiān)督的機(jī)器學(xué)習(xí)從不規(guī)整、高噪聲、海量的開源非結(jié)構(gòu)化威脅信息數(shù)據(jù)中提取威脅數(shù)據(jù)源,提取精度約為70%,且該方法能生成符合STIX 等標(biāo)準(zhǔn)的全面的威脅報(bào)告,進(jìn)而幫助組織主動(dòng)防御已知和未知的威脅,減少手動(dòng)分析的煩瑣工作。

4.3 基于神經(jīng)網(wǎng)絡(luò)的開源信息處理
神經(jīng)網(wǎng)絡(luò)系列算法已經(jīng)廣泛應(yīng)用于開源信息處理分析領(lǐng)域,主要包括前向全連接網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)、圖卷積神經(jīng)網(wǎng)絡(luò)、自編碼器、生成對(duì)抗網(wǎng)絡(luò)、殘差網(wǎng)絡(luò)等,以及深度學(xué)習(xí)、注意力機(jī)制、預(yù)訓(xùn)練模型、增強(qiáng)學(xué)習(xí)、遷移學(xué)習(xí)、少樣本學(xué)習(xí)等新型學(xué)習(xí)框架的應(yīng)用。神經(jīng)網(wǎng)絡(luò)分析方法的優(yōu)勢(shì)在于能夠自適應(yīng)和自我學(xué)習(xí),可以進(jìn)行端到端的學(xué)習(xí)和操作,對(duì)非線性和復(fù)雜數(shù)據(jù)具有良好的擬合能力,適合進(jìn)行預(yù)測(cè)和分類任務(wù)。然而,神經(jīng)網(wǎng)絡(luò)的模型訓(xùn)練需要大量的數(shù)據(jù)和計(jì)算資源,模型的可解釋性有待提高,難以評(píng)估網(wǎng)絡(luò)的魯棒性,模型容易出現(xiàn)過(guò)擬合情況。

Martins 等人[12]提出了一種基于神經(jīng)網(wǎng)絡(luò)的聯(lián)合學(xué)習(xí)框架,將命名實(shí)體識(shí)別(Named Entity Recognition,NER)和實(shí)體鏈接(Entity Linking,EL)兩個(gè)任務(wù)結(jié)合在一起進(jìn)行學(xué)習(xí),實(shí)現(xiàn)協(xié)同優(yōu)化。該方法主要包括三個(gè)組件。一是共享編碼器,用于將輸入的文本轉(zhuǎn)化為向量表示。二是NER 解碼器,用于預(yù)測(cè)文本中的命名實(shí)體。三是EL 解碼器,用于將預(yù)測(cè)出的命名實(shí)體鏈接到知識(shí)庫(kù)中的實(shí)體。該框架的主要特點(diǎn)是可以同時(shí)考慮文本中的命名實(shí)體和知識(shí)庫(kù)中的實(shí)體,從而能夠提高NER 和EL 兩個(gè)任務(wù)的準(zhǔn)確率。此外,該框架還可以通過(guò)聯(lián)合訓(xùn)練來(lái)減少模型的訓(xùn)練時(shí)間和資源消耗,提高模型的效率。以CoNLL 2003 和AIDA CoNLL-YAGO 為數(shù)據(jù)輸入的實(shí)驗(yàn)結(jié)果表明,與單獨(dú)訓(xùn)練NER 和EL 模型相比,該聯(lián)合學(xué)習(xí)框架可以顯著提高NER 和EL 兩個(gè)任務(wù)的準(zhǔn)確率,并且可以在保持準(zhǔn)確率的同時(shí)減少模型的訓(xùn)練時(shí)間和資源消耗。

Su 等人[13]對(duì)基于深度學(xué)習(xí)的社團(tuán)發(fā)現(xiàn)研究進(jìn)行了綜述。該綜述認(rèn)為從算法的角度來(lái)說(shuō),現(xiàn)有研究主要分為兩類,即基于節(jié)點(diǎn)表征學(xué)習(xí)的方法和基于圖表征學(xué)習(xí)的方法。前者主要通過(guò)學(xué)習(xí)節(jié)點(diǎn)的向量表征來(lái)判斷節(jié)點(diǎn)之間的相似性,后者則是通過(guò)學(xué)習(xí)圖的嵌入表征來(lái)捕捉社區(qū)結(jié)構(gòu)和節(jié)點(diǎn)間的關(guān)系。其中,基于圖表征學(xué)習(xí)的方法相對(duì)于基于節(jié)點(diǎn)表征學(xué)習(xí)的方法更具優(yōu)勢(shì),因?yàn)樗軌蚋玫夭蹲焦?jié)點(diǎn)之間的結(jié)構(gòu)和關(guān)系,從而更精確地刻畫社區(qū)結(jié)構(gòu),F(xiàn)有研究的挑戰(zhàn)主要在于如何利用深度學(xué)習(xí)方法更好地發(fā)現(xiàn)社區(qū)結(jié)構(gòu),如何應(yīng)對(duì)噪聲、稀疏性和異質(zhì)性等問題,以及如何處理大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)的問題。

Garcia 等人[14]針對(duì)COVID-19 病例數(shù)和死亡數(shù)均較高的巴西和美國(guó)兩個(gè)國(guó)家開展了基于開源數(shù)據(jù)的主題識(shí)別和情感分析研究。該研究使用了共計(jì)六百萬(wàn)條英語(yǔ)推文和葡萄牙語(yǔ)推文,比較和討論兩種語(yǔ)言的主題識(shí)別和情感分析的效果,并基于討論熱度排名的10 個(gè)主題進(jìn)行了話題演化分析。該研究填補(bǔ)了葡萄牙語(yǔ)開源分析方面的研究空白,并對(duì)情感趨勢(shì)的長(zhǎng)期分析及其與新聞報(bào)道的關(guān)系進(jìn)行了探究,比較了疫情下兩個(gè)不同地區(qū)的人類行為。

Hashida 等人[15]提出了一種基于深度學(xué)習(xí)的分類方法,采用一種新的分布式單詞表示方法——多通道分布式表示法,表示一個(gè)單詞潛在特征的單詞向量。在此基礎(chǔ)上,為了進(jìn)一步增強(qiáng)分布式表示的能力,該研究在多通道分布式表示中使每個(gè)項(xiàng)都包含多個(gè)通道值。與其他CNN 模型和長(zhǎng)短期記憶模型(Long Short-Time Memory,LSTM)進(jìn)行的對(duì)比實(shí)驗(yàn)結(jié)果表明,深度學(xué)習(xí)模型的分類性能優(yōu)于樸素貝葉斯分類器,同時(shí)具有多通道分布式表示的CNN在分類推文方面表現(xiàn)更好。

4.4 基于復(fù)雜網(wǎng)絡(luò)的開源信息處理
開源信息處理中采用的復(fù)雜網(wǎng)絡(luò)分析主要面向圖結(jié)構(gòu)的開源信息處理數(shù)據(jù)進(jìn)行處理,常用于傳播分析、用戶關(guān)聯(lián)關(guān)系挖掘等任務(wù)。復(fù)雜網(wǎng)絡(luò)分析通過(guò)模擬分析大規(guī)模圖結(jié)構(gòu)的復(fù)雜系統(tǒng),包括網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和系統(tǒng)動(dòng)力學(xué),在系統(tǒng)演化方面具有分析優(yōu)勢(shì)、較高的容錯(cuò)性和魯棒性。然而,復(fù)雜網(wǎng)絡(luò)分析對(duì)數(shù)據(jù)量的要求很高,計(jì)算復(fù)雜度高,可解釋性和可控制性較弱。

Berahmand 等人[16]提出了一種改進(jìn)歐幾里得隨機(jī)游走有效的方法進(jìn)行鏈路預(yù)測(cè)。該方法鼓勵(lì)隨機(jī)游走向具有更強(qiáng)影響力的節(jié)點(diǎn)移動(dòng),每一步都根據(jù)所在節(jié)點(diǎn)的影響力選擇下一個(gè)節(jié)點(diǎn)。該研究基于互信息度量,提出了節(jié)點(diǎn)之間的非對(duì)稱互惠影響的概念。實(shí)驗(yàn)結(jié)果表明,與其他鏈路預(yù)測(cè)方法相比,所提出的方法有更高的預(yù)測(cè)準(zhǔn)確性。

Li 等人[17]提出了一種基于自因果推斷中的混雜因素分析的無(wú)偏網(wǎng)絡(luò)混淆技術(shù),以解決推薦系統(tǒng)中非隨機(jī)缺失(Missing-Not-At-Random,MNAR)的問題。該方法通過(guò)控制社交網(wǎng)絡(luò)的混淆保留觀測(cè)到的曝光信息,同時(shí)可以通過(guò)平衡表示學(xué)習(xí)實(shí)現(xiàn)去混淆,以保留主要的用戶和物品特征,在推薦評(píng)級(jí)預(yù)測(cè)方面具有很好的泛化能力。

Naik 等人[18]面向社交網(wǎng)絡(luò)復(fù)雜社團(tuán)劃分的并行處理和共享/分布式技術(shù)應(yīng)用情況開展了綜述研究。該研究全面討論了在現(xiàn)有的社群檢測(cè)方法中應(yīng)用并行計(jì)算、共享內(nèi)存和分布式內(nèi)存的情況。

5 決策支撐
5.1 信息可視化
信息可視化通過(guò)將數(shù)據(jù)呈現(xiàn)為可交互的實(shí)體,幫助用戶更快捷、更直觀地理解信息,并在分析過(guò)程中更快捷地定位信息中的關(guān)鍵結(jié)構(gòu)和重點(diǎn)內(nèi)容。

Gonzalez-Granadillo 等人[19]使用Gephi 和D3.js兩種工具進(jìn)行開源信息處理的網(wǎng)絡(luò)可視化及界面交互。該研究將網(wǎng)絡(luò)中的節(jié)點(diǎn)和邊用圖結(jié)構(gòu)的形式在屏幕上呈現(xiàn),方便用戶直觀地了解文本或其他類型數(shù)據(jù)中的關(guān)系,并提供更為豐富的交互式可視化,比如通過(guò)鼠標(biāo)拖拽、縮放和篩選等手段,實(shí)現(xiàn)對(duì)可視化數(shù)據(jù)的自定義和過(guò)濾。Hoppa 等人[20]使用多種數(shù)據(jù)可視化技術(shù),如熱力圖、時(shí)間線、餅圖和條形圖等,以幫助用戶更好地理解和分析收集到的Twitter 開源信息處理數(shù)據(jù)。

5.2 報(bào)告生成及信息共享
信息報(bào)告生成有助于總結(jié)分析過(guò)程和結(jié)果,有利于信息的共享。信息共享的技術(shù)特點(diǎn)和效果通過(guò)提高安全性、可持續(xù)性和可擴(kuò)展性,使得安全生態(tài)系統(tǒng)的不同組織和應(yīng)用程序之間可以更好地協(xié)作和共享信息數(shù)據(jù),支持更有效的安全決策和風(fēng)險(xiǎn)管理。

Cerutti 等人[21]利用語(yǔ)言生成技術(shù)生成報(bào)告,并對(duì)分析過(guò)的數(shù)據(jù)進(jìn)行整理和歸納,該報(bào)告能夠清晰地反映事件的發(fā)展過(guò)程、現(xiàn)狀和未來(lái)預(yù)測(cè)。該技術(shù)的優(yōu)點(diǎn)在于將已有數(shù)據(jù)進(jìn)行人類語(yǔ)言轉(zhuǎn)化的同時(shí),能夠提高報(bào)告生成的效率和準(zhǔn)確性。生成的報(bào)告還可以提供交互式的方式,使用戶能夠根據(jù)自己的需求自由地選擇并瀏覽報(bào)告中的信息。

Schwarz 等人[22]根據(jù)抓取到的數(shù)據(jù)和分析的結(jié)果,自動(dòng)化地生成報(bào)告。報(bào)告生成的過(guò)程中可以完成報(bào)告格式的設(shè)定,包括報(bào)告樣式、字體大小等。同時(shí),也可以根據(jù)用戶的需求進(jìn)行調(diào)整,并且可以輸出多種格式的文件,如PDF、WORD、HTML 格式的文檔等。

Suryotrisongko 等人[23]將可解釋人工智能(Explainable Artificial Intelligence,XAI)引入到開源信息處理中,實(shí)現(xiàn)了威脅信息的報(bào)告生成及共享。該研究利用XAI 技術(shù)解釋機(jī)器學(xué)習(xí)算法的特征決策貢獻(xiàn),從而加強(qiáng)對(duì)惡意域名生成算法的識(shí)別、查找和分析。同時(shí),XAI 技術(shù)也可以讓分析人員更直觀地理解和分析算法的結(jié)果,提高了分析的準(zhǔn)確性和可靠性。對(duì)于報(bào)告生成,通過(guò)數(shù)據(jù)庫(kù)技術(shù)來(lái)存儲(chǔ)搜集到的威脅信息,并利用可視化技術(shù)將數(shù)據(jù)進(jìn)行匯總和組織。報(bào)告不僅可以反映出威脅信息的趨勢(shì)和異常點(diǎn),還可以展示詳細(xì)的信息內(nèi)容和歷史數(shù)據(jù),讓用戶能夠更好地理解和利用數(shù)據(jù)。

6 應(yīng)用系統(tǒng)
互聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代,世界各國(guó)不斷加大對(duì)開源信息處理的研究部署和系統(tǒng)開發(fā)的投入,形成的有關(guān)成果系統(tǒng)已紛紛得到應(yīng)用。

美國(guó)中央情報(bào)局、國(guó)家安全局等機(jī)構(gòu)支持研發(fā)并應(yīng)用了由Palantir 公司設(shè)計(jì)開發(fā)的Gotham 開源信息處理分析系統(tǒng)[24]。該系統(tǒng)的特點(diǎn)是能夠處理大量的多源異構(gòu)信息數(shù)據(jù),進(jìn)行數(shù)據(jù)的全方位整合與挖掘,并提供強(qiáng)大的數(shù)據(jù)可視化、模擬分析、信息查詢和預(yù)測(cè)建模等功能。在美國(guó)政府和軍隊(duì)部門方面,Palantir Gotham 系統(tǒng)被廣泛使用。在阿富汗和伊拉克戰(zhàn)爭(zhēng)期間,該系統(tǒng)被用于收集、整理和分析情報(bào)信息,發(fā)現(xiàn)恐怖組織的嫌疑人并進(jìn)行定位。

I2-Analyst’s Notebook(i2AN)[25]是美國(guó)IBM公司開發(fā)的一款面向情報(bào)分析領(lǐng)域的數(shù)據(jù)分析軟件,主要用于互聯(lián)網(wǎng)開源犯罪情報(bào)分析、反恐調(diào)查、金融欺詐案件分析、情報(bào)綜合分析等。i2AN 擁有多種分析功能,包括人物、地點(diǎn)、組織關(guān)系的可視化分析、時(shí)間線分析等,能夠挖掘出隱藏在數(shù)據(jù)中的潛在線索,理清有關(guān)事件的脈絡(luò),幫助用戶更加快速準(zhǔn)確地做出判斷,并可將所提供的信息、證據(jù)和結(jié)論生動(dòng)展示給申請(qǐng)人和決策者。i2AN 的用戶包括了全球許多機(jī)構(gòu)和部門,特別是在美國(guó)政府和軍隊(duì)部門方面,包括聯(lián)邦調(diào)查局、中央情報(bào)局、國(guó)土安全部等部門都在使用該軟件。

Rosette[26]是美國(guó)Babel Street 公司的開源信息處理產(chǎn)品,旨在幫助分析人員從多種非結(jié)構(gòu)化數(shù)據(jù)源中獲取信息,并進(jìn)行相關(guān)的分析和預(yù)測(cè),包括社交媒體、博客、新聞報(bào)道、圖片和音頻等。與傳統(tǒng)的信息分析方法不同,Rosette 采用了自然語(yǔ)言處理、機(jī)器學(xué)習(xí)和人工智能等前沿技術(shù)來(lái)輔助分析人員進(jìn)行信息分析。它具有多種語(yǔ)言支持、實(shí)時(shí)數(shù)據(jù)收集和處理、可視化分析和用戶定制等特點(diǎn)。Babel X在美國(guó)和其他國(guó)家的軍隊(duì)和情報(bào)機(jī)構(gòu)中得到了廣泛的應(yīng)用。

此外,現(xiàn)在已有很多開源信息處理分析工具供世界范圍內(nèi)的研究者使用。SpiderFoot[27]是一款開源的自動(dòng)化信息收集工具,可幫助用戶收集數(shù)據(jù)、分析數(shù)據(jù)、生成報(bào)告及進(jìn)行關(guān)聯(lián)分析,可用于情報(bào)分析、網(wǎng)絡(luò)偵察、趨勢(shì)分析和風(fēng)險(xiǎn)評(píng)估等。theHarvester[28]是一款使用Python 編程語(yǔ)言開發(fā)的命令行工具,可幫助安全研究人員、滲透測(cè)試人員、信息安全企業(yè)、國(guó)家安全機(jī)構(gòu)等用戶,從互聯(lián)網(wǎng)上收集各種類型的信息,如電子郵件、域名、虛擬主機(jī)、URL、IP 地址等。Metagoofil[29]是一款開源的可定制搜索引擎,支持從Google、Bing 和Yahoo 等搜索引擎中獲取有關(guān)目標(biāo)的信息,旨在幫助安全研究人員、滲透測(cè)試人員和安全顧問等用戶,從互聯(lián)網(wǎng)上搜索與目標(biāo)公司或組織相關(guān)的文件,如文檔、圖片、代碼和其他文件。Mitaka[30]可以將多源數(shù)據(jù)聚合,自動(dòng)檢測(cè)并刪除無(wú)用數(shù)據(jù),并提供各種圖表和視圖,幫助用戶更好地理解數(shù)據(jù)和信息。

7 現(xiàn)有挑戰(zhàn)
在世界各國(guó)和學(xué)術(shù)界的共同推動(dòng)下,開源信息處理技術(shù)已取得長(zhǎng)足進(jìn)步,但仍面臨以下3 個(gè)方面的挑戰(zhàn)。

一是數(shù)據(jù)質(zhì)量方面的挑戰(zhàn)。數(shù)據(jù)是一切開源信息處理分析的基石,而開源信息處理通常面對(duì)巨大的數(shù)據(jù)量,且不同源的數(shù)據(jù)結(jié)構(gòu)不統(tǒng)一,信息缺損的情況頻繁發(fā)生,數(shù)據(jù)可靠性評(píng)估過(guò)于依賴專業(yè)知識(shí),提高了人力、時(shí)間和空間開銷。

二是分析算法方面的挑戰(zhàn)。如今,開源信息處理常面臨跨域目標(biāo)分析需求,如何構(gòu)建合理的目標(biāo)行為表征,將跨域多源信息與目標(biāo)進(jìn)行有效關(guān)聯(lián),實(shí)現(xiàn)對(duì)目標(biāo)的全面分析,是如今開源信息處理研究面臨的關(guān)鍵技術(shù)挑戰(zhàn)。

三是法律倫理方面的挑戰(zhàn)。開源信息處理使用開源數(shù)據(jù)時(shí)須遵守相應(yīng)的倫理規(guī)范和法律法規(guī),尤其是在處理敏感領(lǐng)域及個(gè)人隱私方面的信息時(shí),如何從技術(shù)上實(shí)現(xiàn)敏感及個(gè)人信息保護(hù),防范化解敏感信息泄露風(fēng)險(xiǎn),是如今開源信息處理分析面臨的挑戰(zhàn)之一。

8 未來(lái)展望
未來(lái)開源信息處理的研究大致有三個(gè)方向。一是先進(jìn)技術(shù)在開源信息處理中的應(yīng)用,尤其是以深度學(xué)習(xí)為代表的人工智能技術(shù),其在開源信息處理領(lǐng)域的應(yīng)用將會(huì)有效支撐開源數(shù)據(jù)的快速處理和信息的精準(zhǔn)分析。二是跨學(xué)科研究。由于開源信息處理涉及很多不同的領(lǐng)域,如商業(yè)、政治、軍事、國(guó)際關(guān)系等,如何將領(lǐng)域知識(shí)與開源信息處理相結(jié)合,在實(shí)際領(lǐng)域應(yīng)用中解決實(shí)際的信息分析問題,將成為開源信息處理未來(lái)的研究熱點(diǎn)。三是決策支撐和信息檢索優(yōu)化。如何將開源信息處理數(shù)據(jù)通過(guò)信息可視化的方式呈現(xiàn)出來(lái),生成信息分析報(bào)告并有效地傳遞到用戶手中,提供高效的信息檢索方式,將是未來(lái)開源信息處理的研究方向之一。

9 結(jié)語(yǔ)
開源信息處理具有數(shù)據(jù)獲取簡(jiǎn)易、信息覆蓋面廣等優(yōu)勢(shì),現(xiàn)已成為世界各國(guó)研究的熱點(diǎn),相關(guān)成果已應(yīng)用于社會(huì)各領(lǐng)域并發(fā)揮著重要作用。本文對(duì)當(dāng)前國(guó)外開源信息處理研究的進(jìn)展進(jìn)行了綜述。在技術(shù)方面,本綜述覆蓋了數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、信息分析和決策支撐4 個(gè)開源信息處理關(guān)鍵步驟的有關(guān)技術(shù),其中人工智能技術(shù)在開源信息處理中的應(yīng)用最為廣泛。在應(yīng)用系統(tǒng)方面,本綜述對(duì)國(guó)外流行的開源信息處理系統(tǒng)進(jìn)行了介紹,包括商業(yè)系統(tǒng)和開源系統(tǒng)。在現(xiàn)有挑戰(zhàn)方面,數(shù)據(jù)質(zhì)量、算法分析和法律倫理是現(xiàn)有研究面臨的主要挑戰(zhàn),而先進(jìn)技術(shù)的應(yīng)用、跨學(xué)科研究、決策支撐和信息檢索優(yōu)化將是未來(lái)開源信息處理的研究熱點(diǎn)。

 

1作者:汪明達(dá) 劉世鈺 聶大成 楊慧 張翔 邱鴻杰 來(lái)源:通信技術(shù) 編輯:顧北

 

聲明:①凡本網(wǎng)注明“來(lái)源:通信界”的內(nèi)容,版權(quán)均屬于通信界,未經(jīng)允許禁止轉(zhuǎn)載、摘編,違者必究。經(jīng)授權(quán)可轉(zhuǎn)載,須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息并注明“來(lái)源:通信界”。②凡本網(wǎng)注明“來(lái)源:XXX(非通信界)”的內(nèi)容,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多行業(yè)信息,僅代表作者本人觀點(diǎn),與本網(wǎng)無(wú)關(guān)。本網(wǎng)對(duì)文中陳述、觀點(diǎn)判斷保持中立,不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考,并請(qǐng)自行承擔(dān)全部責(zé)任。③如因內(nèi)容涉及版權(quán)和其它問題,請(qǐng)自發(fā)布之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除內(nèi)容。 
熱點(diǎn)動(dòng)態(tài)
普通新聞 人工智能如何為新質(zhì)生產(chǎn)力注入新動(dòng)力
普通新聞 OpenAI首席技術(shù)官:不確定Sora的訓(xùn)練數(shù)據(jù)來(lái)自哪里
普通新聞 英偉達(dá)推出6G研究云平臺(tái),以AI推動(dòng)無(wú)線通信的發(fā)展
普通新聞 蘋果新申請(qǐng)屏幕技術(shù)專利:加入百葉窗 全方位控制散光
普通新聞 智能手機(jī)加速邁進(jìn)AI時(shí)代
普通新聞 華為的AI戰(zhàn)略地圖上,才不是只有大模型
普通新聞 我國(guó)工業(yè)互聯(lián)網(wǎng)已覆蓋全部工業(yè)大類
普通新聞 三大運(yùn)營(yíng)商2月運(yùn)營(yíng)數(shù)據(jù)顯示出整體向好趨勢(shì)
普通新聞 美國(guó)電信為Rockwell實(shí)驗(yàn)室增加私有5G網(wǎng)絡(luò)功能
普通新聞 中央企業(yè)改革深化提升行動(dòng)聯(lián)建互助第九組第一次經(jīng)驗(yàn)交流會(huì)議成功召
普通新聞 英特爾®極限大師賽(Intel® Extreme Masters)將于2024年4
普通新聞 馬斯克腦機(jī)接口實(shí)驗(yàn)進(jìn)展:患者能用意念下棋玩游戲了
普通新聞 AI商務(wù)速記:人工智能+速記,傳統(tǒng)通信新體驗(yàn)
普通新聞 垂直行業(yè)持續(xù)發(fā)力,亞信科技2023年度整體業(yè)務(wù)穩(wěn)步增長(zhǎng)
普通新聞 中信科智聯(lián)精彩亮相重慶汽車行業(yè)第35屆年會(huì)
普通新聞 “2+6+2”施工圖助力新形勢(shì)下國(guó)有企業(yè)落實(shí)擴(kuò)大內(nèi)需戰(zhàn)略
普通新聞 美國(guó)上調(diào)“寬帶”定義:下行從 25Mbps 提高到 100Mbps,上行從 3Mb
普通新聞 華為陳幫華:抓住全光網(wǎng)“三進(jìn)三退”新機(jī)遇,共建行業(yè)數(shù)智新未來(lái)
普通新聞 3·15曝光主板機(jī)黑灰產(chǎn)業(yè)鏈:網(wǎng)絡(luò)水軍利用主板機(jī)隨意更改IP逃避監(jiān)管
普通新聞 315揭秘婚戀平臺(tái)內(nèi)幕:話術(shù)培訓(xùn)揭露虛假招數(shù)
通信視界
高通CEO安蒙:生成式AI走向終端,將帶來(lái)最大智
普通對(duì)話 高通CEO安蒙:生成式AI走向終端,將帶來(lái)最大
普通對(duì)話 李彥宏:不斷地重復(fù)開發(fā)基礎(chǔ)大模型是對(duì)社會(huì)
普通對(duì)話 中興通訊徐子陽(yáng):強(qiáng)基慧智,共建數(shù)智熱帶雨
普通對(duì)話 鄔賀銓:移動(dòng)通信開啟5G-A新周期,云網(wǎng)融合
普通對(duì)話 華為輪值董事長(zhǎng)胡厚崑:我們正努力將5G-A帶
普通對(duì)話 高通中國(guó)區(qū)董事長(zhǎng)孟樸:5G與AI結(jié)合,助力提
普通對(duì)話 雷軍發(fā)布小米年度演講:堅(jiān)持做高端,擁抱大
普通對(duì)話 聞庫(kù):算網(wǎng)融合正值挑戰(zhàn)與機(jī)遇并存的關(guān)鍵階
普通對(duì)話 工信部副部長(zhǎng)張?jiān)泼鳎何覈?guó)算力總規(guī)模已居世
普通對(duì)話 鄔賀銓:我國(guó)互聯(lián)網(wǎng)平臺(tái)企業(yè)發(fā)展的新一輪機(jī)
通信前瞻
亨通光電實(shí)踐數(shù)字化工廠,“5G+光纖”助力新一
普通對(duì)話 亨通光電實(shí)踐數(shù)字化工廠,“5G+光纖”助力新
普通對(duì)話 中科院錢德沛:計(jì)算與網(wǎng)絡(luò)基礎(chǔ)設(shè)施的全面部
普通對(duì)話 工信部趙志國(guó):我國(guó)算力總規(guī)模居全球第二 保
普通對(duì)話 鄔賀銓院士解讀ChatGPT等數(shù)字技術(shù)熱點(diǎn)
普通對(duì)話 我國(guó)北方海區(qū)運(yùn)用北斗三號(hào)短報(bào)文通信服務(wù)開
普通對(duì)話 華為云Stack智能進(jìn)化,三大舉措賦能政企深度
普通對(duì)話 孟晚舟:“三大聚力”迎接數(shù)字化、智能化、
普通對(duì)話 物聯(lián)網(wǎng)設(shè)備在智能工作場(chǎng)所技術(shù)中的作用
普通對(duì)話 軟銀研發(fā)出以無(wú)人機(jī)探測(cè)災(zāi)害被埋者手機(jī)信號(hào)
普通對(duì)話 AI材料可自我學(xué)習(xí)并形成“肌肉記憶”
普通對(duì)話 北斗三號(hào)衛(wèi)星低能離子能譜儀載荷研制成功
普通對(duì)話 為什么Wi-Fi6將成為未來(lái)物聯(lián)網(wǎng)的關(guān)鍵?
普通對(duì)話 馬斯克出現(xiàn)在推特總部 收購(gòu)應(yīng)該沒有懸念了
普通對(duì)話 臺(tái)積電澄清:未強(qiáng)迫員工休假或有任何無(wú)薪假
普通對(duì)話 新一代載人運(yùn)載火箭發(fā)動(dòng)機(jī)研制獲重大突破
推薦閱讀
Copyright @ Cntxj.Net All Right Reserved 通信界 版權(quán)所有
未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像