您所在的位置: 首頁(yè) >
新聞資訊 >
技術(shù)前沿 >
針對(duì)隱匿高危勒索病毒攻擊的檢測(cè)
摘 要:近年來(lái),勒索病毒攻擊事件頻發(fā),勒索病毒隱匿性逐漸增強(qiáng),為勒索病毒檢測(cè)及防御帶來(lái)了新的挑戰(zhàn)。通過(guò)對(duì)勒索病毒的快速檢測(cè)與家族分類(lèi),可以更有效地保護(hù)企業(yè)信息安全。從電力系統(tǒng)的實(shí)際情況出發(fā),構(gòu)建了勒索病毒數(shù)據(jù)集,并采用動(dòng)態(tài)分析的方法,利用沙盒獲得各家族勒索病毒樣本的行為信息,從動(dòng)態(tài)行為分析報(bào)告中提取勒索病毒行為信息;再利用決策樹(shù)、隨機(jī)森林算法、卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練了勒索病毒檢測(cè)器和勒索病毒家族分類(lèi)器。測(cè)試結(jié)果表明,勒索病毒檢測(cè)器檢測(cè)準(zhǔn)確率達(dá)到了 97%,勒索病毒家族分類(lèi)器分類(lèi)準(zhǔn)確率達(dá)到了 94%。
內(nèi)容目錄:
1 背景介紹
1.1 隱匿高危勒索病毒
1.2 Cuckoo 沙盒
1.3 機(jī)器學(xué)習(xí)算法
2 動(dòng)態(tài)分析與行為特征提取
2.1 實(shí)驗(yàn)數(shù)據(jù)
2.2 Cuckoo 動(dòng)態(tài)行為分析
2.3 行為特征提取
3 勒索病毒檢測(cè)器訓(xùn)練
3.1 API 函數(shù)特征選擇
3.2 API 函數(shù)特征向量預(yù)訓(xùn)練
3.3 分類(lèi)器測(cè)試效果
3.3.1 決策樹(shù)模型
3.3.2 隨機(jī)森林算法
3.3.3 卷積神經(jīng)網(wǎng)絡(luò)模型
4 結(jié) 語(yǔ)
近年來(lái),隨著勒索病毒的部分技術(shù)細(xì)節(jié)的公開(kāi),以及在暗網(wǎng)中代碼交易的出現(xiàn),勒索病毒的制作和利用勒索病毒進(jìn)行犯罪的成本不斷降低,勒索病毒攻擊方式也更加簡(jiǎn)單,但其贖金收益依然非??捎^。隨著網(wǎng)絡(luò)犯罪的組織化、規(guī)?;[匿行為攻擊的復(fù)雜化和商業(yè)化,目前,隱匿高危勒索病毒呈蔓延之勢(shì)。已知的勒索病毒家族利用多態(tài)、代碼混淆等手段,可以快速產(chǎn)生大量新版本,使得勒索病毒數(shù)量激增。
隨著網(wǎng)絡(luò)規(guī)模的擴(kuò)大和信息化水平的提高,電力企業(yè)對(duì)網(wǎng)絡(luò)的依賴(lài)程度不斷增強(qiáng),也在不知不覺(jué)中受到隱匿高危行為的威脅。電力企業(yè)的敏感數(shù)據(jù)也容易受到勒索病毒的關(guān)注,這些風(fēng)險(xiǎn)影響著電力企業(yè)網(wǎng)絡(luò)安全和穩(wěn)定。為了保證計(jì)算機(jī)網(wǎng)絡(luò)和計(jì)算機(jī)應(yīng)用系統(tǒng)的正常運(yùn)行,電力企業(yè)需要對(duì)隱匿高危勒索病毒的攻擊作出應(yīng)對(duì)。
在過(guò)去幾年中,已經(jīng)有許多針對(duì)勒索病毒的防御策略,每種策略都實(shí)施了幾種保護(hù)和檢測(cè)策略,例如,基于欺騙的保護(hù)方法(deception-basedprotection)、控制安全隨機(jī)數(shù)發(fā)生器(controlling secure random number generator)、應(yīng)用程序的行為分析(behavioral analysis of applications)、密鑰托管、網(wǎng)絡(luò)級(jí)防御,以及利用機(jī)器學(xué)習(xí)算法的勒索軟件程序檢測(cè)。
按照是否運(yùn)行軟件樣本,勒索病毒的檢測(cè)可以分為靜態(tài)檢測(cè)與動(dòng)態(tài)檢測(cè)兩種。其中靜態(tài)惡意軟件特征包括字節(jié)序列 N-grams、操作碼和 PE 報(bào)頭字段等。隨著開(kāi)發(fā)技術(shù)的發(fā)展,惡意軟件的作者往往使用壓縮、加密、加殼等方法阻止靜態(tài)特征的提取,但許多反病毒技術(shù)和工具已經(jīng)可以有效實(shí)現(xiàn)程序的解包。Wang 等人針對(duì)惡意軟件通過(guò)加殼逃脫檢測(cè)的問(wèn)題,提出了一種加殼檢測(cè)框架以檢測(cè)可執(zhí)行文件是否加殼,以提升惡意代碼檢測(cè)效果。在動(dòng)態(tài)檢測(cè)中,程序運(yùn)行時(shí)調(diào)用的 API 的序列經(jīng)常被視作為主要特征,這是因?yàn)閻阂廛浖榱藴p小代碼的體積,往往通過(guò)調(diào)用 API 函數(shù)來(lái)實(shí)現(xiàn)文件、注冊(cè)表、網(wǎng)絡(luò)、進(jìn)程等操作行為。
現(xiàn)有的勒索病毒防御方法中,傳統(tǒng)的分類(lèi)算法難以及時(shí)響應(yīng)零日漏洞勒索病毒,而人工逆向分析的方法使得成本顯著提高,但是效果提升不明顯。隨著機(jī)器學(xué)習(xí)等算法的發(fā)展,一些啟發(fā)式檢測(cè)工具不斷出現(xiàn),但是這些工具普遍存在局限性和滯后性,并且不利于迭代。與此同時(shí),勒索病毒的開(kāi)發(fā)也在不斷發(fā)展,加殼、代碼混淆、反沙盒、內(nèi)存動(dòng)態(tài)映射等策略的使用也為勒索病毒的防御帶來(lái)了很大難題。
本文從 Virus Total 等開(kāi)源網(wǎng)站上收集了勒索病毒等惡意軟件樣本,利用動(dòng)態(tài)分析方法提取軟件的應(yīng)用程序編程接口(Application Programming Interface,API)函數(shù)調(diào)用特征,在此基礎(chǔ)上訓(xùn)練了勒索病毒檢測(cè)器和勒索病毒家族分類(lèi)器。
1 背景介紹
1.1 隱匿高危勒索病毒
勒索病毒,或稱(chēng)勒索軟件,是一種特殊的惡意軟件,其主要通過(guò)鎖定受害者主機(jī)的操作系統(tǒng)或者使用密碼學(xué)加密受害者主機(jī)上的某些文件的方式,使得受害者無(wú)法獲得對(duì)其主機(jī)或主機(jī)上的文件的訪問(wèn)控制權(quán)限,并威脅受害者向指定的賬戶支付贖金以解鎖文件。為了防止在感染受害者機(jī)器的初期就被察覺(jué),隱匿勒索病毒往往在進(jìn)行加密等核心操作前先模仿正常軟件活動(dòng)一段時(shí)間。
隨著各種新型網(wǎng)絡(luò)攻擊的出現(xiàn),企業(yè)信息安全形勢(shì)變得不容樂(lè)觀,特別是銀行、電力、大型國(guó)企等機(jī)構(gòu),正在成為受攻擊的主要對(duì)象。當(dāng)前,隱匿高危行為是企業(yè)面臨的最嚴(yán)重的威脅之一,其中,高級(jí)持續(xù)性威脅(Advanced Persistent Threat,APT)是最主要的表現(xiàn)手段之一。所謂 APT 攻擊就是針對(duì)特定的目標(biāo),進(jìn)行長(zhǎng)期持續(xù)性的網(wǎng)絡(luò)攻擊的攻擊方式,其對(duì)企業(yè)造成了非常嚴(yán)重的困擾,而結(jié)合了 APT 的勒索病毒攻擊則更是為企業(yè)的數(shù)據(jù)安全帶來(lái)了極大的威脅。
對(duì)抗隱匿高危勒索病毒攻擊,保護(hù)用戶數(shù)據(jù)的關(guān)鍵措施在于預(yù)防,即在勒索軟件攻入受害者主機(jī)但尚未造成實(shí)質(zhì)性破壞前及時(shí)檢測(cè)并攔截攻擊。目前,針對(duì)勒索病毒的防護(hù)主要采用分層次防護(hù)措施,即提倡同時(shí)部署多種獨(dú)立、領(lǐng)域互相重疊的安全措施以創(chuàng)建穩(wěn)固的安全防護(hù)架構(gòu),并且各安全層被設(shè)計(jì)為和其他安全層互補(bǔ),使得威脅不易穿透重重防護(hù)。
勒索病毒的家族分類(lèi)指的是根據(jù)勒索病毒產(chǎn)生的變種來(lái)源對(duì)勒索病毒進(jìn)行分類(lèi)。同屬一個(gè)家族的勒索病毒往往會(huì)共享一些通用模塊,因此會(huì)有相似的勒索行為。近年來(lái),家族內(nèi)的勒索病毒的技術(shù)不斷更新迭代,可以更好地逃避現(xiàn)有工具的檢測(cè)。此外,可以對(duì)勒索病毒的結(jié)構(gòu)進(jìn)行轉(zhuǎn)換,從而迅速產(chǎn)生大量變種。
此外,近年來(lái)勒索軟件即服務(wù)(Ransomware as a Service,RaaS)的商業(yè)模型的規(guī)?;l(fā)展使得勒索病毒家族中的病毒變種出現(xiàn)得更加頻繁,Cerber家族的出現(xiàn)和發(fā)展就是其中的典型。據(jù)報(bào)道,惡意代碼工廠軟件生成使用代碼混淆技術(shù)且擁有獨(dú)特Hash 的惡意代碼變種所需時(shí)間僅僅只有 15 s,而這些惡意軟件的變種可以繞過(guò)傳統(tǒng)的靜態(tài)簽名匹配的惡意軟件檢測(cè)技術(shù)的檢測(cè)。
1.2 Cuckoo 沙盒
Cuckoo 沙盒是一個(gè)開(kāi)源的惡意軟件分析工具,用戶可以提交待分析樣本或待檢測(cè)統(tǒng)一資源定位符(Uniform Resource Locator,URL),快速獲得它的行為分析報(bào)告。Cuckoo 沙盒的主要組件可以分為主機(jī)和客戶機(jī)兩部分。其中主機(jī)是沙盒的核心控制部分,負(fù)責(zé)樣本的傳入、分析報(bào)告的生成、客戶機(jī)的啟動(dòng)和恢復(fù)等,而客戶機(jī)可以有一個(gè)或多個(gè),可以是在 VirtualBox 等軟件上配置的虛擬機(jī),也可以是真實(shí)的物理機(jī)器。
Cuckoo 沙盒記錄的待檢測(cè)樣本的行為信息主要有軟件執(zhí)行期間調(diào)用的所有進(jìn)程,創(chuàng)建、刪除、修改的文件及其信息,網(wǎng)絡(luò)連接與流量信息,客戶機(jī)運(yùn)行期間的屏幕截圖,軟件運(yùn)行期間的內(nèi)存轉(zhuǎn)儲(chǔ)記錄。這些信息由客戶機(jī)內(nèi)的監(jiān)控腳本(agent.py)獲取,并將所有信息發(fā)回主機(jī),樣本運(yùn)行完成后,再由主機(jī)生成名為 report.json 的行為分析日志。
1.3 機(jī)器學(xué)習(xí)算法
決策樹(shù)算法的雛形最早由 Hunt 等人 在 1966年提出。該算法對(duì)整個(gè)決策空間進(jìn)行劃分,認(rèn)為位于同一塊空間內(nèi)的樣本就屬于同一類(lèi)別。決策樹(shù)的結(jié)構(gòu)是一種樹(shù)形的有向圖結(jié)構(gòu),分為決策結(jié)點(diǎn)與葉子結(jié)點(diǎn)。在決策結(jié)點(diǎn),決策樹(shù)會(huì)根據(jù)樣本特征做出決策;當(dāng)?shù)竭_(dá)葉子結(jié)點(diǎn)時(shí),根據(jù)葉子結(jié)點(diǎn)被劃分的空間就完成了對(duì)樣本的分類(lèi)。
隨機(jī)森林 是一種集成的、基本單元是決策樹(shù)的機(jī)器學(xué)習(xí)算法,使用了 bagging 方法集成學(xué)習(xí)。隨機(jī)森林將訓(xùn)練集分為多個(gè)子集,每個(gè)子集獨(dú)立訓(xùn)練一個(gè)決策樹(shù)模型。在模型預(yù)測(cè)時(shí),隨機(jī)森林會(huì)收集每個(gè)決策樹(shù)的模型結(jié)果,依據(jù)算法進(jìn)行整合,得到最終的預(yù)測(cè)結(jié)果。
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN) 是 用 卷 積 核 代 替 參 數(shù) 的 多 層 感 知 器(Multilayer Perceptron,MLP)的一種變體,屬于一種前饋神經(jīng)網(wǎng)絡(luò),其利用卷積核構(gòu)建學(xué)習(xí)模型。卷積神經(jīng)網(wǎng)絡(luò)的模型構(gòu)成通常有多個(gè)卷積層、池化層和全連接層。
在自然語(yǔ)言處理方面,Kim提出使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)句子的情感進(jìn)行分類(lèi),如圖 1 所示,其模型由卷積層、池化層和全連接層構(gòu)成。
圖 1 API 序列分類(lèi)模型架構(gòu)
用k 表示 API 序列中第 i 個(gè) API 函數(shù)的 k維特征向量,API 序列的長(zhǎng)度為 n,則整個(gè) API 序列特征表示就可以用 n 個(gè) API 函數(shù)的特征向量拼接得到,即:
同樣的,可以用表示從到的特征向量的拼接。對(duì)拼接后得到的進(jìn)行矩陣卷積操作,卷積核設(shè)置為,即 1 次對(duì) API 函數(shù)調(diào)用序列中的 h 個(gè)連續(xù) API 函數(shù)進(jìn)行特征提取。如對(duì)卷積得到一個(gè)新特征該過(guò)程可以表示為:
式中:b 為偏移參數(shù);f 為非線性函數(shù)。對(duì) 1 個(gè)長(zhǎng)度為 n 的 API 函數(shù)調(diào)用序列中間每一個(gè)大小為 h 的子序列進(jìn)行卷積操作,就可以得到整個(gè)序列的特征映射為:
對(duì)進(jìn)行一次池化操作(max-overtime pooling),即選擇特征映射中最大值作為卷積核 w卷積后的對(duì)應(yīng)特征。進(jìn)行池化操作的原因一方面是減少特征數(shù)量,保留最典型的特征;另一方面是API 函數(shù)調(diào)用序列長(zhǎng)度各不相同,池化后避免了由于長(zhǎng)度差異導(dǎo)致的缺失特征值對(duì)模型的影響。
整個(gè)模型的卷積層有多個(gè)卷積核,每個(gè)卷積核經(jīng)過(guò)卷積、池化后都可以得到一個(gè)特征。將這些特征一起傳入全連接層,就可以輸出一個(gè)類(lèi)別的概率分布,其中概率最大的類(lèi)別就作為輸入 API 函數(shù)序列的類(lèi)別。
2 動(dòng)態(tài)分析與行為特征提取
在本節(jié)中,將介紹本文勒索病毒數(shù)據(jù)集的構(gòu)建與軟件特征提取的過(guò)程和結(jié)果。
2.1 實(shí)驗(yàn)數(shù)據(jù)
本文研究的軟件樣本類(lèi)別是 Windows 平臺(tái)上的可執(zhí)行軟件樣本(exe),其可以分為惡意軟件樣本和良性樣本兩大類(lèi)。在惡意軟件樣本的選擇上結(jié)合了電力系統(tǒng)的實(shí)際情況,包含了隱匿高危勒索病毒樣本。課題使用的惡意軟件樣本主要來(lái)自 Virus Total 等惡意樣本開(kāi)源網(wǎng)站。課題使用的良性軟件樣本來(lái)自 360 應(yīng)用商店,樣本均經(jīng)過(guò) 360 惡意軟件檢測(cè)確認(rèn)。本課題總共收集到 1 000 個(gè)惡意軟件樣本(不包括勒索病毒家族樣本)、100 個(gè)良性軟件樣本。
由于目前尚沒(méi)有根據(jù)勒索病毒家族分類(lèi)的公開(kāi)的數(shù)據(jù)集,因此勒索病毒樣本及其所屬家族只能通過(guò)其在 Virus Total、VirusShare 等開(kāi)源網(wǎng)站上的分析信息判斷,將反病毒廠商檢測(cè)引擎給出的占比最大的家族定為該病毒樣本的所屬家族。最終獲得的勒索病毒家族名稱(chēng)與樣本數(shù)量分布如表 1 所示。
表 1 數(shù)據(jù)集勒索病毒家族構(gòu)成
2.2 Cuckoo 動(dòng)態(tài)行為分析
本文搭建的 Cuckoo Sandbox 環(huán)境中主機(jī)使用的是 Ubuntu 18.04.1 LTS 操作系統(tǒng),在主機(jī)上安裝了Cuckoo Sandbox 2.0.7、VirtualBox 5.2 等軟件。客戶機(jī)使用的操作系統(tǒng)是 Windows 7 專(zhuān)業(yè)版并以虛擬機(jī)的形式通過(guò) VirtualBox 5.2 安裝在主機(jī)上。
為了便于主機(jī)對(duì)客戶機(jī)的控制和軟件樣本的運(yùn)行,客戶機(jī)關(guān)閉了防火墻、系統(tǒng)自動(dòng)更新、用戶賬戶控制,并安裝了 Python、pip、pillow 等軟件用于運(yùn)行 agent.py 腳本。
2.3 行為特征提取
軟件在與操作系統(tǒng)進(jìn)行交互時(shí)通常使用 API 函數(shù)。為了使文件大小更小、更加隱蔽、傳播更迅速,勒索病毒往往利用系統(tǒng) API 函數(shù)實(shí)現(xiàn)文件管理、網(wǎng)絡(luò)連接、注冊(cè)表訪問(wèn)等行為。本小節(jié)在 Cuckoo Sandbox 提供的分析報(bào)告的基礎(chǔ)上,提取了勒索病毒等軟件樣本的 API 調(diào)用信息,并在提取的行為信息中分析了勒索病毒的部分典型行為。
從軟件行為分析報(bào)告中提取 API 函數(shù)調(diào)用行為信息的流程如圖 2 所示。提取的行為報(bào)告位置是 [“behavior”][“process”] 字段,該字段記錄軟件運(yùn)行期間每個(gè)進(jìn)程的 API 函數(shù)調(diào)用情況。
圖 2 API 函數(shù)調(diào)用信息提取流程
3 勒索病毒檢測(cè)器訓(xùn)練
本節(jié)在 2.3 節(jié)特征提取的基礎(chǔ)上,訓(xùn)練了勒索病毒檢測(cè)器與家族分類(lèi)器。
3.1 API 函數(shù)特征選擇
本節(jié)中,訓(xùn)練勒索病毒家族分類(lèi)器使用的特征是軟件樣本調(diào)用的 API 函數(shù)名稱(chēng)及相應(yīng)的頻率。如果將全部出現(xiàn)過(guò)的 API 函數(shù)名稱(chēng)作為特征直接進(jìn)行分類(lèi)器的訓(xùn)練,不僅會(huì)增加模型訓(xùn)練的時(shí)間消耗,還會(huì)因?yàn)闊o(wú)效或者干擾特征的保留使模型的分類(lèi)效果下降。
利用 2.3 節(jié)獲得的軟件 API 函數(shù)調(diào)用頻率信息,并利用 R 語(yǔ)言的 Boruta 算法包對(duì) API 函數(shù)進(jìn)行特征選擇。由于分類(lèi)任務(wù)分為勒索病毒檢測(cè)的二分類(lèi)和勒索病毒家族分類(lèi)的多分類(lèi),兩種分類(lèi)數(shù)據(jù)集不同、數(shù)據(jù)標(biāo)簽不同,因此需要分別進(jìn)行特征篩選,保留與各自分類(lèi)任務(wù)相關(guān)的 API 函數(shù)特征。
3.2 API 函數(shù)特征向量預(yù)訓(xùn)練
第 2 節(jié)獲得的 API 函數(shù)的調(diào)用序列可以看作軟件的“句子”的文本分析和分類(lèi),但是序列長(zhǎng)度基本在 3 萬(wàn)以上,這給后續(xù)的分析帶來(lái)了極大的數(shù)據(jù)讀取和存儲(chǔ)壓力,也會(huì)影響卷積神經(jīng)網(wǎng)絡(luò)分類(lèi)勒索病毒的效果,因此需要對(duì) API 序列進(jìn)行去重處理。對(duì)軟件樣本的 API 函數(shù)調(diào)用序列進(jìn)行去重的算法結(jié)合軟件的 API 函數(shù)調(diào)用的現(xiàn)實(shí)情況,設(shè)置重復(fù)序列的長(zhǎng)度范圍為 ,遍歷一遍序列后刪去所有重復(fù)子序列。
利用全部樣本的 API 函數(shù)調(diào)用序列構(gòu)成了一個(gè)文檔輸入 Word2vec 模型,獲得 API 函數(shù)的特征表示。特征向量預(yù)訓(xùn)練使用了 Skip-gram 模型結(jié)構(gòu),設(shè)置API 函數(shù)的特征向量的維數(shù)為 50 維,迭代次數(shù)為10 輪,模型訓(xùn)練結(jié)束后將特征向量保存為“APIvec.bin”文件,用于后續(xù)的分類(lèi)器訓(xùn)練。
3.3 分類(lèi)器測(cè)試效果
在本節(jié)中,分別使用傳統(tǒng)的機(jī)器學(xué)習(xí)算法決策樹(shù)、隨機(jī)森林模型和卷積神經(jīng)網(wǎng)絡(luò)的方法訓(xùn)練勒索病毒的檢測(cè)器與家族分類(lèi)器。
3.3.1 決策樹(shù)模型
決策樹(shù)模型設(shè)定勒索病毒檢測(cè)與分類(lèi)的訓(xùn)練集與測(cè)試集的劃分比例為 9 ∶ 1。使用決策樹(shù)算法訓(xùn)練勒索病毒檢測(cè)器與勒索病毒分類(lèi)器,其中勒索病毒檢測(cè)器的模型測(cè)試混淆矩陣如圖 3 所示,勒索病毒檢測(cè)器的準(zhǔn)確率為 94.56%,分類(lèi)精度為97.05%,召回率為 89.18%。勒索病毒家族分類(lèi)器的模型測(cè)試混淆矩陣如圖 4 所示,勒索病毒檢測(cè)器的準(zhǔn)確率為 82.35%。
圖 3 決策樹(shù)算法檢測(cè)器測(cè)試混淆矩陣
圖 4 決策樹(shù)算法家族分類(lèi)器測(cè)試混淆矩陣
3.3.2 隨機(jī)森林算法
隨機(jī)森林算法設(shè)定勒索病毒檢測(cè)與分類(lèi)的訓(xùn)練集與測(cè)試集的劃分比例為 9 ∶ 1,設(shè)置隨機(jī)森林中的決策樹(shù)數(shù)量為 150,訓(xùn)練勒索病毒檢測(cè)器與勒索病毒分類(lèi)器。其中勒索病毒檢測(cè)器的模型測(cè)試混淆矩陣如圖 5 所示,勒索病毒檢測(cè)器的準(zhǔn)確率為96.73%,分類(lèi)精度為 94.72%,召回率為 97.29%。勒索病毒家族分類(lèi)器的模型測(cè)試混淆矩陣如圖 6 所示,勒索病毒檢測(cè)器的準(zhǔn)確率為 90.19%。
圖 5 隨機(jī)森林算法檢測(cè)器測(cè)試混淆矩陣
圖 6 隨機(jī)森林算法家族分類(lèi)器測(cè)試混淆矩陣
3.3.3 卷積神經(jīng)網(wǎng)絡(luò)模型
設(shè)置卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練集與測(cè)試集的比例劃分為 8 ∶ 2。模型訓(xùn)練時(shí)設(shè)定平均序列長(zhǎng)度為 5 000,batchsize 為 10,丟棄概率為 0.5,學(xué)習(xí)率為 0.001。設(shè)置序列的最大長(zhǎng)度為 5 000。預(yù)訓(xùn)練得到的 API函數(shù)名稱(chēng)特征向量維度為 50 維,結(jié)合軟件的 API函數(shù)調(diào)用的現(xiàn)實(shí)情況設(shè)置卷積核大小為 2×50,3×50,4×50,5×50。
勒索病毒檢測(cè)器的模型測(cè)試混淆矩陣如圖 7 所示,勒索病毒檢測(cè)器的準(zhǔn)確率為 97%,分類(lèi)精度為95.62%,召回率為 95.09%,F(xiàn)1-score 為 96.03%。勒索病毒家族分類(lèi)器的模型測(cè)試混淆矩陣如圖 8 所示,勒索病毒檢測(cè)器的準(zhǔn)確率為 94%,分類(lèi)精度為89.1%,召回率為 82.04%,F(xiàn)1-score 為 76.42%。
圖 7 卷積神經(jīng)網(wǎng)絡(luò)檢測(cè)器測(cè)試混淆矩陣
圖 8 卷積神經(jīng)網(wǎng)絡(luò)家族分類(lèi)器測(cè)試混淆矩陣
綜上,無(wú)論是使用決策樹(shù)算法還是隨機(jī)森林算法,都可以有效實(shí)現(xiàn)對(duì)勒索病毒的檢測(cè)與家族分類(lèi)。其中,隨機(jī)森林模型的勒索病毒檢測(cè)和家族分類(lèi)測(cè)試效果都明顯優(yōu)于決策樹(shù)算法。使用卷積神經(jīng)網(wǎng)絡(luò)的方法對(duì)勒索病毒的檢測(cè)和家族分類(lèi)效果都有提升,其中檢測(cè)準(zhǔn)確率高達(dá) 97%。在家族分類(lèi)方面,卷積神經(jīng)網(wǎng)絡(luò)的提升更加明顯,模型測(cè)試準(zhǔn)確率為 94%。此外,可以發(fā)現(xiàn)勒索病毒的檢測(cè)效果明顯優(yōu)于勒索病毒家族分類(lèi)效果。雖然使用卷積神經(jīng)網(wǎng)絡(luò)方法的分類(lèi)器模型準(zhǔn)確率較高,但是部分家族的分類(lèi)精度、召回率不高。勒索病毒家族分類(lèi)效果不佳可能是因?yàn)榧易鍞?shù)據(jù)集的不完善,數(shù)據(jù)集內(nèi)有的家族的樣本較少,這使得模型不能充分學(xué)習(xí)該家族的特征,導(dǎo)致模型對(duì)部分勒索病毒家族的分類(lèi)效果不好。
4 結(jié) 語(yǔ)
近年來(lái),勒索病毒攻擊給企業(yè)和個(gè)人帶來(lái)了很大困擾,隱匿高危勒索病毒的肆虐也為勒索病毒的防御帶來(lái)了新的挑戰(zhàn)。本文從電力系統(tǒng)的實(shí)際情況出發(fā),以 Windows 平臺(tái)的可執(zhí)行文件格式的勒索病毒為研究對(duì)象,研究其及其所屬各勒索病毒家族的行為特征,并利用 Cuckoo Sandbox 軟件獲取勒索病毒軟件的行為分析報(bào)告,從中提取中樣本的行為特征。針對(duì)獲得的勒索病毒行為特征,分別采用了決策樹(shù)、隨機(jī)森林的方法和基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法訓(xùn)練了分類(lèi)器實(shí)現(xiàn)了勒索病毒的檢測(cè)與家族分類(lèi)。
本文的勒索病毒檢測(cè)與家族分類(lèi)直接對(duì)API 函數(shù)調(diào)用序列進(jìn)行分析,對(duì)勒索病毒的應(yīng)急防護(hù)有積極意義,能夠幫助企業(yè)或個(gè)人在受到勒索病毒威脅時(shí)快速反應(yīng),即針對(duì)勒索病毒所屬家族做出針對(duì)性防御,也可以與動(dòng)態(tài)行為分析結(jié)合用于除勒索病毒外其他種類(lèi)惡意軟件的分析。
本文的勒索病毒檢測(cè)器準(zhǔn)確率達(dá)到了 97%,勒索病毒家族分類(lèi)準(zhǔn)確率達(dá)到 94%。
本文主要的貢獻(xiàn)有 3 項(xiàng):
(1)收集了 13 個(gè)勒索病毒家族共 507 個(gè)樣本,并對(duì)其進(jìn)行了動(dòng)態(tài)行為分析,從中總結(jié)出其典型的API 函數(shù)特征;
(2)搭建了卷積神經(jīng)網(wǎng)絡(luò)模型,結(jié)合文本分類(lèi)思路訓(xùn)練了勒索病毒分類(lèi)器;
(3)訓(xùn)練了勒索病毒檢測(cè)器與勒索病毒家族分類(lèi)器,準(zhǔn)確率超過(guò) 90%。
引用格式:陸庭輝 , 饒茜霖 , 薛質(zhì) , 等 . 針對(duì)隱匿高危勒索病毒攻擊的檢測(cè) [J]. 通信技術(shù) ,2022,55(11):1492-1498.
作者簡(jiǎn)介 >>>
陸庭輝,男,碩士,高級(jí)工程師,主要研究方向?yàn)榫W(wǎng)絡(luò)安全和大數(shù)據(jù);
饒茜霖,女,碩士研究生,主要研究方向?yàn)榫W(wǎng)絡(luò)攻防;
薛 質(zhì),男,博士,教授,主要研究方向?yàn)榫W(wǎng)絡(luò)安全、網(wǎng)絡(luò)攻防;
施 勇,男,博士,講師,主要研究方向?yàn)榫W(wǎng)絡(luò)攻防、安全評(píng)估與管理、工業(yè)控制系統(tǒng)信息安全、人工智能網(wǎng)絡(luò)入侵檢測(cè)技術(shù)。
選自《通信技術(shù)》2022年第11期(為便于排版,已省去原文參考文獻(xiàn))
文章來(lái)源: 信息安全與通信保密雜志社