[转载]基于数据挖掘技术入侵检测系统研究
?[--- ?資料是從免費(fèi)網(wǎng)站上獲取的,上載在這里,只為交流學(xué)習(xí)目的,文章原作者保留所有權(quán)力,
如本博客的內(nèi)容侵犯了你的權(quán)益,請(qǐng)與以下地址聯(lián)系,本人獲知后,馬上刪除。同時(shí)本人深表歉意,并致以崇高的謝意!
erwin_609@msn.com? ---]
基于數(shù)據(jù)挖掘技術(shù)入侵檢測(cè)系統(tǒng)研究
隨著網(wǎng)絡(luò)在現(xiàn)代社會(huì)中發(fā)揮愈來(lái)愈重要的作用,利用計(jì)算機(jī)網(wǎng)絡(luò)犯罪也呈現(xiàn)出明顯的上升趨勢(shì)。如何建立安全而又健壯的網(wǎng)絡(luò)系統(tǒng),保證重要信息的安全性,已經(jīng)成為研究的焦點(diǎn)。以往采用的方式多是防火墻的策略,它可以防止利用協(xié)議漏洞、源路由、地址仿冒等多種攻擊手段,并提供安全的數(shù)據(jù)通道,但是它對(duì)于應(yīng)用層的后門(mén),內(nèi)部用戶的越權(quán)操作等導(dǎo)致的攻擊或竊取,破壞信息卻無(wú)能為力。另外,由于防火墻的位置處在網(wǎng)絡(luò)中的明處,自身的設(shè)計(jì)缺陷也難免會(huì)暴露給眾多的攻擊者,所以僅僅憑借防火墻是難以抵御多種多樣層出不窮的攻擊的。
?????? 因此,為了保證網(wǎng)絡(luò)系統(tǒng)的安全,就需要有一種能夠及時(shí)發(fā)現(xiàn)并報(bào)告系統(tǒng)中未授權(quán)或異常現(xiàn)象的技術(shù),即入侵檢測(cè)技術(shù)。
?????? 1 入侵檢測(cè)系統(tǒng)簡(jiǎn)介
?????? 入侵檢測(cè)技術(shù)可以分為兩類(lèi):
?????
?? (1)濫用檢測(cè)(Misuse Detection)濫用檢測(cè)是利用已知的入侵方法和系統(tǒng)的薄弱環(huán)節(jié)識(shí)別非法入侵。該方法的主要缺點(diǎn)為:由于所有已知的入侵模式都被植入系統(tǒng)中,所以,一旦出現(xiàn)任何未知形式的入侵,都無(wú)法檢測(cè)出來(lái)。但該方法的檢測(cè)效率較高。
(2)異常檢測(cè)(Anomaly Detection)異常檢測(cè)是通過(guò)檢查當(dāng)前用戶行為是否與已建立的正常行為輪廓相背離來(lái)鑒別是否有非法入侵或越權(quán)操作。該方法的優(yōu)點(diǎn)是無(wú)需了解系統(tǒng)缺陷,適應(yīng)性較強(qiáng)。但發(fā)生誤報(bào)的可能性較高。
?????? 入侵檢測(cè)系統(tǒng)中的用戶行為主要表現(xiàn)為數(shù)據(jù)形式。根據(jù)數(shù)據(jù)的來(lái)源不同,入侵檢測(cè)系統(tǒng)可以分為基于主機(jī)的和基于網(wǎng)絡(luò)的兩種。前者的數(shù)據(jù)來(lái)自操作系統(tǒng)的審計(jì)數(shù)據(jù),后者來(lái)自網(wǎng)絡(luò)中流經(jīng)的數(shù)據(jù)包。由于用戶的行為都表現(xiàn)為數(shù)據(jù),因此,解決問(wèn)題的核心就是如何正確高效地處理收集到的數(shù)據(jù),并從中得出結(jié)論。
?????? 2 基于數(shù)據(jù)挖掘技術(shù)的入侵檢測(cè)系統(tǒng)
?????? 在入侵檢測(cè)系統(tǒng)中使用數(shù)據(jù)挖掘技術(shù),通過(guò)分析歷史數(shù)據(jù)可以提取出用戶的行為特征、總結(jié)入侵行為的規(guī)律,從而建立起比較完備的規(guī)則庫(kù)來(lái)進(jìn)行入侵檢測(cè)[1]。該過(guò)程主要分為以下幾步[2]:
?????? 數(shù)據(jù)收集基于網(wǎng)絡(luò)的檢測(cè)系統(tǒng)數(shù)據(jù)來(lái)源于網(wǎng)絡(luò),可用的工具有TCPDUMP等。
?????? 數(shù)據(jù)的預(yù)處理在數(shù)據(jù)挖掘中訓(xùn)練數(shù)據(jù)的好壞直接影響到提取的用戶特征和推導(dǎo)出的規(guī)則的準(zhǔn)確性。如果在入侵檢測(cè)系統(tǒng)中,用于建立模型的數(shù)據(jù)中包含入侵者的行為,那么以后建立起的檢測(cè)系統(tǒng)將不能對(duì)此入侵行為做出任何反應(yīng),從而造成漏報(bào)。由此可見(jiàn),用于訓(xùn)練的數(shù)據(jù)必須不包含任何入侵,并且要格式化成數(shù)據(jù)挖掘算法可以處理的形式。
?????? 數(shù)據(jù)挖掘從預(yù)處理過(guò)的數(shù)據(jù)中提取用戶行為特征或規(guī)則等,再對(duì)所得的規(guī)則進(jìn)行歸并更新,建立起規(guī)則庫(kù)。
?????? 入侵檢測(cè)依據(jù)規(guī)則庫(kù)的規(guī)則對(duì)當(dāng)前用戶的行為進(jìn)行檢測(cè),根據(jù)得到的結(jié)果采取不同的應(yīng)付手段。
?????? 本文構(gòu)建了一個(gè)基于數(shù)據(jù)挖掘關(guān)聯(lián)分析方法的入侵檢測(cè)系統(tǒng),該系統(tǒng)主要用于異常檢測(cè)。
?????? 該系統(tǒng)的數(shù)據(jù)來(lái)源是基于網(wǎng)絡(luò)的,通過(guò)在網(wǎng)絡(luò)中安放嗅探器來(lái)獲取用戶的數(shù)據(jù)包,然后采用協(xié)議分析的方法,丟棄有效負(fù)荷,僅保留包頭部分,按特定的方法預(yù)處理后得到的數(shù)據(jù)包含7個(gè)字段:時(shí)間、源IP、源端口、目的IP、目的端口、連接的ID、連接狀態(tài)。
?????? 由于TCP的連接建立包含3次握手過(guò)程,所以在所有收集的訓(xùn)練數(shù)據(jù)中會(huì)包括一些未能成功建立的連接,它們將對(duì)后面的數(shù)據(jù)挖掘過(guò)程產(chǎn)生負(fù)面影響,故應(yīng)當(dāng)去掉,僅保留那些反映網(wǎng)絡(luò)正常情況的數(shù)據(jù)。對(duì)于UDP則不存在此問(wèn)題,只需將每個(gè)UDP包都視為一次連接即可。 采用APRIORI算法[3]對(duì)數(shù)據(jù)進(jìn)行挖掘。
?? APRIORI算法常用在購(gòu)物籃分析中,它用于發(fā)現(xiàn)“90%的客戶在購(gòu)買(mǎi)商品A時(shí)也會(huì)購(gòu)買(mǎi)商品B”之類(lèi)的規(guī)則。它通常的輸入分為兩列:
?????? 規(guī)則輸出的形式為I1&12aI5(support=2%,confidence=60%)。其中support是支持度,confidence是可信度。
?????? 將前面收集到的網(wǎng)絡(luò)流量數(shù)據(jù)格式化成為APRIORI算法的輸入形式,用連接ID代替客戶ID,其他屬性替代購(gòu)買(mǎi)的商品。在給定了支持度和可信度之后,可以得到一組規(guī)則,形式為
?????? 192.168.0.50&202.117.80.8a80(support=6%,confidence=95%)
?????? 規(guī)則的含義為源IP為192.168.0.50且目的IP為202.117.80.8則目的端口是80,該規(guī)則的支持度為6%,可信度為95%。
?
????? 一段時(shí)間的采樣不能夠完全代表用戶的行為,因此有必要多次采樣,并重復(fù)上述過(guò)程,然后用歸并的方法將多次得到的規(guī)則集合并起來(lái),直至不再產(chǎn)生新的規(guī)則為止。筆者采用此方法從大量的網(wǎng)絡(luò)流量數(shù)據(jù)(28.8M)中可以提取出100多條規(guī)則(支持度2%,可信度85%),發(fā)現(xiàn)其中有很多是明顯無(wú)意義的,這就需要管理員通過(guò)個(gè)人經(jīng)驗(yàn)加以精簡(jiǎn),最終得到可以用于檢驗(yàn)的規(guī)則集。至此,產(chǎn)生的規(guī)則集已經(jīng)可以比較完整地描述用戶的行為特征了。將得出的規(guī)則集用于入侵檢測(cè)。例如,規(guī)則庫(kù)中的一條規(guī)則為
?????? 192.168.0.50&202.117.80.8a80(support=6%,confidence=95%)
?????? 而在檢測(cè)的過(guò)程中發(fā)現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)中的一個(gè)連接源IP地址是192.168.0.50且目的IP地址為202.117.80.8,訪問(wèn)的端口為1000,則說(shuō)明違反規(guī)則的小概率事件發(fā)生,該連接的可疑度隨之增加。在實(shí)際過(guò)程中,來(lái)自同一IP地址的異常的連接可能會(huì)違反多條規(guī)則,當(dāng)多個(gè)可疑度之和超過(guò)一個(gè)閾值時(shí)系統(tǒng)就產(chǎn)生報(bào)警。
?????? 采用了兩組數(shù)據(jù)(實(shí)驗(yàn)數(shù)據(jù)來(lái)源于http:∥iris. cs.uml.edu:8080/)對(duì)此系統(tǒng)進(jìn)行了實(shí)驗(yàn)。一組是已知不含任何攻擊的正常數(shù)據(jù)(約30M,包含35萬(wàn)余條記錄),該數(shù)據(jù)用于訓(xùn)練系統(tǒng),采用以上介紹的方法,在設(shè)定支持度為1%,可信度為85%情況下,得到了17條檢驗(yàn)規(guī)則。然后將得到的規(guī)則用于檢測(cè)另一組已知包含攻擊的數(shù)據(jù)(約54M,包含63萬(wàn)條記錄),實(shí)驗(yàn)結(jié)果證明此方法可以有效的發(fā)現(xiàn)PROBING攻擊。
?????? 3 結(jié)束語(yǔ)
?????? 隨著網(wǎng)絡(luò)的帶寬迅速增長(zhǎng),黑客攻擊手段的日趨多樣,現(xiàn)有的入侵檢測(cè)系統(tǒng)在網(wǎng)絡(luò)遭受入侵時(shí),反應(yīng)較慢,實(shí)時(shí)性較差。因此,如何實(shí)時(shí)的處理網(wǎng)絡(luò)中海量的數(shù)據(jù),并及時(shí)的發(fā)現(xiàn)攻擊將成為入侵檢測(cè)系統(tǒng)下一步研究的重點(diǎn)。
總結(jié)
以上是生活随笔為你收集整理的[转载]基于数据挖掘技术入侵检测系统研究的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Overview-ISA-2004-SP
- 下一篇: 用JScript.net写.net应用程