kdd99

KDD是數據挖掘與知識發現(Data Mining and Knowledge Discovery)的簡稱,KDD CUP是由ACM(Association for Computing Machiner)的 SIGKDD(Special Interest Group on Knowledge Discovery and Data Mining)組織的年度競賽。競賽主頁在這裏php

下面是歷屆KDDCUP的題目:ios

KDD-Cup 2008, Breast cancer
KDD-Cup 2007, Consumer recommendations
KDD-Cup 2006, Pulmonary embolisms detection from image data
KDD-Cup 2005, Internet user search query categorization
KDD-Cup 2004, Particle physics; plus Protein homology prediction
KDD-Cup 2003, Network mining and usage log analysis
KDD-Cup 2002, BioMed document; plus Gene role classification
KDD-Cup 2001, Molecular bioactivity; plus Protein locale prediction.
KDD-Cup 2000, Online retailer website clickstream analysis
KDD-Cup 1999, Computer network intrusion detection
KDD-Cup 1998, Direct marketing for profit optimization
KDD-Cup 1997, Direct marketing for lift curve optimizationweb

4種異常類型分別是:sql

  1. DOS, denial-of-service. 拒絕服務攻擊,例如ping-of-death, syn flood, smurf等;
  2. R2L, unauthorized access from a remote machine to a local machine. 來自遠程主機的未受權訪問,例如guessing password;
  3. U2R, unauthorized access to local superuser privileges by a local unpivileged user. 未受權的本地超級用戶特權訪問,例如buffer overflow attacks;
  4. PROBING, surveillance and probing, 端口監視或掃描,例如port-scan, ping-sweep等

 

數據特徵描述shell

 

KDD99數據集中每一個鏈接(*)用41個特徵來描述:promise

2, tcp, smtp, SF, 1684, 363, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0.00, 0.00, 0.00, 0.00, 1.00, 0.00, 0.00, 104, 66, 0.63, 0.03, 0.01, 0.00, 0.00, 0.00, 0.00, 0.00, normal.網絡

 

0, tcp, private, REJ, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 38, 1, 0.00, 0.00, 1.00, 1.00, 0.03, 0.55, 0.00, 208, 1, 0.00, 0.11, 0.18, 0.00, 0.01, 0.00, 0.42, 1.00, portsweep.dom

 

0, tcp, smtp, SF, 787, 329, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0.00, 0.00, 0.00, 0.00, 1.00, 0.00, 0.00, 76, 117, 0.49, 0.08, 0.01, 0.02, 0.00, 0.00, 0.00, 0.00, normal.ssh

 

上面是數據集中的3條記錄,以CSV格式寫成,加上最後的標記(label),一共有42項,其中前41項特徵分爲4大類,下面按順序解釋各個特徵的含義:tcp

1. TCP鏈接基本特徵(共9種)

基本鏈接特徵包含了一些鏈接的基本屬性,如連續時間,協議類型,傳送的字節數等。

(1)duration. 鏈接持續時間,以秒爲單位,連續類型。範圍是 [0, 58329] 。它的定義是從TCP鏈接以3次握手創建算起,到FIN/ACK鏈接結束爲止的時間;若爲UDP協議類型,則將每一個UDP數據包做爲一條鏈接。數據集中出現大量的duration = 0 的狀況,是由於該條鏈接的持續時間不足1秒。

(2)protocol_type. 協議類型,離散類型,共有3種:TCP, UDP, ICMP。

(3)service. 目標主機的網絡服務類型,離散類型,共有70種。’aol’, ‘auth’, ‘bgp’, ‘courier’, ‘csnet_ns’, ‘ctf’, ‘daytime’, ‘discard’, ‘domain’, ‘domain_u’, ‘echo’, ‘eco_i’, ‘ecr_i’, ‘efs’, ‘exec’, ‘finger’, ‘ftp’, ‘ftp_data’, ‘gopher’, ‘harvest’, ‘hostnames’, ‘http’, ‘http_2784′, ‘http_443′, ‘http_8001′, ‘imap4′, ‘IRC’, ‘iso_tsap’, ‘klogin’, ‘kshell’, ‘ldap’, ‘link’, ‘login’, ‘mtp’, ‘name’, ‘netbios_dgm’, ‘netbios_ns’, ‘netbios_ssn’, ‘netstat’, ‘nnsp’, ‘nntp’, ‘ntp_u’, ‘other’, ‘pm_dump’, ‘pop_2′, ‘pop_3′, ‘printer’, ‘private’, ‘red_i’, ‘remote_job’, ‘rje’, ‘shell’, ‘smtp’, ‘sql_net’, ‘ssh’, ‘sunrpc’, ‘supdup’, ‘systat’, ‘telnet’, ‘tftp_u’, ‘tim_i’, ‘time’, ‘urh_i’, ‘urp_i’, ‘uucp’, ‘uucp_path’, ‘vmnet’, ‘whois’, ‘X11′, ‘Z39_50′。

(4)flag. 鏈接正常或錯誤的狀態,離散類型,共11種。’OTH’, ‘REJ’, ‘RSTO’, ‘RSTOS0′, ‘RSTR’, ‘S0′, ‘S1′, ‘S2′, ‘S3′, ‘SF’, ‘SH’。它表示該鏈接是否按照協議要求開始或完成。例如SF表示鏈接正常創建並終止;S0表示只接到了SYN請求數據包,而沒有後面的SYN/ACK。其中SF表示正常,其餘10種都是error。

(5)src_bytes. 從源主機到目標主機的數據的字節數,連續類型,範圍是 [0, 1379963888]。

(6)dst_bytes. 從目標主機到源主機的數據的字節數,連續類型,範圍是 [0. 1309937401]。

(7)land. 若鏈接來自/送達同一個主機/端口則爲1,不然爲0,離散類型,0或1。

(8)wrong_fragment. 錯誤分段的數量,連續類型,範圍是 [0, 3]。

(9)urgent. 加急包的個數,連續類型,範圍是[0, 14]。

2. TCP鏈接的內容特徵(共13種)

對於U2R和R2L之類的攻擊,因爲它們不像DoS攻擊那樣在數據記錄中具備頻繁序列模式,而通常都是嵌入在數據包的數據負載裏面,單一的數據包和正常鏈接沒有什麼區別。爲了檢測這類攻擊,Wenke Lee等從數據內容裏面抽取了部分可能反映入侵行爲的內容特徵,如登陸失敗的次數等。

(10)hot. 訪問系統敏感文件和目錄的次數,連續,範圍是 [0, 101]。例如訪問系統目錄,創建或執行程序等。

(11)num_failed_logins. 登陸嘗試失敗的次數。連續,[0, 5]。

(12)logged_in. 成功登陸則爲1,不然爲0,離散,0或1。

(13)num_compromised. compromised條件(**)出現的次數,連續,[0, 7479]。

(14)root_shell. 若得到root shell 則爲1,不然爲0,離散,0或1。root_shell是指得到超級用戶權限。

(15)su_attempted. 若出現」su root」 命令則爲1,不然爲0,離散,0或1。

(16)num_root. root用戶訪問次數,連續,[0, 7468]。

(17)num_file_creations. 文件建立操做的次數,連續,[0, 100]。

(18)num_shells. 使用shell命令的次數,連續,[0, 5]。

(19)num_access_files. 訪問控制文件的次數,連續,[0, 9]。例如對 /etc/passwd 或 .rhosts 文件的訪問。

(20)num_outbound_cmds. 一個FTP會話中出站鏈接的次數,連續,0。數據集中這一特徵出現次數爲0。

(21)is_hot_login.登陸是否屬於「hot」列表(***),是爲1,不然爲0,離散,0或1。例如超級用戶或管理員登陸。

(22)is_guest_login. 如果guest 登陸則爲1,不然爲0,離散,0或1。

3. 基於時間的網絡流量統計特徵 (共9種,23~31)

因爲網絡攻擊事件在時間上有很強的關聯性,所以統計出當前鏈接記錄與以前一段時間內的鏈接記錄之間存在的某些聯繫,能夠更好的反映鏈接之間的關係。這類特徵又分爲兩種集合:一個是 「same host」特徵,只觀察在過去兩秒內與當前鏈接有相同目標主機的鏈接,例如相同的鏈接數,在這些相同鏈接與當前鏈接有相同的服務的鏈接等等;另外一個是 「same service」特徵,只觀察過去兩秒內與當前鏈接有相同服務的鏈接,例如這樣的鏈接有多少個,其中有多少出現SYN錯誤或者REJ錯誤。

(23)count. 過去兩秒內,與當前鏈接具備相同的目標主機的鏈接數,連續,[0, 511]。

(24)srv_count. 過去兩秒內,與當前鏈接具備相同服務的鏈接數,連續,[0, 511]。

(25)serror_rate. 過去兩秒內,在與當前鏈接具備相同目標主機的鏈接中,出現「SYN」 錯誤的鏈接的百分比,連續,[0.00, 1.00]。

(26)srv_serror_rate. 過去兩秒內,在與當前鏈接具備相同服務的鏈接中,出現「SYN」 錯誤的鏈接的百分比,連續,[0.00, 1.00]。

(27)rerror_rate. 過去兩秒內,在與當前鏈接具備相同目標主機的鏈接中,出現「REJ」 錯誤的鏈接的百分比,連續,[0.00, 1.00]。

(28)srv_rerror_rate. 過去兩秒內,在與當前鏈接具備相同服務的鏈接中,出現「REJ」 錯誤的鏈接的百分比,連續,[0.00, 1.00]。

(29)same_srv_rate. 過去兩秒內,在與當前鏈接具備相同目標主機的鏈接中,與當前鏈接具備相同服務的鏈接的百分比,連續,[0.00, 1.00]。

(30)diff_srv_rate. 過去兩秒內,在與當前鏈接具備相同目標主機的鏈接中,與當前鏈接具備不一樣服務的鏈接的百分比,連續,[0.00, 1.00]。

(31)srv_diff_host_rate. 過去兩秒內,在與當前鏈接具備相同服務的鏈接中,與當前鏈接具備不一樣目標主機的鏈接的百分比,連續,[0.00, 1.00]。

注:這一大類特徵中,2三、2五、2七、2九、30這5個特徵是 「same host」 特徵,前提都是與當前鏈接具備相同目標主機的鏈接;2四、2六、2八、31這4個特徵是 「same service」 特徵,前提都是與當前鏈接具備相同服務的鏈接。

4. 基於主機的網絡流量統計特徵 (共10種,32~41)

基於時間的流量統計只是在過去兩秒的範圍內統計與當前鏈接之間的關係,而在實際入侵中,有些 Probing攻擊使用慢速攻擊模式來掃描主機或端口,當它們掃描的頻率大於2秒的時候,基於時間的統計方法就沒法從數據中找到關聯。因此Wenke Lee等按照目標主機進行分類,使用一個具備100個鏈接的時間窗,統計當前鏈接以前100個鏈接記錄中與當前鏈接具備相同目標主機的統計信息。

(32)dst_host_count. 前100個鏈接中,與當前鏈接具備相同目標主機的鏈接數,連續,[0, 255]。

(33)dst_host_srv_count. 前100個鏈接中,與當前鏈接具備相同目標主機相同服務的鏈接數,連續,[0, 255]。

(34)dst_host_same_srv_rate. 前100個鏈接中,與當前鏈接具備相同目標主機相同服務的鏈接所佔的百分比,連續,[0.00, 1.00]。

(35)dst_host_diff_srv_rate. 前100個鏈接中,與當前鏈接具備相同目標主機不一樣服務的鏈接所佔的百分比,連續,[0.00, 1.00]。

(36)dst_host_same_src_port_rate. 前100個鏈接中,與當前鏈接具備相同目標主機相同源端口的鏈接所佔的百分比,連續,[0.00, 1.00]。

(37)dst_host_srv_diff_host_rate. 前100個鏈接中,與當前鏈接具備相同目標主機相同服務的鏈接中,與當前鏈接具備不一樣源主機的鏈接所佔的百分比,連續,[0.00, 1.00]。

(38)dst_host_serror_rate. 前100個鏈接中,與當前鏈接具備相同目標主機的鏈接中,出現SYN錯誤的鏈接所佔的百分比,連續,[0.00, 1.00]。

(39)dst_host_srv_serror_rate. 前100個鏈接中,與當前鏈接具備相同目標主機相同服務的鏈接中,出現SYN錯誤的鏈接所佔的百分比,連續,[0.00, 1.00]。

(40)dst_host_rerror_rate. 前100個鏈接中,與當前鏈接具備相同目標主機的鏈接中,出現REJ錯誤的鏈接所佔的百分比,連續,[0.00, 1.00]。

(41)dst_host_srv_rerror_rate. 前100個鏈接中,與當前鏈接具備相同目標主機相同服務的鏈接中,出現REJ錯誤的鏈接所佔的百分比,連續,[0.00, 1.00]。

 

鄭重聲明

本文轉載自XiFage's Blog
本文連接地址: http://xifage.com/kdd-cup-99-dataset-5/

相關文章
相關標籤/搜索