2023年3月25日土曜日

ネットワークログの分析2 : ネットワークログから推移確率作成まで

今回は前回最後に集計したファイルを使って、そこから推移確率行列を作成していきます。前回作成したファイルは 
・netflow_day-02_sum.csv  (どのホストで通信があったかを集計したもの)
・netflow_day-02_device.csv  (ホストの集合、Src、Dstで和集合をとったもの)
の2つを利用していきます。
[2023/05/02 修正]
デバイス集合を和集合から積集合に変更したので、netflow_day-XX_device_intersection.csvを使うように変更します。

1. 推移確率行列作成のための元情報作成
推移確率行列は行和が1となる正規化されたものです。いきなりそれを作成する前に、一度どのくらいの量(カウント、通信バイト量など)があったかを推移確率の形で集計します。つまり、行はFromのホストが並び、列はToのホストが並びます。推移確率行列は正方行列のため、FromとToは同じホストが並びます。これは上記のnetflow_day-02_device.csvを使います。必要なライブラリを取り込み、ファイルを取り込みます。-> 変更 netflow_day-02_device_intersection.csv

この後、推移量をまとめるための2次元配列を用意します。

今回は元データにある、通信回数、通信時間、パケット数(fron, to)、バイト量(from, to)で作成しています。

保存されるcsvファイルはデータ量が大きいので注意が必要です。回数や通信時間は整数型なので、1.94GB、その他の実数型は6.79GBとなっています。計算は数分で終わると思いますが、保存に時間がかかります。

ここまでで各推移量の集計は完了です。
ここまでのソースコード
!pip3 install pandas
!pip3 install numpy
!pip3 install matplotlib
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import time
file = './netflow_day-02_sum.csv'
df = pd.read_csv(file, index_col=0)
df
file = './netflow_day-02_device.csv'
df_device = pd.read_csv(file)
df_device
transition_count = np.zeros((len(df_device), len(df_device)))
transition_duration = np.zeros((len(df_device), len(df_device)))
transition_from_packets = np.zeros((len(df_device), len(df_device)))
transition_to_packets = np.zeros((len(df_device), len(df_device)))
transition_from_bytes = np.zeros((len(df_device), len(df_device)))
transition_to_bytes = np.zeros((len(df_device), len(df_device)))
transition_count
device_list = df_device['Device'].tolist()
index = 0
for i in df.itertuples():
idx1 = device_list.index(i[1])
idx2 = device_list.index(i[2])
transition_count[idx1, idx2] = i.count
transition_duration[idx1, idx2] = i.duration
transition_from_packets[idx1, idx2] = i.from_packets
transition_to_packets[idx1, idx2] = i.to_packets
transition_from_bytes[idx1, idx2] = i.from_bytes
transition_to_bytes[idx1, idx2] = i.to_bytes
#print('{0}%処理済み'.format(index / len(df) * 100))
index += 1
np.savetxt('transition_count.csv', transition_count, fmt='%d', delimiter=',')
np.savetxt('transition_duration.csv', transition_duration, fmt='%d', delimiter=',')
np.savetxt('transition_from_packets.csv', transition_from_packets, fmt='%.4f', delimiter=',')
np.savetxt('transition_to_packets.csv', transition_to_packets, fmt='%.4f', delimiter=',')
np.savetxt('transition_from_bytes.csv', transition_from_bytes, fmt='%.4f', delimiter=',')
np.savetxt('transition_to_bytes.csv', transition_to_bytes, fmt='%.4f', delimiter=',')
view raw gistfile1.txt hosted with ❤ by GitHub

2. 推移確率行列への正規化
1で作成した推移量を使って、推移確率行列に正規化します。推移確率行列は行和が1なので、推移量のそれぞれの行和を求めて、割り算すればいいのですが、今回のdevice_listはSrcもDstもまとめた集合になっています。つまり、DstにしかなかったホストもSrcになりうる可能性があり、当然その行は通信がないので、行和が0となってしまいます。そのため、行和が0となるホストを集合から取り除いていきます。
行和が0となるホストの抽出->推移量とDevice_listから対象ホストを削除->行和が0となるホストの抽出->推移量とDevice_listから対象ホストを削除->...を繰り返していきます。今回はわかりやすくループでは実施していませんが、本来はループで一気に実施します。
今回は回数に注目してやっていきます。改めて保存したcsvファイルを取り込んでからやっていきます。
(1) 1回目 : 行和が0になるホストを削除(行と列を削除する) -> toにしかないホストを削除
行和が0となるホストのリストを作成して、推移量行列から削除していきます。

この処理で31,142×31,142の推移量行列だったものが、25,847×25,847に減りました。
(2) (1)でのホストをDevice_listから削除
Device_listからも(1)で選択された行和0のホストを削除します。
この(1)、(2)を行和0となるホストがなくなるまで繰り返します。
2回目

3回目

4回目
4回目では行和0のホストは検出されず、3回で終了です。
念の為、ここまでの推移量の行和0となった情報とホスト集合をcsvに保存しておきます。
最後に行和で割って、推移確率行列として、「transition_count_non0_rate.csv」として保存します。
transition_count_non0_rate.csvは実数型なので、データ量が少し大きくなるので注意してください。また今回のような回数(整数型)は行和で割るときに、キャストが必要です。

ひとまず、ここまでの流れを実施するには、下記の2つのソースファイルを利用しましょう。

2023年3月19日日曜日

ネットワークログの分析1 : ネットワークログの取得と分析準備

 ネットワークログは様々なものがありますが、オープンデータで入手できるものを使って、分析をしてみようと思います。ここでは以下の点に注目して実施していきます。プログラム言語はPythonでやっていきます。

(1)大量なログを分析できる形に整えることができる

(2)ネットワーク管理者が設計図で確認できる内容ではなく、実際のネットワークデータから、コンピュータ間の同値類(セグメントみたいなもの)を確認し、可視化する

(3)コンピュータ間の通信をマルコフ連鎖でモデル化する(推移確率を求める)

1. 利用データの準備

今回は「Unified Host and Network Data Set」を使わせてもらいます。ここには「Network Event Data」と「Host Event Data」の2つがあり、今回は「Network Event Data」を使います。このデータは、サイトから引用すると下記のような項目があり、シンプルでわかりやすいです。

利用するためには、メールアドレスの登録をすると、データをダウンロードするためのスクリプトが出てくるので、Linux等の環境で行い、ダウンロードを行なって下さい。ただし、データが巨大なので十分な領域を確保してやりましょう。解凍後のcsvの1ファイルは7~10Gbyte位あります。あと謝辞にこのサイトを入れるのを忘れないようにしましょう。
M. Turcotte, A. Kent and C. Hash, “Unified Host and Network Data Set”, in Data Science for Cyber-Security. November 2018, 1-22

ダウンロードしたら、展開しておき、csvファイルを確認します。今回は最初の日のデータで、「netflow_day-02.bz2」(1.08GB)を展開した「netflow_day-02.csv」(7.15GB)を使っていきます。

bz2の展開には「bunzip2 netflow_day-XX.bz2」のようにbunzip2を使うといいでしょう。

2. データの取り込み

必要なモジュール(numpy, pandas, matplotlib.pyplot)をインストールして、ファイルを取り込みます。

#https://csr.lanl.gov/data/2017/
file = './netflow_day-02.csv'
df = pd.read_csv(file, header=None)
df.columns = ['Time','Duration','SrcDevice','DstDevice','Protocol','SrcPort','DstPort','SrcPackets','DstPackets','SrcBytes','DstBytes']
df
view raw gistfile1.txt hosted with ❤ by GitHub

無事データの取り込みができると、このファイルでは、115,949,436件のデータがあることがわかります。
基本統計情報を見てみると、特にバイト数が桁数が大きいところがあるので、他の項目もまとめて10^6で割り、バイトはメガバイト(MB)に変換しておきます。maxの項目をみると、桁数が減っていることがわかります。
変更前のdf.describe()
10^6で割った後のdf.describe()

3. デバイス集合を作成
「SrcDevice」と「DstDevice」を使って、デバイス集合を作成します。このデバイス集合を使って、どこからどこへの通信があるかを集計していきます。SrcDeviceにしかないデバイス、DstDeviceにしかないデバイス、両方にあるデバイスがあるので、それぞれ集合として抽出して、その和集合を取ります。SrcDeviceには25,847件、DstDeviceには25,308件ありました。
SrcDevice_list = df['SrcDevice'].unique().tolist()
print(len(SrcDevice_list))
SrcDevice_df = pd.DataFrame({'SrcDevice': SrcDevice_list})
SrcDevice_df.to_csv('netflow_day-02_srcdevice.csv', index=False)
DstDevice_list = df['DstDevice'].unique().tolist()
print(len(DstDevice_list))
DstDevice_df = pd.DataFrame({'DstDevice': DstDevice_list})
DstDevice_df.to_csv('netflow_day-02_dstdevice.csv', index=False)
#和集合を求める
SrcDevice_set = set(SrcDevice_list)
DstDevice_set = set(DstDevice_list)
Device_set = SrcDevice_set | DstDevice_set
Device_list = list(Device_set)
Device_df = pd.DataFrame({'Device': Device_list})
Device_df.to_csv('netflow_day-02_device.csv', index=False)
#積集合を求める(追加 2023/05/02)
Device_set_intersection = SrcDevice_set & DstDevice_set
Device_list_intersection = list(Device_set_intersection)
Device_df_intersection = pd.DataFrame({'Device': Device_list_intersection})
Device_df_intersection.to_csv(file + '_device_intersection.csv', index=False)
view raw gistfile1.txt hosted with ❤ by GitHub

[2023/05/02]修正
ここで書いてあるように、最初はデバイスの和集合でやっていました。取りこぼしが無いように、全てのデバイスで集計して、通信が無いデバイスを後から削除しようと思いましたが、実際やってみると、集計ファイルが100GBになり、とても無理でした。ですので、和集合ではなく、積集合をとり、From <--> To の通信が両方ともあるデバイスのみ対象に変更しました。

4. 推移表の作成
3で作成したデバイス集合を使って、どのデバイスからどのデバイスへ通信があったかを集計します。今回はデータフレームの抽出は使わず、groupbyを使うことで高速に処理できます。

#ファイルを分割せずに、集約して出力する
#PC間の通信回数を抽出
device_weight = []
from_device = []
to_device = []
from_packets = []
to_packets = []
from_bytes = []
to_bytes = []
duration = []
start = time.time()
index = 1
for src, sub_df in df.groupby('SrcDevice'):
for dst, subsub_df in sub_df.groupby('DstDevice'):
from_device.append(src)
to_device.append(dst)
cnt = len(subsub_df)
device_weight.append(cnt)
from_packets.append(subsub_df['SrcPackets'].sum())
to_packets.append(subsub_df['DstPackets'].sum())
from_bytes.append(subsub_df['SrcBytes'].sum())
to_bytes.append(subsub_df['DstBytes'].sum())
duration.append(subsub_df['Duration'].sum())
print('{0} %完了'.format(index / len(SrcDevice_list) * 100))
index += 1
# if index > 30:
# break
df_sum = pd.DataFrame({'from': from_device, 'to': to_device, 'count' : device_weight, 'duration': duration, 'from_packets': from_packets, 'to_packets': to_packets, 'from_bytes': from_bytes, 'to_bytes': to_bytes})
df_sum.to_csv('netflow_day-02_sum.csv')
elapsed_time = time.time() - start
print ("calclation_time:{0}".format(elapsed_time) + "[sec]")
df_sum
view raw gistfile1.txt hosted with ❤ by GitHub