Social Optimization Systems Laboratory: ネットワークログの分析2 : ネットワークログから推移確率作成まで

2023年3月25日土曜日

ネットワークログの分析2 : ネットワークログから推移確率作成まで

今回は前回最後に集計したファイルを使って、そこから推移確率行列を作成していきます。前回作成したファイルは

・netflow_day-02_sum.csv (どのホストで通信があったかを集計したもの)

・netflow_day-02_device.csv (ホストの集合、Src、Dstで和集合をとったもの)

の2つを利用していきます。

[2023/05/02 修正]

デバイス集合を和集合から積集合に変更したので、netflow_day-XX_device_intersection.csvを使うように変更します。

1. 推移確率行列作成のための元情報作成

推移確率行列は行和が1となる正規化されたものです。いきなりそれを作成する前に、一度どのくらいの量(カウント、通信バイト量など)があったかを推移確率の形で集計します。つまり、行はFromのホストが並び、列はToのホストが並びます。推移確率行列は正方行列のため、FromとToは同じホストが並びます。これは上記のnetflow_day-02_device.csvを使います。必要なライブラリを取り込み、ファイルを取り込みます。-> 変更 netflow_day-02_device_intersection.csv

この後、推移量をまとめるための2次元配列を用意します。

今回は元データにある、通信回数、通信時間、パケット数(fron, to)、バイト量(from, to)で作成しています。

保存されるcsvファイルはデータ量が大きいので注意が必要です。回数や通信時間は整数型なので、1.94GB、その他の実数型は6.79GBとなっています。計算は数分で終わると思いますが、保存に時間がかかります。

ここまでで各推移量の集計は完了です。

ここまでのソースコード

2. 推移確率行列への正規化

1で作成した推移量を使って、推移確率行列に正規化します。推移確率行列は行和が1なので、推移量のそれぞれの行和を求めて、割り算すればいいのですが、今回のdevice_listはSrcもDstもまとめた集合になっています。つまり、DstにしかなかったホストもSrcになりうる可能性があり、当然その行は通信がないので、行和が0となってしまいます。そのため、行和が0となるホストを集合から取り除いていきます。

行和が0となるホストの抽出->推移量とDevice_listから対象ホストを削除->行和が0となるホストの抽出->推移量とDevice_listから対象ホストを削除->...を繰り返していきます。今回はわかりやすくループでは実施していませんが、本来はループで一気に実施します。

今回は回数に注目してやっていきます。改めて保存したcsvファイルを取り込んでからやっていきます。