Social Optimization Systems Laboratory: Chicago Divvy Bicycle Sharing Dataの分析1 : 基本分析

2024年1月4日木曜日

Chicago Divvy Bicycle Sharing Dataの分析1 : 基本分析

Divvy Bikesがシカゴ市で提供されている自転車共有サービスのデータを使い、基本的なデータ分析を行なっていきます。

次のリンクからデータをダウンロードします。

https://divvybikes.com/system-data

「Download Divvy trip history data」よりダウンロードページに移り、執筆時点で最新の「 202311-divvy-tripdata.zip」をダウンロードしていきます。

解凍ファイルを展開すると「202311-divvy-tripdata.csv」が得られますので、これを分析していきます。

今回もGPTから得られたコードを使ってやっていきます。

[データのインポートと基本統計量の算出と可視化]

csvを取り込んでいきます。

このファイルには、362,518行のデータがあり、それぞれ13のカラムを持ちます。

ride_id: 各ライド（乗車）に割り当てられた一意の識別子。

rideable_type: 使用された自転車のタイプ。

started_at: ライドの開始日時。

ended_at: ライドの終了日時。

start_station_name: ライド開始時のステーション名。

start_station_id: ライド開始時のステーションID。

end_station_name: ライド終了時のステーション名。

end_station_id: ライド終了時のステーションID。

start_lat: ライド開始時の緯度。

start_lng: ライド開始時の経度。

end_lat: ライド終了時の緯度。

end_lng: ライド終了時の経度。

member_casual: 利用者がメンバーかカジュアル（非メンバー）かを示す。

緯度・経度のヒストグラムを見て、中心的な場所を確認します。これらのヒストグラムは、大部分のライドが特定の範囲内の地理的な領域で発生していることを示しています。また、開始点と終了点の緯度と経度の平均値が非常に近いことから、多くのライドが同じ地域内で完了していることもわかります。

カテゴリカルデータ（「rideable_type」と「member_casual」）の出現頻度を確認します。

Rideable Type (自転車のタイプ): このグラフは、利用された自転車のタイプの分布を示しています。２種類の自転車タイプがあり、そのうちの一つが他よりも頻繁に利用されていることがわかります。Member vs Casual (メンバー対カジュアル): このグラフは、利用者がメンバーかカジュアル（非メンバー）かの分布を示しています。どちらか一方が他方よりも明らかに多く利用されていることが観察できます。

次に、ステーションについて確認します。件数で並び替えた際に最も多い上位20%の「start_station_name（開始ステーション名）」と「end_station_name（終了ステーション名）」のステーションを示しています。

開始、終了のステーションが同じ名前が多いことから、よく使われるステーションは開始にも終了にも使われることがわかります。