2024年1月22日月曜日

糖尿病:Diabetes Health Indicators Dataset : 基本分析01

糖尿病オープンデータを分析していきます。今回の分析は、Diabetes Health Indicators Dataset (https://www.kaggle.com/datasets/alexteboul/diabetes-health-indicators-dataset)を用いていきます。このデータには、22項目があり、
  • Diabetes_012:糖尿病の状態を示す変数です。

    • 0 = 糖尿病なし
    • 1 = 前糖尿病
    • 2 = 糖尿病
  • HighBP:高血圧の状態を示す変数です。

    • 0 = 高血圧なし
    • 1 = 高血圧
  • HighChol:高コレステロールの状態を示す変数です。

    • 0 = 高コレステロールなし
    • 1 = 高コレステロール
  • CholCheck:過去5年間にコレステロール検査を受けたかどうかを示す変数です。

    • 0 = 過去5年間にコレステロール検査なし
    • 1 = 過去5年間にコレステロール検査あり
  • BMI:身体質量指数

  • Smoker:過去に少なくとも100本のたばこを吸ったかどうかを示す変数です。

    • 0 = 吸ったことなし
    • 1 = 吸ったことあり
  • Stroke:脳卒中を経験したかどうかを示す変数です。

    • 0 = 脳卒中なし
    • 1 = 脳卒中あり
  • HeartDiseaseorAttack:冠動脈性心疾患(CHD)または心筋梗塞(MI)の有無を示す変数です。

    • 0 = なし
    • 1 = あり
  • PhysActivity:過去30日間に非職業的な身体活動を行ったかどうかを示す変数です。

    • 0 = していない
    • 1 = している
  • Fruits:果物を1日1回以上摂取するかどうかを示す変数です。

    • 0 = 摂取しない
    • 1 = 摂取する
  • Veggies:野菜を1日1回以上摂取するかどうかを示す変数です。

    • 0 = 摂取しない
    • 1 = 摂取する
  • HvyAlcoholConsump:週に14杯以上のアルコール飲料を摂取する男性または週に7杯以上のアルコール飲料を摂取する女性かどうかを示す変数です。

    • 0 = そうでない
    • 1 = そうである
  • AnyHealthcare:いかなる種類の健康保険または医療保険を持っているかどうかを示す変数です。

    • 0 = 持っていない
    • 1 = 持っている
  • NoDocbcCost:過去12か月間に医師を訪れる必要があったが、費用のために訪れることができなかったかどうかを示す変数です。

    • 0 = 訪れなかった
    • 1 = 訪れることができなかった
  • GenHlth:一般的な健康状態を示す変数です。スケール1-5

    • 1 = 優れている
    • 2 = とても良い
    • 3 = 良い
    • 4 = まあまあ
    • 5 = 悪い
  • MentHlth:精神的な健康状態を示す変数です。過去30日間の精神的な健康に関する日数を表します。スケール1-30

  • PhysHlth:身体的な健康状態を示す変数です。過去30日間の身体的な健康に関する日数を表します。スケール1-30

  • DiffWalk:歩行や階段の昇降に重大な困難があるかどうかを示す変数です。

    • 0 = なし
    • 1 = あり
  • Sex:性別

    • 0 = 女性
    • 1 = 男性
  • Age:年齢カテゴリー

    • 1 = 18-24歳
    • 9 = 60-64歳
    • 13 = 80歳以上
  • Education:教育レベル

    • スケール1-6
    • 1 = 学校に通ったことがないか、幼稚園のみ
    • 2 = 小学校(1年から8年)
    • 3 = 高校に通ったことがあるが、中途で中退(9年から11年)
    • 4 = 高校卒業(12年またはGED)
    • 5 = 大学1年から3年(一部大学または専門学校)
    • 6 = 大学4年以上(大学卒業)
  • Income:収入スケール

    • スケール1-8
    • 1 = 10,0005=35,000未満
    • 8 = $75,000以上
となっています。実際にダウンロードした「diabetes_binary_health_indicators_BRFSS2015.csv」を取り込んでみます。
import pandas as pd
# Load the dataset
file_path = '/content/drive/MyDrive/研究/糖尿病/Diabetes Health Indicators Dataset/diabetes_binary_health_indicators_BRFSS2015.csv'
data = pd.read_csv(file_path)
# Display the first few rows of the dataset
data
# Checking data types and unique values for each column
data_info = pd.DataFrame({
"Column": data.columns,
"Data Type": data.dtypes,
"Unique Values": data.nunique()
})
data_info
view raw gistfile1.txt hosted with ❤ by GitHub
(1) データの可視化
今回のデータは、カテゴリカルデータ(質的データ)と数値データ(量的データ)に分類されます。2値データ以外「'BMI', 'Age', 'GenHlth', 'MentHlth', 'PhysHlth', 'Education', 'Income'」をヒストグラムで書いてみます。
import matplotlib.pyplot as plt
import seaborn as sns
# Set the aesthetic style of the plots
sns.set_style("whitegrid")
# Selecting a subset of columns for plotting histograms
# Excluding binary columns for more meaningful histograms
hist_columns = ['BMI', 'Age', 'GenHlth', 'MentHlth', 'PhysHlth', 'Education', 'Income']
# Plotting histograms for selected columns
plt.figure(figsize=(15, 10))
for i, column in enumerate(hist_columns, 1):
plt.subplot(3, 3, i)
sns.histplot(data[column], kde=False, bins=30)
plt.title(column)
plt.tight_layout()
plt.show()
view raw gistfile1.txt hosted with ❤ by GitHub
各項目の分布を見ることができます。2値データもヒストグラムで書いてみます。
import matplotlib.pyplot as plt
import seaborn as sns
# Set the aesthetic style of the plots
sns.set_style("whitegrid")
# Selecting a subset of columns for plotting histograms
# Excluding binary columns for more meaningful histograms
hist_columns = [
"Diabetes_binary",
"HighBP",
"HighChol",
"CholCheck",
"Smoker",
"Stroke",
"HeartDiseaseorAttack",
"PhysActivity",
"Fruits",
"Veggies",
"HvyAlcoholConsump",
"AnyHealthcare",
"NoDocbcCost",
"DiffWalk",
"Sex"
]
# Plotting histograms for selected columns
plt.figure(figsize=(20, 10))
for i, column in enumerate(hist_columns, 1):
plt.subplot(3, 5, i)
sns.histplot(data[column], kde=False, bins=2)
plt.title(column)
plt.tight_layout()
plt.show()
view raw gistfile1.txt hosted with ❤ by GitHub
これらのデータに対する2項目間の基本的処理は以下になります。
・散布図(Scatter Plot): 両方の項目が数値データの場合に適しています。これにより、2つの変数間の相関関係を視覚的に把握できます。
・箱ひげ図(Box Plot): 一方がカテゴリカルデータ(例:2値データ)で、もう一方が数値データの場合に適しています。これにより、異なるカテゴリにおける数値データの分布の違いを視覚的に比較できます。
・クロス集計(Crosstab)と棒グラフ: 両方の項目がカテゴリカルデータの場合に適しています。これにより、2つのカテゴリカル変数間の関係を表形式とグラフで表示できます。

まず2値データ以外での散布図です。今回の場合は、離散化されているのであまり面白くはないです。
# Re-importing necessary libraries and reloading the data
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import itertools
# Function to determine if a column is binary
def is_binary(column):
return sorted(column.unique()) == [0, 1]
# Identifying numeric columns in the dataset
numeric_columns = data.select_dtypes(include=['float64', 'int64']).columns
# Filtering out binary columns to keep only non-binary numeric columns
non_binary_numeric_columns = [col for col in numeric_columns if not is_binary(data[col])]
# Creating combinations of non-binary numeric columns for scatter plots
non_binary_combinations = list(itertools.combinations(non_binary_numeric_columns, 2))
# Setting up the plotting grid for these combinations
n_plots = len(non_binary_combinations)
n_cols = 3 # Number of columns per row
n_rows = (n_plots + n_cols - 1) // n_cols # Calculating the required number of rows
fig, axes = plt.subplots(n_rows, n_cols, figsize=(15, 5 * n_rows)) # Adjusting the figure size
axes = axes.flatten()
# Creating scatter plots for each non-binary combination
for i, (col1, col2) in enumerate(non_binary_combinations):
sns.scatterplot(x=col1, y=col2, data=data, ax=axes[i], alpha=0.5)
axes[i].set_title(f'{col1} vs {col2}')
# Hiding any unused axes
for j in range(i + 1, len(axes)):
axes[j].set_visible(False)
plt.tight_layout()
plt.show()
view raw gistfile1.txt hosted with ❤ by GitHub
次に2値データと数値データで箱ひげ図を書いてみます。
# Identifying binary columns in the dataset
binary_columns = [col for col in data.columns if is_binary(data[col])]
# Creating combinations of binary and non-binary numeric columns for box plots
binary_non_binary_combinations = list(itertools.product(binary_columns, non_binary_numeric_columns))
# Setting up the plotting grid for these combinations
n_plots = len(binary_non_binary_combinations)
n_cols = 3 # Number of columns per row
n_rows = (n_plots + n_cols - 1) // n_cols # Calculating the required number of rows
fig, axes = plt.subplots(n_rows, n_cols, figsize=(15, 5 * n_rows)) # Adjusting the figure size
axes = axes.flatten()
# Creating box plots for each combination
for i, (binary_col, numeric_col) in enumerate(binary_non_binary_combinations):
sns.boxplot(x=binary_col, y=numeric_col, data=data, ax=axes[i])
axes[i].set_title(f'{numeric_col} by {binary_col}')
# Hiding any unused axes
for j in range(i + 1, len(axes)):
axes[j].set_visible(False)
plt.tight_layout()
plt.show()
view raw gistfile1.txt hosted with ❤ by GitHub
次に2値データに対して、クロス集計をしていきます。下記は一つの例です。
# Re-importing necessary libraries and reloading the data
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import itertools
# Function to determine if a column is binary
def is_binary(column):
return sorted(column.unique()) == [0, 1]
# Identifying binary columns
binary_columns = [col for col in data.columns if is_binary(data[col])]
print(binary_columns)
for i in range(1, len(binary_columns)):
binary_col1, binary_col2 = binary_columns[0], binary_columns[i]
# Creating a crosstab
ct = pd.crosstab(data[binary_col1], data[binary_col2])
# Plotting the heatmap for this specific crosstab
plt.figure(figsize=(10, 8))
sns.heatmap(ct, annot=True, fmt='d', cmap='viridis')
plt.title(f'Crosstab of {binary_col1} vs {binary_col2}')
plt.ylabel(binary_col1)
plt.xlabel(binary_col2)
plt.show()
view raw gistfile1.txt hosted with ❤ by GitHub
[演習]
ここまでの分析で何が言えるかをまとめてみましょう。
Boxplotから
PhysHlth(身体的健康) by DiffWalk(歩行困難):

平均値の違い: 約11.15
中央値の違い: 10
この組み合わせは、歩行困難がある人とない人の間で身体的健康状態に大きな違いがあることを示しています。
PhysHlth by Stroke(脳卒中):

平均値の違い: 約6.58
中央値の違い: 4
脳卒中の経験がある人とない人の間で身体的健康状態に顕著な違いが見られます。
PhysHlth by HeartDiseaseorAttack(心臓病または心臓発作):

平均値の違い: 約5.42
中央値の違い: 2
心臓病または心臓発作の経験がある人とない人の間で、身体的健康状態に大きな違いが存在します。

MentHlth(精神的健康) by NoDocbcCost(医療費用のため医者にかからない):

平均値の違い: 約5.13
中央値の違い: 2
医療費用のために医者にかからない人とそうでない人の間で、精神的健康状態に顕著な違いが見られます。
収入(Income):
糖尿病がない人の収入の中央値は糖尿病のある人よりも高い傾向にあります。これは、収入が低い人ほど糖尿病になるリスクが高い可能性を示唆しています。
糖尿病がない人の方が平均的にも中央値でも収入が高いことを示しています。平均収入において約0.98の違いがあり、中央値には1.0の違いがあります。


[演習] クロス集計から言えることをまとめてください。

0 件のコメント:

コメントを投稿