Diabetes_012:糖尿病の状態を示す変数です。
- 0 = 糖尿病なし
- 1 = 前糖尿病
- 2 = 糖尿病
HighBP:高血圧の状態を示す変数です。
- 0 = 高血圧なし
- 1 = 高血圧
HighChol:高コレステロールの状態を示す変数です。
- 0 = 高コレステロールなし
- 1 = 高コレステロール
CholCheck:過去5年間にコレステロール検査を受けたかどうかを示す変数です。
- 0 = 過去5年間にコレステロール検査なし
- 1 = 過去5年間にコレステロール検査あり
BMI:身体質量指数
Smoker:過去に少なくとも100本のたばこを吸ったかどうかを示す変数です。
- 0 = 吸ったことなし
- 1 = 吸ったことあり
Stroke:脳卒中を経験したかどうかを示す変数です。
- 0 = 脳卒中なし
- 1 = 脳卒中あり
HeartDiseaseorAttack:冠動脈性心疾患(CHD)または心筋梗塞(MI)の有無を示す変数です。
- 0 = なし
- 1 = あり
PhysActivity:過去30日間に非職業的な身体活動を行ったかどうかを示す変数です。
- 0 = していない
- 1 = している
Fruits:果物を1日1回以上摂取するかどうかを示す変数です。
- 0 = 摂取しない
- 1 = 摂取する
Veggies:野菜を1日1回以上摂取するかどうかを示す変数です。
- 0 = 摂取しない
- 1 = 摂取する
HvyAlcoholConsump:週に14杯以上のアルコール飲料を摂取する男性または週に7杯以上のアルコール飲料を摂取する女性かどうかを示す変数です。
- 0 = そうでない
- 1 = そうである
AnyHealthcare:いかなる種類の健康保険または医療保険を持っているかどうかを示す変数です。
- 0 = 持っていない
- 1 = 持っている
NoDocbcCost:過去12か月間に医師を訪れる必要があったが、費用のために訪れることができなかったかどうかを示す変数です。
- 0 = 訪れなかった
- 1 = 訪れることができなかった
GenHlth:一般的な健康状態を示す変数です。スケール1-5
- 1 = 優れている
- 2 = とても良い
- 3 = 良い
- 4 = まあまあ
- 5 = 悪い
MentHlth:精神的な健康状態を示す変数です。過去30日間の精神的な健康に関する日数を表します。スケール1-30
PhysHlth:身体的な健康状態を示す変数です。過去30日間の身体的な健康に関する日数を表します。スケール1-30
DiffWalk:歩行や階段の昇降に重大な困難があるかどうかを示す変数です。
- 0 = なし
- 1 = あり
Sex:性別
- 0 = 女性
- 1 = 男性
Age:年齢カテゴリー
- 1 = 18-24歳
- 9 = 60-64歳
- 13 = 80歳以上
Education:教育レベル
- スケール1-6
- 1 = 学校に通ったことがないか、幼稚園のみ
- 2 = 小学校(1年から8年)
- 3 = 高校に通ったことがあるが、中途で中退(9年から11年)
- 4 = 高校卒業(12年またはGED)
- 5 = 大学1年から3年(一部大学または専門学校)
- 6 = 大学4年以上(大学卒業)
Income:収入スケール
- スケール1-8
- 1 =
10,000未満−5= 35,000未満 - 8 = $75,000以上
import pandas as pd | |
# Load the dataset | |
file_path = '/content/drive/MyDrive/研究/糖尿病/Diabetes Health Indicators Dataset/diabetes_binary_health_indicators_BRFSS2015.csv' | |
data = pd.read_csv(file_path) | |
# Display the first few rows of the dataset | |
data | |
# Checking data types and unique values for each column | |
data_info = pd.DataFrame({ | |
"Column": data.columns, | |
"Data Type": data.dtypes, | |
"Unique Values": data.nunique() | |
}) | |
data_info |
import matplotlib.pyplot as plt | |
import seaborn as sns | |
# Set the aesthetic style of the plots | |
sns.set_style("whitegrid") | |
# Selecting a subset of columns for plotting histograms | |
# Excluding binary columns for more meaningful histograms | |
hist_columns = ['BMI', 'Age', 'GenHlth', 'MentHlth', 'PhysHlth', 'Education', 'Income'] | |
# Plotting histograms for selected columns | |
plt.figure(figsize=(15, 10)) | |
for i, column in enumerate(hist_columns, 1): | |
plt.subplot(3, 3, i) | |
sns.histplot(data[column], kde=False, bins=30) | |
plt.title(column) | |
plt.tight_layout() | |
plt.show() |
import matplotlib.pyplot as plt | |
import seaborn as sns | |
# Set the aesthetic style of the plots | |
sns.set_style("whitegrid") | |
# Selecting a subset of columns for plotting histograms | |
# Excluding binary columns for more meaningful histograms | |
hist_columns = [ | |
"Diabetes_binary", | |
"HighBP", | |
"HighChol", | |
"CholCheck", | |
"Smoker", | |
"Stroke", | |
"HeartDiseaseorAttack", | |
"PhysActivity", | |
"Fruits", | |
"Veggies", | |
"HvyAlcoholConsump", | |
"AnyHealthcare", | |
"NoDocbcCost", | |
"DiffWalk", | |
"Sex" | |
] | |
# Plotting histograms for selected columns | |
plt.figure(figsize=(20, 10)) | |
for i, column in enumerate(hist_columns, 1): | |
plt.subplot(3, 5, i) | |
sns.histplot(data[column], kde=False, bins=2) | |
plt.title(column) | |
plt.tight_layout() | |
plt.show() |
# Re-importing necessary libraries and reloading the data | |
import pandas as pd | |
import seaborn as sns | |
import matplotlib.pyplot as plt | |
import itertools | |
# Function to determine if a column is binary | |
def is_binary(column): | |
return sorted(column.unique()) == [0, 1] | |
# Identifying numeric columns in the dataset | |
numeric_columns = data.select_dtypes(include=['float64', 'int64']).columns | |
# Filtering out binary columns to keep only non-binary numeric columns | |
non_binary_numeric_columns = [col for col in numeric_columns if not is_binary(data[col])] | |
# Creating combinations of non-binary numeric columns for scatter plots | |
non_binary_combinations = list(itertools.combinations(non_binary_numeric_columns, 2)) | |
# Setting up the plotting grid for these combinations | |
n_plots = len(non_binary_combinations) | |
n_cols = 3 # Number of columns per row | |
n_rows = (n_plots + n_cols - 1) // n_cols # Calculating the required number of rows | |
fig, axes = plt.subplots(n_rows, n_cols, figsize=(15, 5 * n_rows)) # Adjusting the figure size | |
axes = axes.flatten() | |
# Creating scatter plots for each non-binary combination | |
for i, (col1, col2) in enumerate(non_binary_combinations): | |
sns.scatterplot(x=col1, y=col2, data=data, ax=axes[i], alpha=0.5) | |
axes[i].set_title(f'{col1} vs {col2}') | |
# Hiding any unused axes | |
for j in range(i + 1, len(axes)): | |
axes[j].set_visible(False) | |
plt.tight_layout() | |
plt.show() |
# Identifying binary columns in the dataset | |
binary_columns = [col for col in data.columns if is_binary(data[col])] | |
# Creating combinations of binary and non-binary numeric columns for box plots | |
binary_non_binary_combinations = list(itertools.product(binary_columns, non_binary_numeric_columns)) | |
# Setting up the plotting grid for these combinations | |
n_plots = len(binary_non_binary_combinations) | |
n_cols = 3 # Number of columns per row | |
n_rows = (n_plots + n_cols - 1) // n_cols # Calculating the required number of rows | |
fig, axes = plt.subplots(n_rows, n_cols, figsize=(15, 5 * n_rows)) # Adjusting the figure size | |
axes = axes.flatten() | |
# Creating box plots for each combination | |
for i, (binary_col, numeric_col) in enumerate(binary_non_binary_combinations): | |
sns.boxplot(x=binary_col, y=numeric_col, data=data, ax=axes[i]) | |
axes[i].set_title(f'{numeric_col} by {binary_col}') | |
# Hiding any unused axes | |
for j in range(i + 1, len(axes)): | |
axes[j].set_visible(False) | |
plt.tight_layout() | |
plt.show() |
# Re-importing necessary libraries and reloading the data | |
import pandas as pd | |
import seaborn as sns | |
import matplotlib.pyplot as plt | |
import itertools | |
# Function to determine if a column is binary | |
def is_binary(column): | |
return sorted(column.unique()) == [0, 1] | |
# Identifying binary columns | |
binary_columns = [col for col in data.columns if is_binary(data[col])] | |
print(binary_columns) | |
for i in range(1, len(binary_columns)): | |
binary_col1, binary_col2 = binary_columns[0], binary_columns[i] | |
# Creating a crosstab | |
ct = pd.crosstab(data[binary_col1], data[binary_col2]) | |
# Plotting the heatmap for this specific crosstab | |
plt.figure(figsize=(10, 8)) | |
sns.heatmap(ct, annot=True, fmt='d', cmap='viridis') | |
plt.title(f'Crosstab of {binary_col1} vs {binary_col2}') | |
plt.ylabel(binary_col1) | |
plt.xlabel(binary_col2) | |
plt.show() |
0 件のコメント:
コメントを投稿