2024年1月22日月曜日

糖尿病:Diabetes Health Indicators Dataset : 基本分析01

糖尿病オープンデータを分析していきます。今回の分析は、Diabetes Health Indicators Dataset (https://www.kaggle.com/datasets/alexteboul/diabetes-health-indicators-dataset)を用いていきます。このデータには、22項目があり、
  • Diabetes_012:糖尿病の状態を示す変数です。

    • 0 = 糖尿病なし
    • 1 = 前糖尿病
    • 2 = 糖尿病
  • HighBP:高血圧の状態を示す変数です。

    • 0 = 高血圧なし
    • 1 = 高血圧
  • HighChol:高コレステロールの状態を示す変数です。

    • 0 = 高コレステロールなし
    • 1 = 高コレステロール
  • CholCheck:過去5年間にコレステロール検査を受けたかどうかを示す変数です。

    • 0 = 過去5年間にコレステロール検査なし
    • 1 = 過去5年間にコレステロール検査あり
  • BMI:身体質量指数

  • Smoker:過去に少なくとも100本のたばこを吸ったかどうかを示す変数です。

    • 0 = 吸ったことなし
    • 1 = 吸ったことあり
  • Stroke:脳卒中を経験したかどうかを示す変数です。

    • 0 = 脳卒中なし
    • 1 = 脳卒中あり
  • HeartDiseaseorAttack:冠動脈性心疾患(CHD)または心筋梗塞(MI)の有無を示す変数です。

    • 0 = なし
    • 1 = あり
  • PhysActivity:過去30日間に非職業的な身体活動を行ったかどうかを示す変数です。

    • 0 = していない
    • 1 = している
  • Fruits:果物を1日1回以上摂取するかどうかを示す変数です。

    • 0 = 摂取しない
    • 1 = 摂取する
  • Veggies:野菜を1日1回以上摂取するかどうかを示す変数です。

    • 0 = 摂取しない
    • 1 = 摂取する
  • HvyAlcoholConsump:週に14杯以上のアルコール飲料を摂取する男性または週に7杯以上のアルコール飲料を摂取する女性かどうかを示す変数です。

    • 0 = そうでない
    • 1 = そうである
  • AnyHealthcare:いかなる種類の健康保険または医療保険を持っているかどうかを示す変数です。

    • 0 = 持っていない
    • 1 = 持っている
  • NoDocbcCost:過去12か月間に医師を訪れる必要があったが、費用のために訪れることができなかったかどうかを示す変数です。

    • 0 = 訪れなかった
    • 1 = 訪れることができなかった
  • GenHlth:一般的な健康状態を示す変数です。スケール1-5

    • 1 = 優れている
    • 2 = とても良い
    • 3 = 良い
    • 4 = まあまあ
    • 5 = 悪い
  • MentHlth:精神的な健康状態を示す変数です。過去30日間の精神的な健康に関する日数を表します。スケール1-30

  • PhysHlth:身体的な健康状態を示す変数です。過去30日間の身体的な健康に関する日数を表します。スケール1-30

  • DiffWalk:歩行や階段の昇降に重大な困難があるかどうかを示す変数です。

    • 0 = なし
    • 1 = あり
  • Sex:性別

    • 0 = 女性
    • 1 = 男性
  • Age:年齢カテゴリー

    • 1 = 18-24歳
    • 9 = 60-64歳
    • 13 = 80歳以上
  • Education:教育レベル

    • スケール1-6
    • 1 = 学校に通ったことがないか、幼稚園のみ
    • 2 = 小学校(1年から8年)
    • 3 = 高校に通ったことがあるが、中途で中退(9年から11年)
    • 4 = 高校卒業(12年またはGED)
    • 5 = 大学1年から3年(一部大学または専門学校)
    • 6 = 大学4年以上(大学卒業)
  • Income:収入スケール

    • スケール1-8
    • 1 = 10,0005=35,000未満
    • 8 = $75,000以上
となっています。実際にダウンロードした「diabetes_binary_health_indicators_BRFSS2015.csv」を取り込んでみます。
(1) データの可視化
今回のデータは、カテゴリカルデータ(質的データ)と数値データ(量的データ)に分類されます。2値データ以外「'BMI', 'Age', 'GenHlth', 'MentHlth', 'PhysHlth', 'Education', 'Income'」をヒストグラムで書いてみます。
各項目の分布を見ることができます。2値データもヒストグラムで書いてみます。
これらのデータに対する2項目間の基本的処理は以下になります。
・散布図(Scatter Plot): 両方の項目が数値データの場合に適しています。これにより、2つの変数間の相関関係を視覚的に把握できます。
・箱ひげ図(Box Plot): 一方がカテゴリカルデータ(例:2値データ)で、もう一方が数値データの場合に適しています。これにより、異なるカテゴリにおける数値データの分布の違いを視覚的に比較できます。
・クロス集計(Crosstab)と棒グラフ: 両方の項目がカテゴリカルデータの場合に適しています。これにより、2つのカテゴリカル変数間の関係を表形式とグラフで表示できます。

まず2値データ以外での散布図です。今回の場合は、離散化されているのであまり面白くはないです。
次に2値データと数値データで箱ひげ図を書いてみます。
次に2値データに対して、クロス集計をしていきます。下記は一つの例です。
[演習]
ここまでの分析で何が言えるかをまとめてみましょう。
Boxplotから
PhysHlth(身体的健康) by DiffWalk(歩行困難):

平均値の違い: 約11.15
中央値の違い: 10
この組み合わせは、歩行困難がある人とない人の間で身体的健康状態に大きな違いがあることを示しています。
PhysHlth by Stroke(脳卒中):

平均値の違い: 約6.58
中央値の違い: 4
脳卒中の経験がある人とない人の間で身体的健康状態に顕著な違いが見られます。
PhysHlth by HeartDiseaseorAttack(心臓病または心臓発作):

平均値の違い: 約5.42
中央値の違い: 2
心臓病または心臓発作の経験がある人とない人の間で、身体的健康状態に大きな違いが存在します。

MentHlth(精神的健康) by NoDocbcCost(医療費用のため医者にかからない):

平均値の違い: 約5.13
中央値の違い: 2
医療費用のために医者にかからない人とそうでない人の間で、精神的健康状態に顕著な違いが見られます。
収入(Income):
糖尿病がない人の収入の中央値は糖尿病のある人よりも高い傾向にあります。これは、収入が低い人ほど糖尿病になるリスクが高い可能性を示唆しています。
糖尿病がない人の方が平均的にも中央値でも収入が高いことを示しています。平均収入において約0.98の違いがあり、中央値には1.0の違いがあります。


[演習] クロス集計から言えることをまとめてください。

0 件のコメント:

コメントを投稿