2024年6月5日水曜日

データサイエンスの面白さ

 この数年、「AI・データサイエンス」がキーワードとなり、社会で注目がされ続けています。2023年に生成AIが社会に普及し、少し下火になっていたAIブームも盛り返してきました。今回は「データサイエンス」について考えてみたいと思います。

(1) データサイエンスの定義

データサイエンスといっても、学術的な明確な定義がある訳ではなく、幅広い意味で使われています。これはAI(人工知能)についても同様です。ですので、「データサイエンスを実践する」と言っても人によって意味合いが異なります。つまり、自分自身で「データサイエンス」を定義して、方向性を定め、実践していく必要があります。僕自身ではデータサイエンスの定義を、「"数学"、"データ"、"コンピューティング"を連携し、"社会の課題解決"を図ること」と単純に定義をしています。つまり、数学的要素とデータと技術を掛け合わせて、人や社会のために貢献することになります。AIとの違いをあえて言うならば、データサイエンスでは「自動化」と言うところが少し薄いところでしょうか。データサイエンスは人と一緒に現場の課題解決を図ることで一つのアウトプットとしています。その結果を定型化、標準化し、自動化したものがAIとも言えます。データサイエンスは、人や社会に目を向けているウエイトが大きく、少し人間的な要素も多く含まれていると考えています。


(2) データサイエンスとの出会い

僕くらいの年齢で、元々データサイエンスが専門ですという人はほとんどいないのではないかと思います。僕自身、オペレーションズ・リサーチ、確率過程が専門です。僕のデータサイエンスの定義で言うと、数学的要素の部分になります。この分野を勉強していたのですが、まずクラウド・コンピューティングが普及し、コンピューティングの部分が使いやすくなりました。それまでは、1研究者では、計算用サーバは費用がかかり中々使えなかったのですが、クラウド環境の普及で、1研究者でも大規模な計算ができるようになりました。このコンピューティングの民主化が研究の幅を大きく広げてくれました。

次に、社会システムにおけるデータの蓄積が進み、ある程度まとまったデータが入手できるようになりました。研究でのデータ解析の依頼も増えて、自然に現在のデータサイエンスの環境が整っていきました。今までは自分でデータを取得し、それを利用していたのですが、企業、病院や自治体などからの依頼が増え、様々な分野と連携できるようになりました。

このように、(i)専門でやっていたオペレーションズ・リサーチ、確率過程をベースにして、(ii)大規模かつ様々なデータセットの提供と、(iii)その大規模データを計算可能としたクラウド環境の普及が、僕のデータサイエンスの柱となっています。


(3) データサイエンスの魅力

データサイエンスの魅力は、様々な分野と連携できることだと思います。通常の研究と少し違い、データセットによって、医療・臨床、商品の需要予測、セキュリティなど分野が異なってきます。それによって、その分野の専門家とディスカッションすることで、新たな知見を得ることも多いです。分野が異なっても、分析方法は大きく変わる訳ではありませんので、自分のスタンスを守れれば、分野が異なっても大きく困ることはありません。また、自分のスキルをダイレクトに社会に届けることも魅力の一つです。社会の課題解決に、自分のスキルが少しでも貢献できればと思い、日々研究を進めています。


(4) データサイエンスの注意点

データサイエンスを実施するときに注意点がいくつかあります。まず、データサイエンスの目的の一つが、「社会の課題解決を図る」ということを述べましたが、そのためには、現場の意見を尊重しなければならず、データ分析の結果を押しつけてはならないと言うことです。現場、組織には、外から見えないカルチャーがあり、それを無視して課題解決にはなりません。そのためには、現場の意見集約が可能なキーパーソンの担当者とのディスカッションを密にして、データ分析の結果をステークホルダーの意思決定に寄与することにウエイトをおきます。つまり、現場の意見を反映し、意思決定に寄与する形を重視することで、データサイエンスの結果が活きると考えています。


(1) ~ (4)でデータサイエンスについて述べましたが、データサイエンスについて興味を持ってもらえると嬉しいです。次は、データサイエンスの方法論や具体的な内容についても記載できればと思います。


0 件のコメント:

コメントを投稿