初めに
本記事では
- データサイエンスとはどのようなものか
- データサイエンティストに必要な力は何か
を説明します。
データサイエンス
データサイエンスとは
データサイエンスとは、
アルゴリズムや統計などといった情報科学系の理論を活用してデータを分析し、有益な知見を見出すことを追究する新しいアプローチ
「データサイエンティストのためのスキルチェックリスト/タスクリスト概説」独立行政法人情報処理推進機構 (IPA) ・データサイエンティスト協会(著)
です。データからプログラミングや数学、統計学、人工知能(AI)を用い、有益な知見や隠されている実用的な洞察を明らかにします。
データサイエンスのプロセス
データサイエンスの流れの一例を紹介します。
(機械学習を用いたデータサイエンスのプロセス)
目的によって変化はしますが、基本的な流れはこの通りです。
データサイエンスは、単に与えられたデータを使って分析をすればよいわけではなく、目的に合わせてデータを収集することも必要になります。なお、データの収集には、データの前処理を含んでおり、データ分析は前処理が8割ともいわれます。また、データから有益な知見を得たり、新たな価値を創出したりするにはそのデータに関する情報についても深く知る必要があります。
データサイエンティストとは
データサイエンティストとは、
データサイエンス力、データエンジニアリング力、ビジネス力の 3 つのスキルをもとにデータから価値を創出し、ビジネス課題に答えを出すプロフェッショナル
「高等学校における「情報II」のためのデータサイエンス・データ解析入門」総務省 統計局
です。
データサイエンティストに求められる力 | 説明 |
データサイエンス力 | 情報処理、人工知能、統計学などの情報科学系の知恵を理解し、使う力 |
データエンジニアリング力 | データサイエンスを意味のある形に使えるようにし、実装、運用できるようにする力 |
ビジネス力 | 課題背景を理解した上で、ビジネス課題を整理し、解決する力 |
データサイエンスのプロセスを踏まえると、これら3つの力が必要になることは納得できます。
データサイエンスに関連するもの
データと統計
まず、「データ」と「統計」の意味を調べてみます。
(データ)
立論・計算の基礎となる、既知あるいは認容された事実・数値。資料。与件。
広辞苑
分かりづらいですが、計算をするための「基になる数字の集まり」がデータといえます。
(統計)
集団における個々の要素の分布を調べ、その集団の傾向・性質などを数量的に統一的に明らかにすること。また、その結果として得られた数値。
広辞苑
例えば、3年1組の英語テストの点数は「データ」です。英語テストの平均点はこのデータの特徴を表す数値であり、「統計」になります。
データサイエンスと統計学・数学
データと統計の意味を踏まえると、データサイエンスに統計学が必要なことは自明です。統計学が基礎であるといってよいでしょう。
統計学は次の2つに分類できます。
分類 | 説明 |
記述統計学 | データの特徴を記述する学問 |
推計統計学 | 標本から母集団を推計する学問 |
記述統計学は、そのデータはどのような特徴を持つのか調べるための学問です。平均や分散、偏差値、相関係数を調べることはこちらに当てはまります。
推計統計学は、集められたデータ(標本)から全体のデータ(母集団)を推測するための学問です。例えば、視聴率の計算に使われているのが推計統計学です。世帯視聴率を調べる際、すべての世帯のテレビを調べることはできないので、一部の世帯のデータを集め、計算されています。
データサイエンスでは、目的とデータの種類に合わせて、統計学を使い、分析をします。
また、統計学は数学の理論をもとに構築されているため、数学の知識も必要です。
データサイエンスと人工知能
人工知能(AI:Artigicial Intelligence)とは、人間の思考プロセスと同じような形で動作するプログラム、あるいは人間が知的と感じる情報処理・技術です。コンピュータにデータを与えることによってデータの特徴や法則性を見出すことのできるコンピュータを人工知能やAIといいます。
機械学習やディープラーニングも人工知能に含まれる概念であり、回帰分析や因子分析、クラスター分析などさまざまな分析に機械学習が使われています。
データサイエンスとプログラミング
データサイエンスにおいて、統計学的手法を用いて分析したり、人工知能を使って分析、予測したりするには、プログラミングの知識が必要になってきます。
世の中にはさまざまなプログラミング言語がありますが、データサイエンスに便利なライブラリが数多くある “Python” がよく使われます。
ライブラリ | 説明 |
Pandas | データ分析の基盤。データフレームと呼ばれる表形式のデータ構造を提供している。 |
Matplotlib | データをグラフや図として可視化する。 |
scikit-learn | 機械学習をするためのライブラリ。 |
3つのライブラリを紹介しましたが、これはほんの一部です。目的に合わせてライブラリを組み合わせて使うことで、データ分析、予測をします。
参考
- 「高等学校における「情報II」のためのデータサイエンス・データ解析入門」https://www.stat.go.jp/teacher/comp-learn-04.html
- IBM データサイエンスとは https://www.ibm.com/jp-ja/topics/data-science
- フリー百科事典『ウィキペディア(Wikipedia)』統計学 https://ja.wikipedia.org/wiki/%E7%B5%B1%E8%A8%88%E5%AD%A6
- 総務省 統計局 統計学習の指導のために 補助教材 統計とは?統計とは?https://www.stat.go.jp/teacher/statistics.html#what