データサイエンス・データサイエンティストについて

初めに

 本記事では

  • データサイエンスとはどのようなものか
  • データサイエンティストに必要な力は何か

を説明します。

データサイエンス

データサイエンスとは

 データサイエンスとは、

アルゴリズムや統計などといった情報科学系の理論を活用してデータを分析し、有益な知見を見出すことを追究する新しいアプローチ

「データサイエンティストのためのスキルチェックリスト/タスクリスト概説」独立行政法人情報処理推進機構 (IPA) ・データサイエンティスト協会(著)

です。データからプログラミングや数学、統計学、人工知能(AI)を用い、有益な知見や隠されている実用的な洞察を明らかにします。

データサイエンスのプロセス

 データサイエンスの流れの一例を紹介します。

(機械学習を用いたデータサイエンスのプロセス)

 目的によって変化はしますが、基本的な流れはこの通りです。

 データサイエンスは、単に与えられたデータを使って分析をすればよいわけではなく、目的に合わせてデータを収集することも必要になります。なお、データの収集には、データの前処理を含んでおり、データ分析は前処理が8割ともいわれます。また、データから有益な知見を得たり、新たな価値を創出したりするにはそのデータに関する情報についても深く知る必要があります。

データサイエンティストとは

 データサイエンティストとは、

データサイエンス力、データエンジニアリング力、ビジネス力の 3 つのスキルをもとにデータから価値を創出し、ビジネス課題に答えを出すプロフェッショナル

「高等学校における「情報II」のためのデータサイエンス・データ解析入門」総務省 統計局

です。

データサイエンティストに求められる力説明
データサイエンス力情報処理、人工知能、統計学などの情報科学系の知恵を理解し、使う力
データエンジニアリング力データサイエンスを意味のある形に使えるようにし、実装、運用できるようにする力
ビジネス力課題背景を理解した上で、ビジネス課題を整理し、解決する力
一般社団法人データサイエンティスト協会 「3 つのスキルセット」

 データサイエンスのプロセスを踏まえると、これら3つの力が必要になることは納得できます。

データサイエンスに関連するもの

データと統計

  まず、「データ」と「統計」の意味を調べてみます。

(データ)

立論・計算の基礎となる、既知あるいは認容された事実・数値。資料。与件。

広辞苑

 分かりづらいですが、計算をするための「基になる数字の集まり」がデータといえます。

(統計)

集団における個々の要素の分布を調べ、その集団の傾向・性質などを数量的に統一的に明らかにすること。また、その結果として得られた数値。

広辞苑

 例えば、3年1組の英語テストの点数は「データ」です。英語テストの平均点はこのデータの特徴を表す数値であり、「統計」になります。

データサイエンスと統計学・数学

 データと統計の意味を踏まえると、データサイエンスに統計学が必要なことは自明です。統計学が基礎であるといってよいでしょう。

 統計学は次の2つに分類できます。

分類説明
記述統計学データの特徴を記述する学問
推計統計学標本から母集団を推計する学問
フリー百科事典『ウィキペディア(Wikipedia)』統計学

 記述統計学は、そのデータはどのような特徴を持つのか調べるための学問です。平均や分散、偏差値、相関係数を調べることはこちらに当てはまります。

 推計統計学は、集められたデータ(標本)から全体のデータ(母集団)を推測するための学問です。例えば、視聴率の計算に使われているのが推計統計学です。世帯視聴率を調べる際、すべての世帯のテレビを調べることはできないので、一部の世帯のデータを集め、計算されています。

 データサイエンスでは、目的とデータの種類に合わせて、統計学を使い、分析をします。

 また、統計学は数学の理論をもとに構築されているため、数学の知識も必要です。

データサイエンスと人工知能

 人工知能(AI:Artigicial Intelligence)とは、人間の思考プロセスと同じような形で動作するプログラム、あるいは人間が知的と感じる情報処理・技術です。コンピュータにデータを与えることによってデータの特徴や法則性を見出すことのできるコンピュータを人工知能やAIといいます。
 機械学習やディープラーニングも人工知能に含まれる概念であり、回帰分析や因子分析、クラスター分析などさまざまな分析に機械学習が使われています。

データサイエンスとプログラミング

 データサイエンスにおいて、統計学的手法を用いて分析したり、人工知能を使って分析、予測したりするには、プログラミングの知識が必要になってきます。

 世の中にはさまざまなプログラミング言語がありますが、データサイエンスに便利なライブラリが数多くある “Python” がよく使われます。

ライブラリ説明
Pandasデータ分析の基盤。データフレームと呼ばれる表形式のデータ構造を提供している。
Matplotlibデータをグラフや図として可視化する。
scikit-learn機械学習をするためのライブラリ。

 3つのライブラリを紹介しましたが、これはほんの一部です。目的に合わせてライブラリを組み合わせて使うことで、データ分析、予測をします。

参考

タイトルとURLをコピーしました