12/6(Tue)

今日の生放送

データサイエンスとは?注目される背景や必要知識について分かりやすく解説

<目次>
1:データサイエンスとは
2:データサイエンスの関連用語と違い
3:データサイエンティストとは
4:データサイエンスの大まかなフロー:OSEMNモデル
5:データサイエンスに取り組む上での課題
6:データサイエンスに関する授業
7:まとめ

サービスやデバイスのデジタル化をはじめとしたICTによって膨大なデータを蓄積できるようになったデジタル化社会ではさまざまな形式の膨大な量のデータを分析し、ビジネスの課題を導き出すデータサイエンティストの必要性が高まっています(※)。

ここではデジタル化社会で活躍できる人材になるために役立つ、データサイエンスの概要や活用事例、データサイエンティストの仕事内容についてまとめて解説します。

※参照:https://www.juce.jp/LINK/journal/1901/pdf/02_02.pdf

 

データサイエンスとは

データサイエンス とは

データサイエンス(data scienceまたはDS)を直訳するとデータ科学、つまり「データを法則的・体系的にまとめる学問」の意味になりますが、語意だけではデータサイエンスの役割をはじめとした詳細は理解できません。ここではデータサイエンスの全容を把握するため、データサイエンスの定義や活用される場面などについて解説していきます。

 

データサイエンスの定義

データサイエンスの歴史は真新しいものではなく、1960年代には統計の別名として使われていたとも言われています。その後1994年にコンピュータサイエンスの専門家ピーター・ナウアが著書『Concise Survey of Computer Methods』でこの用語をデータを取り扱う手法の一つとして使い始めました。

デジタル大辞泉(小学館)によればデータサイエンスとは「データの分析についての学問分野。統計学、数学、計算機科学などと関連し、主に大量のデータから、何らかの意味のある情報、法則、関連性などを導き出すこと」と定義されており、データを用いる学問全般を指す言葉です。

eコマースや金融、医療をはじめとした各分野においてデジタルデバイスを介して収集されたデータは未加工の状態(生データ)であり、データから意味や課題を見出すことはできません。しかし統計学、数学、情報学、機械学習アルゴリズムなどの手法によって分類・モデル化し、異常やパターンを見つけるデータサイエンスによって、生データは業界や企業の課題やセオリーの意味を持つようになるのです。

またデータサイエンスと同じように未加工のビッグデータを扱う分野にデータ分析がありますが、データ分析はデータサイエンスの一部であり、同義ではありません。データ分析はデータを分析して答えを見つけるフローに特化しており、データサイエンスのように課題やセオリーそのものを見つけるフローは含まれていないからです。

 

データサイエンスが注目される背景

データサイエンス 注目背景

データサイエンスについて理解を深めてビジネスに活かすには、定義や仕組みを知った上で、データサイエンスが求められる理由、つまり注目される背景を把握する必要があります。ここでは技術発展とビジネスにおけるデータの価値の変化から、データサイエンスが注目されるようになった背景を見ていきましょう。

< ビッグデータが蓄積されるようになった >

インターネット環境やインターネットを活用したデバイスの普及・進化によってデータに規則性がなく、表形式に構造化できない、テキストや画像、音声などの非構造化データが急増しました。さらにこれらの非構造化データを利用するための情報技術が高性能化かつ低価格化したことによって、ビッグデータが容易に蓄積できるようになりました。ビッグデータとは以下の特性を備えたデータです。

  • ・多様性(Variety):非構造化データと構造化データの複雑な組み合わせ
  • ・量(Volume):データの量が大量である
  • ・頻度(Velocity):高頻度で発生する

上記以外にもVeracity(正確性)、Validity(有効性)、Value(価値)など、考慮すべきVがあるとの主張もありますが、上記の3つがビッグデータの基礎です。提供するサービスや商品を介して蓄積されたビッグデータはデータサイエンスによってサイバーセキュリティをはじめとした予測分析やターゲットマーケティングまで幅広い活用が可能になっています。

< ビジネスにおけるデータ活用が盛んになった >

インターネット環境の普及や業務のデジタル化によってビジネスはグローバル規模で繋がるようになり、取得できるデータが増えました。このように世界各国から取得されたビッグデータの分析・加工(データサイエンス)によってマーケティングや社内の業務効率化にデータが活用されるようになったのです。

またデータは前述したように、最適なマーケティングや業務効率化による利益最大化のためだけに活用されるわけではありません。デジタル化によって社会の複雑性が増し、変化のスピードも速まった市場の中で「変化を予測する力」の一部としても活用されます。

ビッグデータから法則性を見出し、変化を予測する方法の1つであるデータサイエンスはこのようにしてコンピュータサイエンス分野だけではなく、ビジネスでも注目されるようになったのです。

 

データサイエンスの用途

データサイエンス 用途

ここまで解説したように、データサイエンスはデジタル化社会において蓄積されたビッグデータをビジネスに活用するための手法として注目されるようになりました。次ではビッグデータを分析するためのデータサイエンスの4つの用途を解説します。

< データの見える化(記述的分析) >

記述的分析とは「過去から現在の状況を把握する分析」です。現状を定量的に示す最も基本的なデータ分析です。過去データの集計・分析・グラフ化によってデータを可視化し、売り上げやサイトPV数をはじめとした数値の異常を検知する(探索的分析)ために行います。求められる分析技術の難易度はそれほど高くありませんが、異常を検知するための洞察力が求められる特徴があります。

< 要因分析(診断的分析) >

要因分析とは「過去から現在にかけて起きたことを把握する分析」です。記述的分析によって異常が検知された場合にその原因を探り(探索的分析)、具体的な対策を検討するために行われます。データ間の関係性やパターンなどを定量的に取り扱うことで、データから意思決定に役立つ知見を得られる特徴があります。

< 未来予測(予測的分析) >

未来予測とは「現在から未来にかけて何が起きるかを予測する分析」です。前述した記述的分析や診断的分析によって把握した過去のデータ傾向やパターンから予測モデルを構築し、意思決定に必要な需要や確率の予測をするために行います。

未来予測は顧客行動に合わせたマーケティングや在庫数の予測をはじめとしたオペレーション管理に役立つため、売上向上やコスト削減が期待できる特徴があります。また過去のデータからプロジェクトが目標を達成する確率を割り出せるため、事業のリスク管理にも応用できると言えるでしょう。

< 意思決定のサポート(処方的分析) >

処方的分析とは「現在、取るべき行動を知る分析」です。予測的分析で取得したデータを活用することで未来の予測だけではなく、目標達成のために最適な行動や対応を導き出せるため、社内の従業員に対しては顧客満足度、収益、コスト削減などの目標を達成するための最適な行動を指示することが可能になります。

また処方的分析を用いることで、市場に対して顧客獲得の好機を予測した上で効果的なマーケティング施策を実行しやすくなる特徴があります。

 

データサイエンスの活用例

データサイエンス 事例

データサイエンスはビッグデータを構造化し、課題の要因や将来の予測、具体的な解決策を分析する際に用いられることが分かりました。このようにビッグデータを分析することでビジネスにはさまざまな変化がもたらされます。以下では実際にデータサイエンスを活用している業界とその事例をご紹介していきます。

< 医療・ヘルスケア >

医療・ヘルスケア業界では診察記録や手術記録、薬の処方記録をはじめとした幅広いデータが全国の医療機関からカルテやレセプト(診療報酬明細)、厚生労働省が定めたデータフォーマットなどの形でまとめられ、効果的な治療法の発見に役立てられています。

また予防医療にもデータサイエンスが活用された事例があり、株式会社PREVENTが提供する健診データの分析によって重症化イベントを検知する「Myscope」や生活習慣病の重症化予防や疾患再発率の分析から改善案を提案するマネジメント・プログラム「Mystar」がその一例です。

< 物流 >

物流業界ではEC通販ビジネスの隆盛により、日々大量の荷物の管理と運搬をしています。管理や運搬を効率化させるために活用されるのがデータサイエンス技術です。主に企業が持つデータを分析して経営や業務に役立てるソフトウェアBI(ビジネスインテリジェンス)ツールを活用して、倉庫整備や運転などに従事する人材の最適化や業務工数の削減が行われています。その一例が株式会社日立物流の取組みです。

< 飲食 >

飲食業界では経験による店舗経営の影響で、顧客のニーズと異なる料理の提供や店舗デザインによって思うように売り上げが増加しない場合も少なくありません。この課題を解決するのがデータサイエンス技術です。

伊勢神宮の付近で150年間食堂を営んできた有限会社ゑびやのシステム開発部門が独立した株式会社EBILABでは飲食・サービス業に特化したBIツール「TOUCH POINT BI」の提供で来客予測によるコスト削減や店舗分析による日別・月別販売数の可視化を可能にしています。

また回転ずしチェーン店のスシローでは皿の裏に取り付けられたICチップによって寿司の鮮度管理や需要を分析することによって需要の予測や無駄コストの削減を実現しています。

 

データサイエンスの関連用語と違い

データサイエンス 統計 情報工学

データサイエンスに関して学ぶうちに複数の用語が関連していると気付く方も少なくありません。ここではデータサイエンスを正しく理解するために関連用語とその違いを解説します。

 

統計

統計とは確率論を用いて集団の属性を定量的に把握する手法です。量や空間、構造、変化の研究と推論によってパターンを見つける数学が基礎になっています。一方、データサイエンスはシステムを駆使してさまざまなデータを分析し、データに価値を与える手法です。つまり統計はデータサイエンスの手順の中でデータの構造や構成要素、データが互いに及ぼす作用を定義する「モデリング」の際に必要な知識だと言えます。

 

機械学習

機械学習とはデータを分析する方法の1つで、コンピューターが自動で学習し、コンピューターに分析させたデータの背景にある法則を見つける手法です。コンピューターがデータの背景にある法則を学ぶ方法は入力データに対する答えを学習させる「教師あり学習」と、入力データの背景にある法則を1から導き出す「教師なし学習」またはコンピュータシステム自体がデータを取得しながら学習する方法「強化学習」の3種類があります。

「教師あり学習」は統計学の手法の1つ回帰分析が行われるため、データサイエンスの手順の中で統計と同じようにデータをモデリングする際に必要な知識だと言えます。

 

情報工学

情報工学とは情報技術を工業生産に応用し、コンピューターや情報処理に関する幅広い分野を研究する学問です。情報工学にはプログラミングやデータベースを扱う「ソフトウェア」や現実の問題をコンピューターを用いて解決する「数理情報工学」などが含まれます。

プログラミングやデータベースを扱う点や問題を解決する数理情報工学では統計や機械学習と同じように、データサイサイエンスの手順の中ではデータ分析に必要な知識です。

 

データサイエンティストとは

データサイエンス とは

総務省統計局が2022年度に開講した『データ・サイエンスオンライン講座』によれば、データサイエンティストとはデータサイエンスの研究者であり実践者、技術者やデータサイエンスの技術を身に付けて統計をはじめとしたデータに基づく合理的な思考によって課題を解決出来る人を指します。

この章ではデータサイエンティストの全容が理解できるよう、仕事内容や必要な知識・スキル、関係する他職種について見ていきましょう。

 

どんな仕事か

データサイエンティストには自社のサービスや商品に対する分析提案をする場合と顧客に対してデータ分析のサービスを提供する2種類の働き方があります。どちらの働き方でもデータサイエンティストの主な仕事は分析環境の構築・運用、分析・レポート作成です。分析環境の構築・運用とは、業務システムのログやWebサイトなどから無駄のない良質なデータを収集し、蓄積と運用を可能にする仕組みづくりです。

分析・レポート作成ではプログラミングによってデータを見やすい状態に加工した後、統計的手法や機械学習を用いて分析とモデリングを反復することで結果を導き出します。分析結果が正しいか評価した後に提案の場面に合わせて結果を論文またはパワーポイントにまとめます。

厚生労働省が運用する職業情報提供サイト「jobtag」によればデータサイエンティストの仕事の中で割合が多い作業は以下の通りです。

  • ・情報やデータを分析する
  • ・意思決定と問題解決をする
  • ・上司、部下、組織外の人々とコミュニケーションを取る(情報の説明を含む)

つまりデータサイエンティストは問題を解決するためにデータを整理・分析するだけではなく、分析した結果を関係者に説明・提案するまで一貫として担当する仕事だと言えます。

 

必要知識・スキル

データ分析と問題解決を担うデータサイエンティストには統計解析に関する知識と分析専門の言語であるR言語やより高度な分析を行いたい場合はRudyやPythonなどのプログラミング言語を使えるITスキルが必要です。

またデータ分析に関する専門知識・スキルだけではなく、課題を仮定して問題解決を進めるために必要なビジネススキルやフレームワーク(ロジカルシンキング、ロジックツリーやMECE(ミーシー)など)の知識も欠かせません。

 

プロジェクトでの関係職種

前述の仕事内容でも解説したように、データサイエンティストは個人で集中して仕事をするだけではなく、ビジネスマネージャーやデータエンジニアなどの他職種とコミュニケーションを取りながら仕事を進めます。またデータ活用の需要が高まる一方で、データサイエンティストの育成環境が整っていない点や必要スキルが多く採用難易度が高い点からデータサイエンティストは不足傾向にあり、他職種との協力が欠かせなくなっています。

 

関連資格

アクセス解析・データサイエンティストに必須の資格はありませんが、統計解析スキルを認定する日本統計学会の『統計検定(データサイエンスエキスパート)』やデータベーススキルを認定する『オラクルマスター (ORACLE MASTER)』など、数学、統計学などの知識やテクニカルスキルのレベルを示す資格はデータサイエンティストの仕事に役立つでしょう。

 

データサイエンスの大まかなフロー:OSEMNモデル

データサイエンス 手順

データサイエンティストはデータの収集・分析、問題解決と結果の提案まで、ビッグデータを扱ってビジネスを成功させるために必要な工程を一貫して担う仕事であることが分かりました。ここではデータサイエンスの手順(OSEMNモデル)について解説します。

 

データ収集

まずデータサイエンスでは単なる研究や問題の分析に終始しないよう、分析の目的を決めます。その後は目的を達成するために必要なアンケートや行動履歴、オープンデータをはじめとしたデータの収集に取り掛かります。

データ収集の工程ではデータベースにアクセスする場合は MySQLをはじめとしたデータベース言語を使用する必要があり、FacebookやTwitterなどのWebサイトのデータを分析する場合はWeb API にアクセスする必要があるため、データベース言語やITスキルが欠かせない工程です。また収集されるデータは以下の2種類に分けられます。

    • ・1次データ:分析目的に合わせて自ら収集したデータ
    • ・2次データ:分析目的以外で自らまたは他社が収集したデータ

1次データは分析に適合したデータが揃っているメリットがある一方で、分析に合わせてデータを新たに収集するため、時間や費用を要するデメリットがあります。

2次データは比較的収集が容易である一方で信頼性や扱いやすさに欠けるデメリットがあります。たとえデータサイエンスに用いるのが信憑性の高い1次データであっても、データの形式が統一されていない場合もあるため、データを収集した後は分析しやすい形式に整える必要があります。

 

データ処理(データスクラブ)

データ処理とは分析の目的に合ったデータを分析しやすい形式に整える工程です。この工程ではすべてのデータを1つの形式に統合し、欠落しているデータを補完したり項目ごとにデータを整理します。データ処理は多くの時間を要する煩雑な工程である一方で、この工程をおろそかにするとデータサイエンスが行えなくなってしまうので、注意が必要です。

 

データ探索(探索的データ分析)

データ探索とはデータサイエンティストがモデル構築を行う前にデータの重要性をより理解しやすくするために分散プロットや散布図、棒グラフ、ヒストグラムとして視覚化する工程です。 データ探索はデータの最適な処理方法を決定してデータサイエンティストがパターンを発見し、異常を特定し、仮説をテストし、前提条件を確認するのを簡単にします。

 

モデル構築

モデル構築とは収集したデータをコンピュータが分析できる形式で入力し、機械学習のプログラムを実行して分析の結果を抽出する工程です。「データサイエンスの関連用語と違い」で前述した3種類の学習方法によって、法則や予測を導くためのモデル(数式・アルゴリズム)が導き出されます。これに未知のデータを入力することで、課題解決や予測が可能になるのです。

 

解釈

解釈とは構築したモデルが分析や業務に適応可能なものであるか評価する工程です。モデルはコンピュータによって自動で構築されますが、その数値が有効なものであるかは人間が判断します。例えばコンピュータによって予測された結果と実際の結果が異なる事例が出た場合は構築したモデルが分析に適合しているかこの時点で効果検証し、必要に応じてモデルを再構築する必要があります。

 

データサイエンスに取り組む上での課題

データサイエンス 課題

『令和2年版 情報通信白書』によれば、POSやeコマースによる販売記録、気象データやアクセスログをはじめとした自動取得データの活用が大きく進んでいることから各企業でのIoT導入やビッグデータ活用の動きが高まっていると考えられます。一方、国内企業においてデータサイエンスに取組む上では次の課題も見えています。

 

データサイエンスに関する資金・人材の格差

総務省『デジタルデータの経済的価値の計測と 活用の現状に関する調査研究』(2020)によれば、デジタルデータの活用は中小企業より大企業で進んでいると指摘されています。これはデータサイエンスに費やす資金やデータ分析専門人材の潤沢さによって、データ活用の格差が生じていることを示しており、日本においてデータサイエンスに取組む上での課題の1つです。

これによって中小企業は大企業と比較してセンサーやGPSなどのIoT関連データを活用している割合や、データ閲覧・集計の次の段階である「統計的な分析」や「機械学習・ディープラーニングなどの人工知能(AI)を活用した予測」に取り掛かれる割合が少なくなっています。

※参照:https://www.soumu.go.jp/johotsusintokei/linkdata/r02_05_houkoku.pdf

 

業界・国によるデータサイエンスの活用範囲差

また前出の調査によれば、データ収集サービスの国内企業導入割合は2割程度である一方で、アメリカ及びドイツにおいては5割を超える企業が「導入済み」 と回答しているため、海外企業の方がデータ活用が進んでいると言えます。

また国内業界別でデータサイエンスの活用状況を見てみると情報通信業では「BIツールなどのデータ分析ソフト」や「プログラミング言語(Python、C)」などの応用ソフト・ツールを活用できているのに対して、それ以外の業界ではExcelやAccessなどの基本ソフトのみに留まっています。

 

データサイエンスに関する授業

前述したようにデータサイエンスは複雑性を増す今日に必要な知識である一方で、アメリカやドイツをはじめとした外国と日本を比較するとデータサイエンスの人材不足や、ツール導入が遅れている実態があります。

データサイエンスのスキル獲得によってデータドリブンな経営戦略やマーケティング戦略を立てる方法を身に付け、活躍したいと考えている方はSchooの授業を受講して、データサイエンスに関する知識を獲得する道筋を学んでみましょう。

 

データ分析学習ロードマップ―「データサイエンス」のはじめ方―

データ分析ロードマップ「データサイエンス」のはじめ方

< コース詳細 >

このコースではデータ分析学習への迷いが生じているすべての学習者の方向けに、アナリティクススキルを身につけるための「学習ロードマップ」をテーマに授業を行います。データサイエンスに興味はあるけれど「何から学べばいいのかわからない」「専門家になるにはどうしたらいいのか」などデータ分析を学習する方法がわからない場合に最適な授業ですので、気軽に受講してみてくださいね。

先生プロフィール

村上 智之

村上 智之(むらかみ・ともゆき)
株式会社データラーニング 取締役CAO。株式会社ALBERTにてデータサイエンティストとしてキャリアをスタートし、機械学習やデータエンジニアリングに関する基礎を習得。株式会社イノーバでマーケティングオートメーションツールの開発やサービス企画の経験を積んだ後、澪標アナリティクス株式会社にて、大手自動車メーカーの分析チーム立ち上げに従事。その後2018年5月にデータラーニングを設立。初学者に向けたデータ分析の教育事業とデータ分析の受託事業、データ分析人材向け有料職業紹介事業を展開。

 

まとめ

データサイエンスは統計学や数学、情報工学、機械学習の知識が求められる高度な学問分野ではありますが、データサイエンスを学ぶ道筋を理解できれば、スキル獲得のハードルを下げられるでしょう。Schooではデータサイエンスを含む、デジタルリテラシー(DX)に関する授業が月額980円で受け放題です。ぜひ活用してくださいね。

今日の生放送

  • このエントリーをはてなブックマークに追加

まとめ記事の記事一覧