機械学習・ディープラーニングがゼロから学べる大人気『脱ブラ』が無料に!

【厳選】データサイエンス・データ分析のオススメ本 18 選 – 超定番から隠れた良書まで –

こんにちは、データサイエンスの講師をしているキカガクの木下です!
今回は「データサイエンス・データ分析」に関するオススメ書籍を 18 冊、厳選して紹介します。

データサイエンティスト関連の本は数多く紹介ありますが、自分に適切な書籍なのか?実務に活かせるのか?など、悩む方は多いのではないでしょうか?

本記事では、以下のような観点でオススメの書籍を紹介します!

  • 各書籍の対象レベルを 3 段階に分割!
  • データサイエンスを細かいステップに分割、各ステップごとに、参考書籍を紹介!
  • データサイエンスの実務にすぐに活かせる本を紹介!

目次

データサイエンスの流れ

はじめに、データサイエンスの流れを紹介します。実はそれぞれのステップにおいて、読むべき書籍が違うため、「自分がどのステップを学びたいのか」把握することが必要不可欠です。

データサイエンスの流れは下図のようになります。

5step

それでは、それぞれのステップにおける参考書を紹介していきます。

① 課題への気づき - まず読むべき参考書!-

ここでは、データ分析を行う前に読んでおくべき参考書をピックアップしました。

【定番】分析者のためのデータ解釈学入門 データの本質をとらえる技術

1 冊目は「分析者のためのデータ解釈学入門 データの本質をとらえる技術」です。

この書籍には、データ分析で注意すべきこと、全てが詰まっています。特に、初学者向けの書籍では扱われることの少ない以下のような内容を簡潔に説明していることが特徴です。

  • データに含まれる誤差やバイアス
  • 探索的データ分析と確証的データ分析の違い
  • 数理モデリングの仮定や妥当性
  • データ分析・解釈・活用の罠

この中には、すでに分析を経験しているデータサイエンティストも見落としていることが多く含まれており、ドキッとすることも多いのではないでしょうか。
データの本質を捉えるという、データサイエンスにとって一番大切なことを教えてくれる必見の一冊です。

こんな人におすすめ!
  • これからデータ分析をはじめたい
  • 現在、少しでもデータ分析に携わっている
  • なんとなく手法などは知っているが、体系的にデータの解釈を学んだことがない

【定番】AI・データ分析プロジェクトのすべて[ビジネス力×技術力=価値創出]

2 冊目は「AI・データ分析プロジェクトのすべて[ビジネス力×技術力=価値創出]」です。

この書籍は、データ分析の各手法に関しての解説ではなく、実際にビジネスでデータ分析プロジェクトを行う際の流れや注意点などが書かれています。各節には対象読者が明示されており、自分が読むべきパートがわかりやすいのも特徴です。

また、データサイエンスだけでなく、データエンジニアリングなどの分野にも渡って話が展開されており、熟達したデータサイエンティストでも学ぶことが多い一冊です。

こんな人におすすめ!
  • これから社内でデータ分析プロジェクトに関わる予定がある
  • 社内のデータを活用したいと考えている
  • データサイエンティストになりたい

【基礎】図解ポケット 今日から使える! データサイエンスがよくわかる本

3 冊目は「図解ポケット 今日から使える! データサイエンスがよくわかる本」です。

この本は、データサイエンスに全く触れたことのない方におすすめです。どのページを開いても右側のページにはイラストがあり、視覚的に理解できるよう工夫されています。

また、最先端のテクノロジー学習ロードマップも載っており、次の学習へと繋げやすい書籍です。

こんな人におすすめ!
  • これからデータサイエンスを学びたい
  • 自分の専門ではないけど、ざっくりデータ分析の概要を知りたい
  • 専門書等でつまずいた経験がある

【発展】実践Data Scienceシリーズ R と Stan ではじめる ベイズ統計モデリングによるデータ分析入門

4 冊目は「実践Data Scienceシリーズ R と Stan ではじめる ベイズ統計モデリングによるデータ分析入門」です。

ビッグデータになるほど、欠測値が多くなる傾向にあります。そのため、欠測値が多いデータに有効とされるベイズ統計への注目度が急上昇中です。

この書籍は、実践的なコードを踏まえて、数学的に難しくなりやすいベイズ統計を簡潔に説明しており、初学者にもおすすめです!

Python のコードはありませんが、R や Stan を初めて使う学習者でも問題なく学べます。特に、行列表現が丁寧に解説されているところが実践的で素晴らしいところです。

こんな人におすすめ!
  • 一歩進んだデータ分析をしたい
  • ベイズというキーワードに興味がある
  • Stan を用いたデータ分析を学びたい

② データの取得・構造化 – 見落としがちなデータの前処理 –

次に、データサイエンティストがかなりの時間を費やすこととなるデータの前処理に役立つ書籍を紹介します。

【定番】前処理大全[データ分析のための SQL/R/Python 実践テクニック]

データの前処理で最初に紹介するのは「前処理大全[データ分析のための SQL/R/Python 実践テクニック]」です。

タイトルと表紙のインパクトが強烈な書籍ですが、中身は万人におすすめできる前処理の定番書籍です。

この本の特徴は、SQL, R, Python の 3 種類の処理が載っているだけでなく、Not Awesome なコードとその理由まで記載されていることです。目的の処理を行うことはもちろん、効率的な前処理という一歩先のレベルまで対応しています。

こんな人におすすめ!
  • 汚いデータを扱うことが多い
  • Python や R だけでなく SQL も頻繁に扱う
  • 効率の良い前処理を会得したい

【定番】 Python 実践データ分析 100 本ノック

次に紹介するのは「Python 実践データ分析 100 本ノック」です。

実際にデータ処理を学ぶことと、実データに適用することには大きな乖離があります。そのギャップを埋めてくれるのがこの本です。

pandas やデータ分析手法を用いて実データを加工する問題が 100 題用意されています。基礎編、実践編、応用編の 3 つに分かれており、特に基礎編での「データの加工」はデータサイエンスで必須の知識です。

また、応用編では、自由記述アンケート分析のための自然言語処理が用意されており、他ではあまり扱われない実践的な状況が想定されていることも大きな特徴です。

この本をすべて解き終えたときには、実践力が相当レベルアップしていること間違いなしです!

こんな人におすすめ!
  • なんとなく関数の使い方などは理解できた気がしている
  • 実際に手を動かして勉強したい
  • 実データが手元にないけど実践的な演習がしたい

【発展】 pandas クックブック ―Python によるデータ処理のレシピ―

次に紹介するのは「pandas クックブック ―Python によるデータ処理のレシピ―」です。

pandas は Python でデータ分析を行う際に、必須のライブラリです。しかし、pandas の使い方をきちんと学ぶ機会は少ないと思います。

そこで、本書を用いて、pandas の基礎から応用までを体系的に学ぶことはデータサイエンティストにとって非常に重要です!この書籍では、序盤に基本的な pandas の処理を網羅的に学び、後半ではより実践的な使い方を学べます。

一部、読みにくい部分もありますが、筆者の pandas 愛やこだわりがあふれており、一歩進んだ pandas の使い方をしたい人には特におすすめです。

こんな人におすすめ!
  • Python を用いたデータ分析の経験がある
  • 効率の良い pandas の処理が知りたい
  • pandas 愛好家

【発展】 改訂2版 RユーザのためのRStudio[実践]入門〜tidyverseによるモダンな分析フローの世界

次に紹介するのは「改訂2版 RユーザのためのRStudio[実践]入門〜tidyverseによるモダンな分析フローの世界」です。

データ分析は R 派といった方も多いと思います。そんな方には tidyverse と呼ばれる「tidy なツール群」を用いたデータ分析手法を紹介しているこの書籍をおすすめします。この書籍一冊あれば、R 特有の書き方や、強みを生かした分析方法を実践レベルで学ぶことが可能です。

この本は、基本的なデータ処理だけでなく、スクレイピングを用いたデータ取得からレポーティングまで幅広く網羅しています。R を用いてデータ分析を行いたい方は持っていて損のない一冊です!

こんな人におすすめ!
  • R を用いたデータ分析をしている、したい
  • R でより簡潔でわかりやすいデータ分析をしたい
  • R 愛好家

③ 探索的データ分析 – どのようにデータを可視化するか –

探索的データ分析は、データから特徴を発見することを主目的として行われます。その際には、データを可視化して人間が把握しやすい形にしたり、変数間の相関関係を見たりといった処理が必要になります。ここではその段階で、参照すべき書籍を紹介します!

【定番】kaggle で上位に入るための探索的データ解析入門

最初に紹介するのは「kaggle で上位に入るための探索的データ解析入門」です。

こちらは探索的データ分析にテーマを絞った数少ない書籍の一つです。「Kaggle で勝つため」という書名ですが、データ分析に関わる人すべてに有用な内容が含まれています。

分量も多くなく、値段もお買い得なので、探索的データ分析を行うときには、まずこの書籍を読むことを推奨します。

こんな人におすすめ!
  • 探索的データ分析で何をしたらいいかわからない
  • ガッツリ勉強する時間が取れない
  • kaggle に挑戦してみたい

【基礎】Tableau で始めるデータサイエンス

次に紹介するのは「Tableau で始めるデータサイエンス」です。

データ分析には興味があるけど、プログラミングに抵抗がある方も多いのではないでしょうか。
こちらは 誰でも簡単に使える BI ツールである Tableau を用いてデータサイエンスを行うための書籍です。一通りの可視化手法はもちろん、機械学習の実践など様々な事柄が紹介されています。

直感的に操作しやすい BI ツールを用いたデータ分析の書籍は非常に貴重なので、社内で使える環境にある方は必見です!

こんな人におすすめ!
  • 社内で BI ツールを活用している
  • 他者にデータ分析結果を報告する予定がある
  • プログラミングに抵抗があるけど、データ分析には興味がある

【基礎】統計学の基礎から学ぶ Excel データ分析の全知識

次に紹介するのは「統計学の基礎から学ぶ Excel データ分析の全知識」です。

こちらは Excel のみを使って統計的なデータ分析を行うための書籍になります。Excel のテーブルやグラフからヒートマップまで、様々な可視化手法を紹介しています。こちらも、プログラミングが苦手な方や会社では Excel しか使える環境にない方におすすめです。

発展的な内容として、Excel 上での最適化なども紹介されており、類似書籍ではあまり見かけない処理も含まれています。Excel を極めたい方もぜひ読んでみてください!

こんな人におすすめ!
  • 社内のデータは Excel で保存されていることが多い
  • Excel を極めたい
  • プログラミングに抵抗があるけど、データ分析には興味がある

【発展】実践 Data Science シリーズ データ分析のためのデータ可視化入門

次に紹介するのは「実践 Data Science シリーズ データ分析のためのデータ可視化入門」です。

こちらは R を用いた実践的なデータの可視化方法に関する書籍です。

この書籍の素晴らしい点は、他者を説得するために、なぜそのようなデータを用いるのかをきちんと説明していることです。それにより、グラフの出力方法だけでなく、グラフの選択まで身につくこと間違いなしです!

こんな人におすすめ!
  • どのようにデータを可視化したら効率的かわからない
  • R を使ってデータ分析をしている
  • 分析レポートを書く予定がある社会人・学生

④ 統計モデルによる分析 – 数多くの書籍から抜粋して紹介 –

統計モデルによる分析は、予め設定した仮説を証明したり、ある値を予測するような数理モデリングを行う分析です。一般的に、データ分析と聞いて思い浮かべるパートであり、数多くの書籍が存在しますが、ここでは特に参考になる書籍を抜粋して紹介します。

【定番】Kaggle で勝つデータ分析の技術

最初に紹介するのは「Kaggle で勝つデータ分析の技術」です。

こちらは探索的データ分析で紹介した書籍と同様に Kaggle をテーマにデータ分析の技術を説明しています。やはりこの書籍も、Kaggle に挑戦する人だけでなく、データ分析に関わる人全てに有用な情報が含まれています。

筆者たちは Kaggle で優秀な成績を残し、数少ない Kaggle Competitions Grandmaster などの称号を得ており、経験を元にした実データに対する大切な処理が多く紹介されています。特に、書籍では紹介されることの少ない、実践的な過程がきちんと説明されており、実現場で役立つこと間違いなしです!

日本語でこのレベルのデータサイエンティストの知見を学ぶことができるのは非常に貴重なので、ぜひ読んでみてください。

こんな人におすすめ!
  • 実務でデータ分析に関わっている
  • 世界レベルのデータサイエンティストのノウハウを知りたい
  • Kaggle に挑戦してみたい

【定番】データ分析のための数理モデル入門 本質をとらえた分析のために

最初に紹介するのは「データ分析のための数理モデル入門 本質をとらえた分析のために」です。

実際に分析を行う際に、数多くある分析手法の中からどの手法を使ったら良いかわからない方も多いと思います。この本は、そんな方におすすめの一冊です。

この本ではデータ分析で用いられる数理モデルが数多く紹介されています。線形回帰などの一般的なモデルから多体系モデルといった、あまり類似書籍にない手法まで広く網羅されています。

この書籍の素晴らしい点は、モデルの選択方法や評価方法にも詳しく言及されていることです!一見、難しいモデルが並んでいるため気後れするかもしれませんが、全てのデータサイエンティストにおすすめしたい一冊となっています!

こんな人におすすめ!
  • 分析手法の違いがわからない
  • 複数のモデルを試したあと、どのモデルが適切かの判断ができない
  • 様々な数理モデルを網羅的に知りたい

【発展】つくりながら学ぶ! Python による因果分析 ~因果推論・因果探索の実践入門

次に紹介するのは「つくりながら学ぶ! Python による因果分析 ~因果推論・因果探索の実践入門」です。

みなさんは相関関係と因果関係の違いがわかるでしょうか。
これまで相関関係に関する分析は比較的容易に行われてきました。一方で、因果関係が一般的な環境で分析できるようになったのは比較的最近のことです。

この本では、Python を用いて因果関係を分析する様々な手法が紹介されています。統計的な手法だけでなく、Deep Learning を用いた因果分析までコードとともに紹介されている数少ない書籍です!

こんな人におすすめ!
  • 相関関係ではなく、本当の因果関係を推定してみたい
  • 一歩進んだデータ分析をしてみたい
  • 最先端の技術を実装できるようになりたい

【発展】欠測データ処理: R による単一代入法と多重代入法

 最後に紹介するのは「欠測データ処理: R による単一代入法と多重代入法」です。

データを最初に確認するときに欠測値の有無を確認している方は多いでしょう。しかし、その欠測値の扱いを深く考えきれていないかもしれません

実は、単純にデータを除いたり、平均値で埋めるだけでは不十分な場合が多くあります。

この書籍は、データの欠測値を補間する方法をコードとともに紹介している貴重な書籍です。これから先、欠測値の扱いはますます重要になっていくと考えられるため、今のうちに学んで損はありません!

こんな人におすすめ!
  • 欠測値の多いデータを分析する機会がある
  • これから大切になる技術を早めにキャッチアップしたい
  • 数学的な背景にも興味がある

⑤ 分析結果の解釈・レポーティング – データからどのように説得するか –

最後に、これまでのデータ分析結果を解釈し、レポーティングする際に便利な書籍を紹介します。ここは、データサイエンスにとって最も重要と言っても過言ではないですが、見過ごされていることが非常に多いパートのため、ぜひ書籍で体系的に学んでみてください。

【定番】データ視覚化のデザイン

最初に紹介するのは「データ視覚化のデザイン」です。

正しくデータ分析の結果を伝えるためには、美しくデータを視覚化することが重要です。この書籍では有効なグラフの選択法だけでなく、どのようなタイトルが効率的か、字体はどれを選ぶべきかといったところまで紹介されています。

これ一冊で、データのレポートが一気に引き締まり、プロらしいレポーティングができるようになります。直接的なデータ分析の本ではないですが、全てのデータサイエンティストにおすすめしたい書籍です。

こんな人におすすめ!
  • データをきれいにまとめたい
  • データをもとに他者にプレゼンテーションをする機会がある
  • 細かいところにも気を配るプロフェッショナルになりたい

【基礎】「それ、根拠あるの?」と言わせないデータ・統計分析ができる本

最後に紹介するのは「「それ、根拠あるの?」と言わせないデータ・統計分析ができる本 」です。

「それで何がわかったの?」、データ分析を報告したことがある人なら一度は言われたことがあるセリフだと思います。この本は、最後のレポーティングを想定したデータ分析を行うための参考書です。

対話形式をはさみつつ、初学者にもわかりやすく説明してくれます。また、「データが集まらないときの『データの増やし方』」といった、トリックなども紹介してくれているところがポイントです。

トリックにはじめから頼るのは良くないですが、レポーティングの段階では非常に役立つテクニックになります。これからデータ分析をはじめる方は必見です!

こんな人におすすめ!
  • データの解釈全般を 1 から学びたい
  • データに騙されないような知識を身に着けたい
  • データが不足して困っている

最後に

いかがだったでしょうか。たくさんある書籍の中で「データサイエンス・データ分析」領域でオススメの書籍をピックアップしました。

書籍を選ぶ際は、本記事のような「オススメ書籍」記事を参考に選ぶことももちろん良いですが、実際に書店に行き、様々な書籍を手にとって中身を見てみるのが良いと思います

様々なオススメ情報を事前に手に入れた上で、書店にて書籍を探すとより自分に合った本を見つけることができるので試してみて下さい。

次回は「機械学習」領域のおすすめ書籍を紹介する予定なので、お楽しみに!

データサイエンス実践コースが開講中!

最短で学ぶデータサイエンス実践コース

実データを用いた演習形式のデータ分析を通して、統計・数理の基礎知識、データ加工・可視化、解釈・レポーティングを学ぶデータサイエンス実践コースが開講中です!

2日間の学習を通じ、データ分析のための理論と課題に紐付いた実装力が身につきます。データサイエンスを最短で学びたい方はぜひ詳細をチェックしてみてください!