「データサイエンティスト」になるためには — データサイエンス事始め(2)

「データサイエンティスト」関連の書籍については、「銀座で働くデータサイエンティストのブログ」を参考にさせていただいています。これを書いている時点での最新記事に「データサイエンティストというかデータ分析職に就くための最低限のスキル要件とは」というのがありました。

それによると、

—–
・みどりぼん程度の統計学の知識
・はじパタ程度の機械学習の知識
・RかPythonでコードが組める
・SQLが書ける
—–
(引用元:「銀座で働くデータサイエンティストのブログ」)

とのことです。エンジニアからの「データ分析技術者」転向ならば、Python、SQLあたりは問題無いと思います。(JavaでもCでもC#でも、一つのプログラミング言語に精通している人が別の言語、特にスクリプト言語でそこそこ書けるようになるのはそれほどハードルは高くないというのが私の持論です。)

Rについては、単にプログラミング言語という感じではなく、統計そのものに直結しているので「統計学」を学ぶというステップが必要になると思います。

残りの、「みどりぼん程度の統計学の知識」、「はじパタ程度の機械学習の知識」に関しては、大学時代に統計や機械学習に触れていない文系Javaエンジニアにとっては、大きなハードルです。そもそも「みどりぼん」ってなんだろう?「はじパタ」ってなんだろう?からのスタートになります。

同記事によると、どうやら「みどりぼん」というのは、「データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)」という書籍のことらしいです。「統計学がわかる (ファーストブック)」も表紙が緑色だからこれじゃないかと最初は思ったのですが、どうやら違うようです。結構スタートライン(最低ライン?)までが遠い道のりです。

データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)

データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)

  • 作者: 久保 拓弥
  • 出版社/メーカー: 岩波書店
  • 発売日: 2012/05/19
  • メディア: 単行本

もう一つの「はじパタ」というのは、「はじめてのパターン認識」のことみたいです。

はじめてのパターン認識

はじめてのパターン認識

  • 作者: 平井 有三
  • 出版社/メーカー: 森北出版
  • 発売日: 2012/07/31
  • メディア: 単行本(ソフトカバー)

「機械学習」については、オライリーから「実践 機械学習システム」や「入門 機械学習」のような本が出ているのでエンジニアはこちらの方がとっつきやすいかもしれません。ただし、「入門 機械学習」は入門という名前は付いていますが、Rベースの本なので注意が必要です。

実践 機械学習システム

実践 機械学習システム

  • 作者: Willi Richert
  • 出版社/メーカー: オライリージャパン
  • 発売日: 2014/10/25
  • メディア: 大型本


入門 機械学習

入門 機械学習

  • 作者: Drew Conway
  • 出版社/メーカー: オライリージャパン
  • 発売日: 2012/12/22
  • メディア: 大型本

「データサイエンティスト」になるためには — データサイエンス事始め(2)のデータサイエンティストに必要なスキルと、上記の「最低限のスキル要件」から、まずは以下の知識・技術を身につけるのがよいのではないかと思います。

—–
・IT系スキル
言語:Python、R(統計学の勉強の後、もしくは並行)
プラットフォーム:Linux(AmazonのAWSなども)、RDBMS、Hadoop、Hive
・分析スキル
統計学、統計解析
機械学習
・ビジネススキル
ビジュアライゼーション
—–
*ちょっと分類が変かもしれませんがご容赦ください。

これらをどう身につけていくかについては次項以降で。。。