「データサイエンティスト」になるためには — データサイエンス事始め(1)

普通のサーバサイドJavaエンジニアが「データサイエンティスト」になるためには、どうすればいいかというのを色々と模索しています。

ここ数ヶ月、「データサイエンティスト」というのは、”なんらかの分野でPh.D取っていて、研究のために「統計学」を駆使していて、他の分野にでもその「統計的スキル」を応用できる人”というようなイメージを抱くようになりました。

3日や5日のセミナーに出て、「さあ今日から私はデータサイエンティストだ!」と言えるようなものではないのだと考えるようになったわけです。

そこまでは無理としても(20代なら挑戦してみてもいいのではないかと思います)、呼び名はともかくとして、「データ分析」に関わるエンジニアとしてどういうスキルを身につければいいのかというのを考えるようになりました。

「データ分析」をするためのプラットフォームを作るだけ(それだけでも大変なことなのですが)という立場から、もうちょっと「サイエンス寄り」に踏み込むにはどのような知識や技術を身につければいいのかというのを考えるようになったわけです。

あまりにも有名な本ですが、「データサイエンティスト養成読本(Software Design plus)」によると、

—–
・ハードスキル
ITスキル
RDBMS関連、SQL、Hadoop関連、Java、HDFS関連、MapReduce関連、
Hive、pig、Linuxコマンドなどに関する知識と経験
R、Python、Perl、Mahout、MADlib、Jubatusなどの言語に関する知識と経験
分析系スキル
各種統計解析、各機械学習に関する知識、SAS、SPSS、KXEN、KNIME、
AlpineMinerなどのツールに関する知識と経験
・ソフトスキル
ビジネス系スキル
業界・業務に関する知識、質問力、理解力、伝達力、説得力、プロジェクト推進能力
などのコミュニケーションに関する能力
—–
(引用元:「データサイエンティスト養成読本(Software Design plus)」p.10 表1「データサイエンティストのスキル一覧」)
*表中のMADlibは、Matlabの誤記ではないかと思っています。

というスキルが「データサイエンティスト」として必要なスキルとのことです。全ての言語や分析ツールに精通するというのは不可能だと思うので、自分なりに取捨選択してスキルを身につけることが重要だと思います。
*注:ここでいう「データサイエンティスト」は、「データ分析技術者」という意味合いなのだと私は解釈しています。

次項以降で、それらのスキルをどうやって身につけていくかについて触れたいと思います。

データサイエンティスト養成読本 [ビッグデータ時代のビジネスを支えるデータ分析力が身につく! ] (Software Design plus)

データサイエンティスト養成読本 [ビッグデータ時代のビジネスを支えるデータ分析力が身につく! ] (Software Design plus)

  • 作者: 佐藤 洋行
  • 出版社/メーカー: 技術評論社
  • 発売日: 2013/08/08
  • メディア: 大型本