次はプログラミング言語の話。
「データサイエンティスト養成読本 [ビッグデータ時代のビジネスを支えるデータ分析力が身につく! ] (Software Design plus)」に「データサイエンティスト」として必要なスキルのうちITスキルとして、”R、Python、Perl、Mahout、MADlib、Jubatusなどの言語に関する知識と経験”などが挙げられていることについては、以前書かせていただきました。
また色々と勉強させていただいている「銀座で働くデータサイエンティストのブログ」のデータサイエンティストというかデータ分析職に就くための最低限のスキル要件とは」という記事に”RかPythonでコードが組める”ということが書かれていたこともすでに紹介させていただきました。
このうちRについては、統計学とかなり密な関係にあるので統計学を知らないと言語のマスターもままならないのではないかと、統計学の入門の次(もしくは同時並行で)にRのスタートをするべきではないかということを感じでいます。
まずは、Pythonの書籍の選定から始めたいと思います。
多くのエンジニア(少なくとも一つのプログラミング言語をマスターしたエンジニア)は、プログラミング言語の書籍を頭から読むなどということはせずに、ハンドブック的なものやリファレンス的なものに手を出すと思います。
コンピューターサイエンスやアルゴリズムなどをちゃんと学んでいない文系エンジニアがPythonを学ぶのに利用して欲しいのが、「Python言語によるプログラミングイントロダクション: 世界標準MIT教科書」という本です。”世界標準”という言葉や”MIT教科書”という言葉につられているわけではありません。
この本には、
—–
・プログラミング言語の基礎
・Python言語の
・計算法を理解するための中心となる概念
・計算機を用いて問題解決を行うためのテクニック
—–
(引用元:「Python言語によるプログラミングイントロダクション」序文)
という特徴があります。ただ単にプログラミング言語が学べるだけでなく、
—–
・(略式ではあるが)計算複雑性の理論の理解
・曖昧な問題記述を問題解決のための計算法へ転換するための方法
・便利なアルゴリズム的な問題帰着のテクニック
・解析的な方法ではなかなか解けないような問題に対するランダム性やシミュレーションの適用方法
・モデル化やデータ解析のための簡単な統計や可視化ツールの使用法
—–
(引用元:「Python言語によるプログラミングイントロダクション」序文)
といった知識も同時に身につけられるのです。
この本の暫定版は、edX(MITx)のコースでも使われたとのことなので、英語力があればそれを参考にするのもいいかもしれません。

Python言語によるプログラミングイントロダクション: 世界標準MIT教科書
- 作者: ジョン・V. グッターグ
- 出版社/メーカー: 近代科学社
- 発売日: 2014/12/29
- メディア: 単行本
「Python言語によるプログラミングイントロダクション」の次に手を出すのが、「Pythonによるデータ分析入門 ―NumPy、pandasを使ったデータ処理」という本です。
NumPy、pandas、matplotlib、IPython、SciPyなどのライブラリを使った分析の手法を身につけることができます。

Pythonによるデータ分析入門 ―NumPy、pandasを使ったデータ処理
- 作者: Wes McKinney
- 出版社/メーカー: オライリージャパン
- 発売日: 2013/12/26
- メディア: 大型本
最近のコメント