4.13.2013

Getting Started with R

R はじめました

オープンソースの統計解析用言語「R」が面白いらしい。
百聞は一見に如かずということで、とりあえずインストールだけはしておく。

環境は OS X 10.7。 

インストール

ちょうど今月にバージョン 3.0.0 がリリースされた様子。

公式サイト
The R Project for Statistical Computing

「CRAN mirror」から 適当なサイトを選んでOSに合ったパッケージをインストール。
特筆すべきは何もなく、ただYesマンになるだけ。

Install R 3 0 0 for Mac OS X 10 6 or higher  Snow Leopard build Continue
Install R 3 0 0 for Mac OS X 10 6 or higher  Snow Leopard build Continue
Install R 3 0 0 for Mac OS X 10 6 or higher  Snow Leopard build Continue
Screenshot 4 13 13 24 05

License を読んで Agree

Install R 3 0 0 for Mac OS X 10 6 or higher  Snow Leopard build

Install

その後、OSユーザのパスワードを聞かれたら入力

Install R 3 0 0 for Mac OS X 10 6 or higher  Snow Leopard build 2 Close

 

起動

プログラムを立ち上げると、R Console という GUI が実行される。

まずは手習いとして、カリフォルニア大学アーバイン校(UCI Machine Learning Repository)の
アイリス(植物のアヤメ)のデータ(UCI Machine Learning Repository: Iris Data Set)を表示させてみよう。

こちらのデータを iris.csv としてホームディレクトリに保存する。
http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data

データはカンマ区切りとなっており、自然界にあるアヤメの
ガクの長さ、ガクの幅、花弁の長さ、花弁の幅、学名
が150セット記述されている。 

そして、ファイルの先頭行に次のような見出しを追加しておく。

sepal_length,sepal_width,petal_length,petal_width,class
R Console 初期画面
R Console 2

iris <- read.csv('iris.csv') で
データをオブジェクトに格納。

iris と打てば全データが表示される。

R Console

str(iris) でオブジェクトの構造を表示

R Console summary(iris) で基礎統計量を表示
Quartz 2 plot(iris$sepal_length, iris$sepal_width) でガクの長さと幅の関係を散布図にプロット
Quartz 2 hist(iris$sepal_length) でガクの長さのヒストグラムを表示

  

References 

RjpWiki - RjpWiki

0 件のコメント:

コメントを投稿