好書介紹:R in Action

Kabacoff, Robert I. (2011), R in Action: Data Analysis and Graphics with R, Manning. 玩 R 的人大多知道 Quick-R: accessing the power of R 這個網站,此站不僅名稱 www.statmethods.net 令人印象深刻,且網頁組織與規劃得十分簡單明瞭,內容說明更是清楚…

好書介紹:R through Excel

Heiberger, R. M. and Neuwirth, E. (2009), R Through Excel: A Spreadsheet Interface for Statistics, Data Analysis, and Graphics, Springer. 英國牛津大學統計系的 Ripley 教授(知名的 Modern Applied Statistics with S 一書及 R 套件 MASS 的共同作…

好書介紹:simpleR Using R for Introductory Statistics

John Verzani (2001), simpleR – Using R for Introductory Statistics. R 軟體給人的印象是艱澀難近,尤其是沒有統計基礎的初學者們。網路上有許多免費的學習教材,美國紐約城市大學教授 John Verzani 所編著的simpleR – Using R for Introductory Statistics…

好書介紹:Data Manipulation with R

Spector, Phil (2008), Data Manipulation with R, Springer. 許多人都被資料分析/資料探勘中複雜的模型所吸引,殊不知資料分析師費時最多的工作卻是各式資料的前處理(data preprocessing)作業。證諸資料分析競賽中的優勝作品,資料探勘專案的關鍵成功因素是從…

R 的字元處理函數 paste

最近對文字資料探勘(text mining)特別感到興趣,因此,今天就來談談 R 的字元處理。大家都知道 R 中處理字元最常用的函數就屬 paste 了。其實 paste 有兩個重要參數 collapse 與sep,請先看下面的例子。 > paste("one", 2, "three", 4, "five") [1] "one 2 thre…

R 軟體入門書籍推介

CARS 的宗旨就是推廣 R 軟體,雖然起步維艱,但只要我們持續努力,終究對 R 感興趣的人 會越來越多。目前大部分的大專院校都沒有開設 R 軟體課程,這導致很多人不知道如何開始 學習 R 軟體。論壇發問或許是不錯的方式,CARS 網站上也有 R 使用者論壇,但最好的方式…

R軟體中的attach 與時下的 with 指令

最近在學會(http://www.r-software.org/)的台灣 R 軟體使用者論壇上有人提起 attach 指令,讓我想起前一陣子看到的 with 指令。過去我們常用 attach 指令,將資料框物件附加到搜尋路徑(search path)上,使得資料框中的變數對於 R 的直譯器(interpreter)而言…

R軟體再談行導向

進行資料分析前,資料正規化經常是一個必要的步驟。此時若能留意R 的行導向特性,當可事半功倍。例如:欲對下列三行變數做最大-最小正規化 > (x <- matrix(1:24,8,3)) [,1] [,2] [,3] [1,] 1 9 17 [2,] 2 10 18 [3,] 3 11 19 [4,] 4 12 20 [5,] 5 13 21 [6,]…

巨人的肩膀與 plyr R軟體套件

瞎忙了一陣子,驚覺許久未動筆撰寫閒話家常了,雖然每天都會操作或閱讀一些 R 相關文件,但總覺不能脫稿太久。回想起常在課堂上對學生或學員們說:「 R 海無涯,為勤是岸。」不但是鼓勵學員,也算是一種自我惕勵。但這樣說來,好像學 R 是件令人可懼的事,其…

R軟體應用於機率密度曲線與累積分配曲線的繪製

機率與統計的教科書都會有機率密度函數(probability density function, pdf) 與累積分配函數(cumulative distribution function, cdf)的圖形,以說明累積機率值與分位點(quantile)的對應關係。在R 中,讀者可以pnorm 函數求出某一分位點的累積幾率值。例如:…

R軟體的寬資料與長資料

當我們對單一資料蒐集對象測量多個變數值時,寬資料是指同一對象的所有測量值都排在同一列;長資料則是各個測量值單獨成一列,並標明其是哪個變數的測量值。某些統計分析須使用寬資料,例如相關分析;也有些分析偏好長資料,例如變異數分析。 首先,我們以da…

R軟體for迴圈的迷思

許多人認為學會過了程式設計,就能夠駕馭R 語言!殊不知R 語法有其特殊性,更遑論背後的統計模型與繪圖專業了。舉例來說,下面就是標準的不良R 程式(canonical bad Rprogram),用來計算a 與b 兩向量的內積: > (a <- 1:5) [1] 1 2 3 4 5 > (b <- 5:1) [1] 5 4…

R軟體apply系列基本函數的運用

資料分析經常需要運用for 迴圈反覆執行某項工作,然而R 程式中卻不可用太多的迴圈,否則會大大降低程式執行的效率!以紐約市空氣品質資料為例,其為包含六個變數的154 筆資料,以apply 函數可以輕易地計算出各行變數的平均值。 > head(airquality) > apply(a…

R軟體如何儲存隨機種子?

R是一個很好的模擬工具,有許多內建函數可資運用。使用者有時希望獲得相同的模擬結果,則可將隨機種子(random seed)儲存起來重複利用。例如: > set.seed(12) > seed <- .Random.seed > x <- runif(10) > .Random.seed <- seed > y <- runif(10) x-y [1] 0 0…

R軟體的資料排列

R 是以行來排列資料的語言,舉例來說:先建一 3X4 的二維矩陣。 > x <- matrix(1:12,3,4); x 矩陣中的資料預設就是依序以行來排列完成。今欲計算每列四筆資料的平均數與中位數,運用 apply 函數如下: > myMeanNMedian <- function(x) (mean(x), median(x)) …

OpenOffice.org與odfWeave

OpenOffice.org(OO.o)為一開放源碼的桌上生產力套裝軟體,它可以安裝在所有的作業平台上。OO.o 可讀取大多數的文件格式(.odt,.rtf,.txt,.html,.xml 等),當然也包括.doc 與.docx 檔。OO.o 的標準附加檔名為.odt,是開放文件文本(Opendocument text)的英…

能活血造血的工具 versus 安逸的工具

最近經常在想一個問題,為何我們會settle down在R這個資料分析的工具上?根據KDnuggets最新的調查顯示(2013 Top Languages for analytics, data mining, data science ),R的使用比例已經連續三年攀升,目前高達60.9%,超過六成了(http://www.kdnuggets.com/…

Big Data Analytics還是Data Analytics

Big Data (巨量資料,或稱大數據) 已經成為一個 hype ! 但我經常在想一個問題,真的人人(或每家公司)都有巨量資料需要分析嗎?我懷疑!況且小到中量的數據都理解不了,或玩不動,如何開大車呢!所以我覺得Data Science (資料科學,或稱數據科學) 的價值應該…