《数据科学:R语言实现》——2.5 使用Excel文件
本節書摘來自華章計算機《數據科學:R語言實現》一書中的第2章,第2.5節,作者 丘祐瑋(David Chiu),更多章節內容可以訪問云棲社區“華章計算機”公眾號查看。
2.5 使用Excel文件
Excel是另一種存儲和分析數據的常用工具。當然,我們可以把Excel文件轉化為CSV文件或者其他文件格式。你也可以在R中安裝加載xlsx程序包,來讀取和處理Excel數據。
準備工作
在本教程中,你需要給開發環境安裝R,同時確保計算機可以訪問互聯網。
實現步驟
執行下列步驟,讀取Excel文檔。
1.首先,安裝加載xlsx程序包:
2.訪問www.data.worldbank.org/topic/economy-and-growth 找到世界經濟指標Excel文件,如圖6所示。
3.使用download.file從下列URL中下載世界經濟指標數據:
4.使用Excel(或Open Office)查看下載的文件,如圖7所示。
5.你可以使用read.xlsx2從下載的Excel文件中讀取數據:
6.從讀取的數據中選取國家名、國家碼、指標名、指標碼以及2014年度:
7.然后,你可以使用函數dim查看文件的維度:
8.最后,你可以把過濾的數據寫入名為2014wbdata.xlsx的文件中:
運行原理
在本教程中,我們介紹了如何使用xlsx程序包讀取和寫入包含世界經濟指標的Excel文件。首先,我們需要安裝加載xlsx程序包。它允許用戶通過R命令,使用Java POI包,讀取和寫入Excel文件。因此,要使用Java POI包,我們也需要同時安裝rJava和xlsxjars。你可以在libraryxlsx]jarsjava下找到Java POI的.jar文件。以作者的計算機為例,它安裝了Windows 7操作系統,.jar文件位于C:Program FilesRR-3.2.1libraryxlsxjarsjava路徑下。
然后,我們使用函數download.file從鏈接 http://data.worldbank.org/topic/economy-and-growth 下載世界經濟指標數據。download.file默認下載文件為ASCII編碼。要下載二進制文件,我們需要設定下載模式為wb。
下載Excel文件之后,我們可以使用Excel查看。Excel文件的截圖說明經濟指標從第1頁的第4行開始。因此,我們可以使用函數read.xlsx2從這個位置讀取數據。xlsx程序包提供了兩個函數來讀取Excel中的數據:read.xlsx和read.xlsx2。因為函數read.xlsx2主要處理Java中的數據,因此read.xlsx2的性能要好些(特別的,read.xlsx2在處理多于100000個數值的數據集時相當快)。
當把工作單的內容都讀取到R的數據框后,我們可以從R數據框中選取變量Country.Name、Country.Code、Indicator.Name、Indicator.Code和X2014,然后使用函數dim查看數據框的維度。最后,我們可以使用write.xlsx2把轉換后的數據寫入一個Excel文件2014wbdata.xlsx中。
總結
以上是生活随笔為你收集整理的《数据科学:R语言实现》——2.5 使用Excel文件的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: SVN不是配置管理系统
- 下一篇: 监听门后德美恢复网监合作