pig使用入门1
1、在pig下載的安裝包,解壓完成了之后,有一個tutorial目錄,我們使用里面的數據來開始pig學習。如果tutorial目錄下沒有存在pigtutorial.tar.gz文件的話,那么需要使用ant來編譯出這個文件
如果沒有ant,見分類linux下的ant安裝
2、進入tutorial目錄,執行命令ant
得到pigtutorial.tar.gz
3、使用tar -zxvf pigtutorial.tar.gz 解壓
4、上傳excite-small.log進入hdfs中
$>hadoop dfs -put excite-smal.log /input
因為使用pig處理的是hdfs中的文件
我們下面將主要分析excite-small.log文件,該文件的數據結構如下:
UserID?? TimeStamp SearchQuery
5、執行pig進入pig的上下文grunt
6、首先將excite-small.log加載到一個變量(也稱之為alias)中,我們將使用該變量來表示這個數據集:
grunt> log = load 'excite-small.log' as (user, time, query);
注意的是這時pig并沒有運行該命令,僅僅是解析了該命令,只有到使用dump命令或者是store命令時pig才會真正執行該命令。dump命令將打印出這個變量的內容,store命 令將變量所代表的內容保存到一個文件中。
7、 grunt> describe log; 查看結構(語句都以; 結束)
8、如果我們想要查看該log文件的前4行的話:
grunt> lmt = limit log 4;
grunt> dump lmt;(打印)
?
注意:如果出現:Unable to open iterator for alias a,請檢查hadoop是否仍處于safemode狀態,如果是,退出這個狀態。
轉載于:https://www.cnblogs.com/jsunday/p/3789632.html
總結
- 上一篇: Swift学习笔记(8)--函数
- 下一篇: c++ 单例模式 对全局变量的替代