Apache Pig Distinct運(yùn)算符
Admin 2022-09-29 群英技術(shù)資訊 946 次瀏覽
關(guān)于“Apache Pig Distinct運(yùn)算符”的知識有一些人不是很理解,對此小編給大家總結(jié)了相關(guān)內(nèi)容,具有一定的參考借鑒價(jià)值,而且易于學(xué)習(xí)與理解,希望能對大家有所幫助,有這個(gè)方面學(xué)習(xí)需要的朋友就繼續(xù)往下看吧。DISTINCT 運(yùn)算符用于從關(guān)系中刪除冗余(重復(fù))元組。
下面給出了 DISTINCT 運(yùn)算符的語法。
grunt> Relation_name2 = DISTINCT Relatin_name1;
假設(shè)在HDFS目錄 /pig_data/ 中有一個(gè)名為 student_details.txt 的文件,如下所示。
student_details.txt
001,Rajiv,Reddy,9848022337,Hyderabad 002,siddarth,Battacharya,9848022338,Kolkata 002,siddarth,Battacharya,9848022338,Kolkata 003,Rajesh,Khanna,9848022339,Delhi 003,Rajesh,Khanna,9848022339,Delhi 004,Preethi,Agarwal,9848022330,Pune 005,Trupthi,Mohanthy,9848022336,Bhuwaneshwar 006,Archana,Mishra,9848022335,Chennai 006,Archana,Mishra,9848022335,Chennai
通過關(guān)系 student_details 將此文件加載到Pig中,如下所示。
grunt> student_details = LOAD 'hdfs://localhost:9000/pig_data/student_details.txt' USING PigStorage(',')
as (id:int, firstname:chararray, lastname:chararray, phone:chararray, city:chararray);
現(xiàn)在,讓我們使用 DISTINCT 運(yùn)算符從 student_details 關(guān)系中刪除冗余(重復(fù))元組,并將其另存在一個(gè)名為 distinct_data 的關(guān)系 如下所示。
grunt> distinct_data = DISTINCT student_details;
使用 DUMP 運(yùn)算符驗(yàn)證關(guān)系 distinct_data ,如下所示。
grunt> Dump distinct_data;
它將產(chǎn)生以下輸出,顯示關(guān)系 distinct_data 的內(nèi)容如下。
(1,Rajiv,Reddy,9848022337,Hyderabad) (2,siddarth,Battacharya,9848022338,Kolkata) (3,Rajesh,Khanna,9848022339,Delhi) (4,Preethi,Agarwal,9848022330,Pune) (5,Trupthi,Mohanthy,9848022336,Bhuwaneshwar) (6,Archana,Mishra,9848022335,Chennai)
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:[email protected]進(jìn)行舉報(bào),并提供相關(guān)證據(jù),查實(shí)之后,將立刻刪除涉嫌侵權(quán)內(nèi)容。
猜你喜歡
MapReduce - 讀取數(shù)據(jù)?通過InputFormat決定讀取的數(shù)據(jù)的類型,然后拆分成一個(gè)個(gè)InputSplit,每個(gè)InputSplit對應(yīng)一個(gè)Map處理,RecordReader讀取InputSplit的內(nèi)容給Map。InputFormat決定讀取數(shù)據(jù)的格式,可以是文件或數(shù)據(jù)庫等
大數(shù)據(jù)剖析技能有哪些?大數(shù)據(jù)時(shí)代,每天都有海量的數(shù)據(jù)產(chǎn)生,我們想要從中獲取到對我們有用處的信息,大數(shù)據(jù)剖析有很大的幫助。因此這篇文章就給大家來簡單的介紹一下大數(shù)據(jù)剖析技能,感興趣的朋友就繼續(xù)往下看吧。
GROUP 運(yùn)算符用于在一個(gè)或多個(gè)關(guān)系中對數(shù)據(jù)進(jìn)行分組,它收集具有相同key的數(shù)據(jù)。語法下面給出了 group 運(yùn)算符的語法。grunt> Group_data = GROUP Relation_name BY age;
一個(gè)正常運(yùn)營的產(chǎn)品每天會產(chǎn)生大量的數(shù)據(jù),如果把這些數(shù)據(jù)都收集起來進(jìn)行分析,不僅會使工作量增加,浪費(fèi)大量時(shí)間,很可能還會得不到想要的分析結(jié)果。作為一名數(shù)據(jù)分析人員,更不應(yīng)該為了分析而分析,而是應(yīng)該緊緊圍繞你的分析目的(了解現(xiàn)狀、分析業(yè)務(wù)變動(dòng)原因、預(yù)測發(fā)展趨勢等)去進(jìn)行分析。所以,在開始數(shù)據(jù)收集工作之前,就應(yīng)該先把數(shù)據(jù)分析的目的梳理清楚,防止出現(xiàn)”答非所問”的數(shù)據(jù)分析結(jié)果。
hadoop可靠性主要包括了哪些,怎么理解?HDFS 的可靠性主要有以下幾點(diǎn):冗余副本策略、機(jī)架策略、心跳機(jī)制等等。下面我們來詳細(xì)的了解一下
推薦內(nèi)容
相關(guān)標(biāo)簽
成為群英會員,開啟智能安全云計(jì)算之旅
立即注冊關(guān)注或聯(lián)系群英網(wǎng)絡(luò)
7x24小時(shí)售前:400-678-4567
7x24小時(shí)售后:0668-2555666
24小時(shí)QQ客服
群英微信公眾號
CNNIC域名投訴舉報(bào)處理平臺
服務(wù)電話:010-58813000
服務(wù)郵箱:[email protected]
投訴與建議:0668-2555555
Copyright ? QY Network Company Ltd. All Rights Reserved. 2003-2020 群英 版權(quán)所有
增值電信經(jīng)營許可證 : B1.B2-20140078 ICP核準(zhǔn)(ICP備案)粵ICP備09006778號 域名注冊商資質(zhì) 粵 D3.1-20240008