r语言必学的十个包肖凯_【R语言】必学包之dplyr包-白红宇的个人博客

发布日期：2021-06-24 11:28:25 浏览次数：2 分类：技术文章

本文共 11322 字，大约阅读时间需要 37 分钟。

R包dplyr可用于处理R内部或者外部的结构化数据，相较于plyr包，dplyr专注接受dataframe对象, 大幅提高了速度,并且提供了更稳健的数据库接口。同时，dplyr包可用于操作Spark的dataframe。本文只是基础的dplyr包学习笔记，所以并不会讨论一些高级应用，或者与data.table包的性能比较。

1. 数据集类型转换

tbl_df()可用于将过长过大的数据集转换为显示更友好的 tbl_df 类型。使用dplyr包处理数据前，建议先将数据集转换为tbl对象。

语法： tbl_df(data)

举例

1：

#data.frame类型数据集

class(mtcars)

#转换为tbl_df类型

#转换为data.frame类型

filter() 和slice()函数可以按给定的逻辑条件筛选出符合要求的子数据集, 类似于 base::subset() 函数，但代码更加简洁, 同时也支持对同一对象的任意个条件组合(表示AND时要使用&或者直接使用逗号)，返回与.data相同类型的对象。原数据集行名称会被过滤掉。

语法：filter(.data,

...)

举例 1：

#过滤出cyl == 8的行

filter(mtcars, cyl == 8)

filter(mtcars, cyl

#过滤出cyl

filter(mtcars, cyl

#过滤出cyl

filter(mtcars, cyl

#过滤出cyl 为4或6的行

filter(mtcars, cyl %in% c(4, 6))

语法

：slice(.data, ...)

slice() 函数通过行号选取数据。

举例

2：

#选取第一行数据

slice(mtcars, 1L)

filter(mtcars, row_number() == 1L)

#选取最后一行数据

slice(mtcars, n())

filter(mtcars, row_number() == n())

#选取第5行到最后一行所有数据

slice(mtcars, 5:n())

filter(mtcars, between(row_number(), 5, n()))3.

排列: arrange

arrange()按给定的列名依次对行进行排序，类似于base::order()函数。默认是按照升序排序，对列名加 desc() 可实现倒序排序。原数据集行名称会被过滤掉。

语法：arrange(.data,

...)

举例1：

#以cyl和disp联合升序排序

arrange(mtcars, cyl, disp)

#以disp降序排序

arrange(mtcars, desc(disp))4.

选择: select

select()用列名作参数来选择子数据集。dplyr包中提供了些特殊功能的函数与select函数结合使用，用于筛选变量，包括starts_with，ends_with，contains，matches，one_of，num_range和everything等。用于重命名时，select()只保留参数中给定的列，rename()保留所有的列，只对给定的列重新命名。原数据集行名称会被过滤掉。

语法

：select(.data, ...)

举例

1：

iris

#选取变量名前缀包含Petal的列

select(iris, starts_with("Petal"))

#选取变量名前缀不包含Petal的列

select(iris, -starts_with("Petal"))

#选取变量名后缀包含Width的列

select(iris, ends_with("Width"))

#选取变量名后缀不包含Width的列

select(iris, -ends_with("Width"))

#选取变量名中包含etal的列

select(iris, contains("etal"))

#选取变量名中不包含etal的列

select(iris, -contains("etal"))

#正则表达式匹配，返回变量名中包含t的列

select(iris, matches(".t."))

#正则表达式匹配，返回变量名中不包含t的列

select(iris, -matches(".t."))

#直接选取列

select(iris, Petal.Length, Petal.Width)

#返回除Petal.Length和Petal.Width之外的所有列

select(iris, -Petal.Length, -Petal.Width)

#使用冒号连接列名，选择多个列

select(iris, Sepal.Length:Petal.Width)

#选择字符向量中的列，select中不能直接使用字符向量筛选，需要使用one_of函数

vars

select(iris, one_of(vars))

#返回指定字符向量之外的列

select(iris, -one_of(vars))

#返回所有列，一般调整数据集中变量顺序时使用

select(iris, everything())

#调整列顺序，把Species列放到最前面

select(iris, Species, everything())举例

2：

#选择V4，V5，V6三列

select(df, V4:V6)

select(df, num_range("V", 4:6))语法

：rename(.data, ...)

举例

3：

#重命名列Petal.Length，返回子数据集只包含重命名的列

select(iris, petal_length = Petal.Length)

#重命名所有以Petal为前缀的列，返回子数据集只包含重命名的列

select(iris, petal = starts_with("Petal"))

#重命名列Petal.Length，返回全部列

rename(iris, petal_length = Petal.Length)5.变形:

mutate

mutate()和transmute()函数对已有列进行数据运算并添加为新列，类似于base::transform() 函数, 不同的是可以在同一语句中对刚增添加的列进行操作。mutate()返回的结果集会保留原有变量，transmute()只返回扩展的新变量。原数据集行名称会被过滤掉。

语法

：mutate(.data, ...)

transmute(.data, ...)

举例

1：

#添加新列wt_kg和wt_t,在同一语句中可以使用刚添加的列

mutate(mtcars, wt_kg = wt * 453.592, wt_t = wt_kg / 1000)

#计算新列wt_kg和wt_t，返回对象中只包含新列

transmute(mtcars, wt_kg = wt * 453.592, wt_t = wt_kg / 1000)6.

去重: distinct

distinct()用于对输入的tbl进行去重，返回无重复的行，类似于 base::unique() 函数，但是处理速度更快。原数据集行名称会被过滤掉。

语法

：distinct(.data, ..., .keep_all = FALSE)

举例

1：

x = sample(10, 100, rep = TRUE),

y = sample(10, 100, rep = TRUE)

)

#以全部两个变量去重，返回去重后的行数

nrow(distinct(df))

nrow(distinct(df, x, y))

#以变量x去重，只返回去重后的x值

distinct(df, x)

#以变量y去重，只返回去重后的y值

distinct(df, y)

#以变量x去重，返回所有变量

distinct(df, x, .keep_all = TRUE)

#以变量y去重，返回所有变量

distinct(df, y, .keep_all = TRUE)

#对变量运算后的结果去重

distinct(df, diff = abs(x - y))7.

概括: summarise

对数据框调用函数进行汇总操作, 返回一维的结果。返回多维结果时会报如下错误：

Error: expecting result of length one, got : 2

原数据集行名称会被过滤掉。

语法：summarise(.data, ...)

举例 1：

#返回数据框中变量disp的均值

summarise(mtcars, mean(disp))

#返回数据框中变量disp的标准差

summarise(mtcars, sd(disp))

#返回数据框中变量disp的最大值及最小值

summarise(mtcars, max(disp), min(disp))

#返回数据框mtcars的行数

summarise(mtcars, n())

#返回unique的gear数

summarise(mtcars, n_distinct(gear))

#返回disp的第一个值

summarise(mtcars, first(disp))

#返回disp的最后个值

summarise(mtcars, last(disp))8.

抽样: sample

抽样函数，sample_n()随机抽取指定数目的样本，sample_frac()随机抽取指定百分比的样本，默认都为不放回抽样，通过设置replacement = TRUE可改为放回抽样，可以用于实现Bootstrap抽样。

语法

：sample_n(tbl, size, replace = FALSE, weight = NULL,.env

= parent.frame())

举例

1：

#随机无重复的取10行数据

sample_n(mtcars, 10)

#随机有重复的取50行数据

sample_n(mtcars, 50, replace = TRUE)

#随机无重复的以mpg值做权重取10行数据

sample_n(mtcars, 10, weight = mpg)语法

：sample_frac(tbl, size = 1, replace = FALSE, weight = NULL,.env

= parent.frame())举例 2：

#默认size=1，相当于对全部数据无重复重新抽样

sample_frac(mtcars)

#随机无重复的取10%的数据

sample_frac(mtcars, 0.1)

#随机有重复的取总行数1.5倍的数据

sample_frac(mtcars, 1.5, replace = TRUE)

#随机无重复的以1/mpg值做权重取10%的数据

sample_frac(mtcars, 0.1, weight = 1 / mpg)

分组: group

group_by()用于对数据集按照给定变量分组，返回分组后的数据集。对返回后的数据集使用以上介绍的函数时，会自动的对分组数据操作。

语法

：group_by(.data, ..., add

= FALSE)

举例

1：

#使用变量cyl对mtcars分组，返回分组后数据集

by_cyl

#返回每个分组中最大disp所在的行

filter(by_cyl, disp == max(disp))

#返回每个分组中变量名包含d的列，始终返回分组列cyl

select(by_cyl, contains("d"))

#使用mpg对每个分组排序

arrange(by_cyl, mpg)

#对每个分组无重复的取2行记录

sample_n(by_cyl, 2)举例

2：

#使用变量cyl对mtcars分组，然后对分组后数据集使用聚合函数

by_cyl

#返回每个分组的记录数

summarise(by_cyl, n())

#求每个分组中disp和hp的均值

summarise(by_cyl, mean(disp), mean(hp))

#返回每个分组中唯一的gear的值

summarise(by_cyl, n_distinct(gear))

#返回每个分组第一个和最后一个disp值

summarise(by_cyl, first(disp))

summarise(by_cyl, last(disp))

#返回每个分组中最小的disp值

summarise(by_cyl, min(disp))

summarise(arrange(by_cyl, disp), min(disp))

#返回每个分组中最大的disp值

summarise(by_cyl, max(disp))

summarise(arrange(by_cyl, disp), max(disp))

#返回每个分组中disp第二个值

summarise(by_cyl, nth(disp,2))举例 3：

#使用cyl对数据框分组

grouped

#获取分组数据集所使用的分组变量

groups(grouped)

#ungroup从数据框中移除组合信息，因此返回的分组变量为NULL

groups(ungroup(grouped))语法

：group_indices(.data, ...)

返回分组后，每条记录的分组id。

举例

4：

#返回每条记录所在分组id组成的向量

group_indices(mtcars, cyl)语法

：group_size(x)

n_groups(x)

group_size用于返回每个分组的记录数，n_groups返回分成的组数。

举例

5：

by_cyl

#返回每个分组记录数组成的向量

group_size(by_cyl)

summarise(by_cyl, n())

table(mtcars$cyl)

#返回所分的组数

n_groups(by_cyl)

length(group_size(by_cyl))

对数据集的每个分组计数，类似于base:: table()函数。其中count已经过group_by分组，而tally需要对数据集调用group_by后对分组数据计数。

语法

：tally(x, wt, sort = FALSE)count(x, ..., wt =NULL, sort = FALSE)

举例

6：

#使用count对分组计数，数据已按变量分组

count(mtcars, cyl)

#设置sort=TRUE，对分组计数按降序排序

count(mtcars, cyl, sort = TRUE)

#使用tally对分组计数，需要使用group_by分组

tally(group_by(mtcars, cyl))

#使用summarise对分组计数

summarise(group_by(mtcars, cyl), n())举例

7：

#按cyl分组，并对分组数据计算变量的gear的和

count(mtcars, cyl, wt = gear)

tally(group_by(mtcars, cyl), wt = gear)10. 数据关联：join

数据框中经常需要将多个表进行连接操作, 如左连接、右连接、内连接等，dplyr包也提供了数据集的连接操作，类似于 base::merge() 函数。语法如下：

#内连接，合并数据仅保留匹配的记录

inner_join(x,y, by = NULL, copy = FALSE, suffix = c(".x", ".y"), ...)

#左连接，向数据集x中加入匹配的数据集y记录

left_join(x,y, by = NULL, copy = FALSE, suffix = c(".x", ".y"), ...)

#右连接，向数据集y中加入匹配的数据集x记录

right_join(x,y, by = NULL, copy = FALSE, suffix = c(".x", ".y"), ...)

#全连接，合并数据保留所有记录，所有行

full_join(x,y, by = NULL, copy = FALSE, suffix = c(".x", ".y"), ...)

#返回能够与y表匹配的x表所有记录

semi_join(x,y, by = NULL, copy = FALSE, ...)

#返回无法与y表匹配的x表的所有记录

anti_join(x, y, by = NULL, copy = FALSE, ...)

by设置两个数据集用于匹配的字段名，默认使用全部同名字段进行匹配，如果两个数据集需要匹配的字段名不同，可以直接用等号指定匹配的字段名，如，

by = c("a" = "b")，表示用x.a和y.b进行匹配。如果两个数据集来自不同的数据源，copy设置为TRUE时，会把数据集y的数据复制到数据集x中，出于性能上的考虑，需要谨慎设置copy参数为TRUE。合并后的数据集中同名变量，会自动添加suffix中设置的后缀加以区分。

举例

1：

df1 = data.frame(CustomerId=c(1:6), sex = c("f", "m", "f", "f", "m", "m"), Product=c(rep("Toaster",3), rep("Radio",3)))

df2 = data.frame(CustomerId=c(2,4,6,7),sex = c( "m", "f", "m", "f"), State=c(rep("Alabama",3), rep("Ohio",1)))

#内连接，默认使用"CustomerId"和"sex"连接

inner_join(df1, df2)

#左连接，默认使用"CustomerId"和"sex"连接

left_join(df1, df2)

#右连接，默认使用"CustomerId"和"sex"连接

right_join(df1, df2)

#全连接，默认使用"CustomerId"和"sex"连接

full_join(df1, df2)

#内连接，使用"CustomerId"连接，同名字段sex会自动添加后缀

inner_join(df1, df2, by = c("CustomerId" = "CustomerId"))

#以CustomerId连接，返回df1中与df2匹配的记录

semi_join(df1, df2, by = c("CustomerId" = "CustomerId"))

#以CustomerId和sex连接，返回df1中与df2不匹配的记录

anti_join(df1, df2)11.

集合操作: set

dplyr也提供了集合操作函数，实际上是对base包中的集合操作的重写，但是对数据框和其它表格形式的数据操作更加高效。语法如下：

#取两个集合的交集

intersect(x,y, ...)

#取两个集合的并集，并进行去重

union(x,y, ...)

#取两个集合的并集，不去重

union_all(x,y, ...)

#取两个集合的差集

setdiff(x,y, ...)

#判断两个集合是否相等

setequal(x, y, ...)

举例

1：

mtcars$model

first

second

#取两个集合的交集

intersect(first, second)

#取两个集合的并集，并去重

union(first, second)

#取两个集合的差集，返回first中存在但second中不存在的记录

setdiff(first, second)

#取两个集合的交集，返回second中存在但first中不存在的记录

setdiff(second, first)

#取两个集合的交集, 不去重

union_all(first, second)

#判断两个集合是否相等，返回TRUE

setequal(mtcars, mtcars[32:1, ])

12. 数据合并: bind

dplyr包中也提供了按行/列合并数据集的函数，合并的对象为数据框，也可以是能够转换为数据框的列表。按行合并函数bind_rows()通过列名进行匹配，不匹配的值使用NA替代，类似于base:: rbind()函数。按列合并函数bind_cols()通过行号匹配，因此合并的数据框必须有相同的行数，函数类似于base:: cbind()函数。原数据集行名称会被过滤掉。语法如下:

#按行合并，.id添加新列用于指明合并后每条数据来自的源数据框

bind_rows(...,.id = NULL)

#按列合并

bind_cols(...)

#合并数据集

combine(...)

举例

1：

one

two

#按行合并数据框one和two

bind_rows(one, two)

#按行合并元素为数据框的列表

bind_rows(list(one, two))

#按行合并数据框，生成id列指明数据来自的源数据框，id列的值使用数字代替

bind_rows(list(one, two), .id = "id")

#按行合并数据框，生成id列指明数据来自的源数据框，id列的值为数据框名

bind_rows(list(a = one, b = two), .id = "id")

#按列合并数据框one和two

bind_cols(one, two)

bind_cols(list(one, two))举例

2：

#合并数据框，列名不匹配，因此使用NA替代，使用rbind直接报错

bind_rows(data.frame(x = 1:3), data.frame(y = 1:4))举例 3：

#合并因子

c(f1, f2)

unlist(list(f1, f2))

#因子level不同，强制转换为字符型

combine(f1, f2)

combine(list(f1, f2))13. 条件语句：ifelse

dplyr包也提供了更加严格的条件操作语句，if_else函数类似于base::ifelse()，不同的是true和false对应的值必须要有相同的类型，这样使得输出类型更容易预测，因此相对而言执行效率更高。

语法

：if_else(condition,true, false, missing = NULL)

missing值用于替代缺失值。

举例

1：

#替换所有小于0的元素为NA，为了保持类型一致，因此使用NA_integer_

if_else(x

#使用字符串missing替换原数据中的NA元素

if_else(x

#if_else不支持类型不一致，但是ifelse可以

ifelse(x

2：

#if_else会保留原有数据类型

if_else(x %in% c("a", "b", "c"), x, factor(NA))

ifelse(x %in% c("a", "b", "c"), x, factor(NA))

case_when语句类似于if/else语句。表达式使用“~”连接，左值LHS为条件语句用于判断满足条件的元素，右值为具有相同类型的替换值，用于替换满足条件的元素。

语法

：case_when(...)

举例

3：

#顺序执行各语句对原向量进行替换，因此越普遍的条件需放在最后

case_when(

x %% 35 == 0 ~ "fizz buzz",

x %% 5 == 0 ~ "fizz",

x %% 7 == 0 ~ "buzz",

TRUE ~ as.character(x)

)14.

数据库操作: database

dplyr也提供了对数据库的连接和操作函数，目前仅支持sqlite, mysql，postgresql以及google bigquery。dplyr可把R代码自动转换为SQL语句，然后在数据库上执行以获取数据。实际的处理过程中，所有的R代码并不是立即执行，而是在实际获取数据的时候，一次性在数据库中执行。下面以sqlite数据库为例。

创建和连接数据库: src_sqlite(path, create = FALSE)

当create为FALSE(默认)，path必须为已存在的数据库路径和全名，为TRUE，会根据设置的path创建sqlite数据库。

举例

1：

#在默认工作路劲下创建sqlite数据库

my_db

列出数据源x中所有的表：src_tbls(x)

举例

2：

#目前数据库中还没有表

src_tbls(my_db)

导入数据到创建的数据库中并创建相应的表，如果未给出表名则使用传入的data frame名称，导入时可以通过indexes参数给创建的表添加索引, copy_to同时会执行ANALYZE命令以保证表具有最新的统计信息并且执行相应的查询优化。

导入数据到远程数据源：copy_to(dest,

df, name =deparse(substitute(df)), temporary, indexes,...)

举例

3：

library(nycflights13)

#导入flights数据到数据库中，并创建相应的索引

flights_sqlite

#已存在表flights

src_tbls(my_db)

tbl可用于与源数据源(src)中的数据(from)建立连接，from可以是表名或者是SQL语句返回的数据。

与数据库建立连接： tbl(src, from, ...)

举例

4：

#查询数据库中表数据，直接给出表名

tb.flight

#查询数据库中表数据，使用SQL语句返回数据

tb.flight2

5：

#操作数据库中数据，语句并没有被实际执行，只有显式获取数据时才会执行

在未显式获取数据时，所有的操作只是生成tbl_sql对象，可以通过以下操作获取返回相应的SQL语句以及执行计划。

语法：show_query(x)

explain(x, ...)

举例

6：

#返回对象c4对应的SQL语句

show_query(c4)

#返回对象c4对应的SQL语句以及执行计划

explain(c4)

对于lazy操作的这种机制，数据操作实际并没有真正的执行查询，如果需要返回数据结果，可以用以下的函数强制执行查询并返回结果。

#强制执行查询，并返回tbl_df对象到R

collect(x, ...)

#强制执行查询，并在源数据库中创建临时表存储结果

compute(x, name = random_table_name(),temporary = TRUE,

unique_indexes = list(), indexes = list(),...)

#不强制执行查询，拆分复杂的tbl对象，以便添加额外的约束

collapse(x, ...)

举例

7：

#执行c4查询，返回对象到R

tbl_dfight

#执行查询并在数据库中创建临时表，通过src_tbls可查询到新建的temp表

compute(c4, name = 'temp_flights')

src_tbls(my_db)

#实际并没有执行查询，仍可用show_query返回对应的SQL语句

remote

show_query(remote)

转载地址：https://blog.csdn.net/weixin_32503531/article/details/112814569 如侵犯您的版权，请留言回复原文章的地址，我们会给您删除此文章，给您带来不便请您谅解！

上一篇：python的matplotlib库_python matplotlib库的使用

下一篇：css33d图片轮播_CSS3 3D效果轮播图

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！

发表评论

最新留言

关于作者

推荐文章