
spark sql去除某一行或某一属性值为空的行 最简单办法
就这两行代码:
发布日期:2021-05-08 14:12:37
浏览次数:21
分类:精选文章
本文共 381 字,大约阅读时间需要 1 分钟。
想去除某一属性为特定值或null的那一行
思路: 1、把你想要筛选的那一列,变为string类型新增一列。 2、用filter()过滤掉这一行 例如:我想去除time列中为空,且1970年的行:

新增time_string,类型为string:
t=t.withColumn('time_string',t['time'].cast('String'))
t = t.filter(t['time_string']!='null')t = t.filter(t['time_string']!='1970-01-01 00:00:00')
最后完成:

t=t.withColumn('time_string',t['time'].cast('String'))t = t.filter(t['time_string']!='null')
发表评论
最新留言
感谢大佬
[***.8.128.20]2025年04月19日 08时24分55秒
关于作者

喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
.NET跨平台之旅:将示例站点升级至 .NET Core 1.1 Preview 1
2021-05-09
上周热点回顾(1.16-1.22)
2021-05-09
上周热点回顾(1.23-1.29)
2021-05-09
上周热点回顾(3.20-3.26)
2021-05-09
上周热点回顾(4.24-4.30)
2021-05-09
[故障公告]博客站点1台负载均衡遭遇流量攻击,造成联通与移动用户无法正常访问
2021-05-09
上周热点回顾(5.1-5.7)
2021-05-09
上周热点回顾(5.29-6.4)
2021-05-09
上周热点回顾(6.19-6.25)
2021-05-09
云计算之路-阿里云上:docker swarm 集群故障与异常
2021-05-09
上周热点回顾(2.19-2.25)
2021-05-09
云计算之路-阿里云上:博客web服务器轮番CPU 100%
2021-05-09
云计算之路-阿里云上:服务器CPU 100%问题是memcached连接数限制引起的
2021-05-09
上周热点回顾(3.26-4.1)
2021-05-09
故障公告:IIS应用程序池停止工作造成博客站点无法访问
2021-05-09
【故障公告】极验验证码故障造成无法登录与注册
2021-05-09
上周热点回顾(6.25-7.1)
2021-05-09
【故障公告】10:30-10:45 左右 docker swarm 集群节点问题引发故障
2021-05-09
工作半年的思考
2021-05-09