电影数据分析(大数据分享)
发布日期:2021-10-28 10:19:54
浏览次数:32
分类:技术文章
本文共 1749 字,大约阅读时间需要 5 分钟。
1.导入包:
%matplotlib inlineimport pandas as pdimport matplotlib.pyplot as plt
2.导入用户数据;
unames = ['user_id','gender','age','occupation','zip']users=pd.read_table('ml-1m/users.dat',sep='::',header=None,names=unames)
3.导入电影分数表:
rating_name=['user_id','movie_id','rating','timestamp']ratings = pd.read_table('ml-1m/ratings.dat',sep='::',header=None,names=rating_name)
4.导入电影基本信息表:
movie_name = ['movie_id','title','genres']moives = pd.read_table('ml-1m/movies.dat',sep='::',header=None,names=movie_name)
5.合并数据表
data =pd.merge(pd.merge(users,ratings),moives)
6.筛选电影平均分
ratings_by_gender=data.pivot_table(values='rating',index='title',columns='gender',aggfunc='mean')
7.筛选出电影男生和女生人数:
by_boy_movies =data[data.gender=='F'] by_girl_movies=data[data.gender=='M']
8.筛选各个电影男生人数,然后放入新建表中:
by_boy_movies_sum= by_boy_movies.groupby('title').size()df_by_boy_movies_sum=pd.DataFrame({'F_sum':by_boy_movies_sum})
9.在(8)中的表(df_by_boy_movies_sum)中筛选人数大于250,目的是减少男生的人数不足,存在数据误差:
df_by_boy_movies_hot=df_by_boy_movies_sum.loc[df_by_boy_movies_sum.F_sum>250]
10.筛选最受男生欢迎电影(前十):
df_by_boy_movies_hot.sort_values(by='F_sum',ascending=False).head(10)
11.同理筛选最受女生欢迎电影(前十):
by_girl_movies_sum=by_girl_movies.groupby('title').size()df_by_girl_movies_sum=pd.DataFrame({'M_sum':by_girl_movies_sum})df_by_girl_movies_hot=df_by_girl_movies_sum.loc[df_by_girl_movies_sum.M_sum>250]df_by_girl_movies_hot.sort_values(by='M_sum',ascending=False).head(10)
12.筛选出最受欢迎电影(前十):
b=pd.concat([df_by_boy_movies_hot,df_by_girl_movies_hot],axis=1)by_hot_movies=b.dropna()by_movies_hot=ratings_by_gender.loc[ratings_by_gender.index.isin(by_hot_movies.index)]by_movies_hot13.筛选出高分而最受欢迎电影(前十)
by_movies_hot_plot=by_movies_hot.sort_values(by='diff',ascending=False).abs().head(10)by_movies_hot_plot
转载地址:https://blog.csdn.net/weixin_38676040/article/details/84442451 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!
发表评论
最新留言
表示我来过!
[***.240.166.169]2024年04月21日 15时37分21秒
关于作者
喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
剖析PHP中的输出缓冲
2019-04-27
HTTP响应头不缓存
2019-04-27
PHP安装扩展mcrypt以及相关依赖项 【PHP安装PECL扩展的方法】
2019-04-27
Javascript到PHP加密通讯的简单实现
2019-04-27
德国SNS交友/视频网站Poppen.de的技术架构分享
2019-04-27
UNIX环境编程
2019-04-27
一笔画问题【数据结构-图论】
2019-04-27
红黑树
2019-04-27
安装多个gcc
2019-04-27
Linux0.01内核根目录Makefile注释
2019-04-27
【CSDN2012年度博客之星】需要您的一票,感谢大家的支持
2019-04-27
PHP对于浮点型的数据需要用不同的方法去解决
2019-04-27
Tokyo Cabinet 安装
2019-04-27
Flink在美团的应用与实践听课笔记
2019-04-27
Java多线程的11种创建方式以及纠正网上流传很久的一个谬误
2019-04-27
JDK源码研究Jstack,JMap,threaddump,dumpheap的原理
2019-04-27
Java使用字节码和汇编语言同步分析volatile,synchronized的底层实现
2019-04-27
javac编译原理和javac命令行的使用
2019-04-27
Unity使用UnityWebRequest实现本地日志上传到web服务器
2019-04-27
Unity使用RenderTexture实现裁切3D模型
2019-04-27