
R语言做kaggle中California Housing Prices数据集
发布日期:2021-05-07 09:30:35
浏览次数:20
分类:精选文章
本文共 1305 字,大约阅读时间需要 4 分钟。
数据集来源数据集是来自Kaggle的“House Prices”数据集。首先,我需要加载所需的包并读取数据。
加载包
library(tidyverse)library(reshape2)
读取数据
housing = read.csv('housing.csv')
简单查看数据
head(housing)summary(housing)
数据预处理可以从数据总览中看出,total_bedrooms存在缺失值,需要用中位数插值处理。ocean_proximity需要转换为哑变量。另外,total_bedrooms和total_rooms需要转换为mean_number_bedrooms和mean_number_rooms。
处理缺失值
housing$median_house_value = housing$total_rooms / housing$households
转换为哑变量
library(fastDummies)housing2 = dummy_cols(housing, remove_first_dummy = FALSE)
处理数据
housing3 = data.frame(housing2[11:15], housing1, housing$median_house_value)
加载模型包
library(randomForest)library(caret)
划分数据集
set.seed(1234)trainIndex = createDataPartition(housing3$median_house_value, p=0.8, list=FALSE, times=1)dataTrain = housing3[trainIndex,]dataTest = housing3[-trainIndex,]
随机森林模型
library(randomForest)rf_model = randomForest(train_x, y = train_y, ntree = 500, importance = TRUE)
变量重要性
rf_model$importance
模型评估
oob_prediction = predict(rf_model)train_mse = mean(as.numeric((oob_prediction - train_y)^2))oob_rmse = sqrt(train_mse)test_y = dataTest[,'housing.median_house_value']test_x = dataTest[, names(dataTest) != 'housing.median_house_value']y_pred = predict(rf_model, test_x)test_mse = mean(((y_pred - test_y)^2))test_rmse = sqrt(test_mse)
房价预测模型基于随机森林算法,能够较好地预测房价。模型在测试集上的RMSE约为15,000美元,表明预测效果良好。
发表评论
最新留言
第一次来,支持一个
[***.219.124.196]2025年05月09日 21时53分15秒
关于作者

喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
liunx目录和文件管理(一)
2025-04-11
liunx系统中的文件压缩与解压
2025-04-11
live555 testrtspclient客户端建立rtp over tcp 异常问题
2025-04-11
LiveData的分析与简单使用
2025-04-11
LiveGBS user/save 逻辑缺陷漏洞复现(CNVD-2023-72138)
2025-04-11
live和on的区别
2025-04-11
li下的ul----多级列表
2025-04-11
lk部分没有msm8937相关目录原因(指向msm8952)
2025-04-11
LL(1),LR(0),SLR(1),LR(1),LALR(1)的 联系与区别
2025-04-11
Llama 越狱探索 Llama-3.1-8B-Instruct去除限制过程
2025-04-11
llm 从0开始学习大语言模型, transformer架构学习
2025-04-11
LLM;超越记忆《第 2 部分 》
2025-04-11
LLVM 简介-ChatGPT4o作答
2025-04-11
LM393双电压比较器集成电路引脚图及功能_工作原理及应用电路
2025-04-11
ln: 创建符号链接 "/usr/bin/java": 文件已存在
2025-04-11
LNMP安装了哪些软件?安装目录在哪?
2025-04-11
Lnmp架构之PHP
2025-04-11
LNMP配置优化
2025-04-11