下面是小编为大家整理的第7章,,Python数据分析案例实战-二手房数据分析预测系统(精选文档),供大家参考。
二手房数据分析预测系统
某 城市各区二手房均价分析
1 需求分析 某 城市各区二手房数量所占比例
2 全市 二手房装修程度分析
3 热门 户型均价分析
4 二手房 售价预测
5
系统设计
功能结构图
业务流程图 用户确认数据来源读取数据文件二手房售价预测各区二手房均价分析各区二手房数量所占比例全市二手房装修程度分析热门户型均价分析绘制图表
系统预览
系统开发必备
开发工具准备
操作系统:Windows 7 、 Windows 8 、 Windows 10 。
开发工具:PyCharm
内置模块:sys
第三方 模块:PyQt5 、pyqt5-tools 、matplotlib 、sklearn 、
pandas
文件夹组织结构
技术准备
scikit- - learn 模块 概述
1 加载 datasets 子模块中的数据集
2 支持向量 回归 对象
3
scikit-learn库概述 https://sklearn.apachecn.org/
加载datasets 子模块中的数据集
本地加载 数据: : sklearn.datasets.load _<name>
1 远程加载数据: : sklearn.datasets.fetch _<name>
2 构造数据集: : sklearn.datasets.make _<name>
3 常用数据集
加载数据函数 数据集名称 应用任务类型 datasets.load_iris() 鸢尾花数据集 用于分类、聚类任务的数据集 datasets.load_breast_cancer() 乳腺癌数据集 用于分类、聚类任务的数据集 datasets.load_digits() 手写数字数据集 用于分类任务的数据集 datasets.load_diabetes() 糖尿病数据集 用于分类任务的数据集 datasets.load_boston() 波士顿房价数据集 用于回归任务的数据集 datasets.load_linnerud() 体能训练数据集 用于多变量回归任务的数据集 本地数据集
支持向量 回归 对象
LinearSVR()对象 sklearn.svm.LinearSVR(epsilon = 0.0,tol = 0.0001,C = 1.0,loss ="epsilon_insensitive",fit_intercept = True,intercept_scaling = 1.0,dual = True,verbose = 0,random_state = None,max_iter = 1000 )
from sklearn.svm
import LinearSVR
参 参 数 名 称 说 说 明 参 参 数 名 称 epsilon float 类型值,loss 参数中的ε ,默认值为0.1 fit_intercept boolean 类型值,是否计算此模型的截距。如果设置为false ,则不会在计算中使用截距(即数据预计已经居中)。默认为True tol float 类型值,终止迭代的标准值,默认值为0.0001 verbose int 类型值,是否开启verbose 输出,默认为 True C float 类型值,罚项参数,该参数越大,使用的正则化越少,默认为1.0 dual boolean 类型值,选择算法以解决对偶或原始优化问题。设置为True时将解决对偶问题,设置为False 时解决原始问题,默认为True loss string 类型值,损失函数,该参数有两种选项:
( (1 )epsilon_insensitive :损失函数为Lε( ( 标准SVR )
( (2 )squared_epsilon_insensitive :损失函数为
默认值为epsilon_insensitive intercept_scaling float 类型值,当fit_intercept 为True 时,实例向量x 变为[x, ,self.intercept_scaling] 。此时相当于添加了一个特征,该特征将对所有实例都是常数值。
( (1 )此时截距变成intercept_scaling* 特征的权重wε ( (2 )此时该特征值也参与了罚项的计算 random_state int 类型值,随机数生成器的种子,用于在混洗数据时使用。如果是整数,则是随机数生成器使用的种子 子; 如果是RandomState 实例,则是随机数生成器; 如果为None ,随机数生成器所使用的RandomState实例np.random 。
max_iter int 类型值,要运行的最大迭代次数。默认为1000 coef_ 赋予特征的权重,返回array 数据类型 intercept_ 决策函数中的常量,返回array 数据类型 LinearSVR()对象常用参数
图表工具模块
①
创建模块
文件
②
绘制饼图
函数
③ 绘制折线图
函数
④
绘制条形图
函数
图表工具模块
绘制饼图
绘制折线图
绘制条形图
绘制各区二手房均价的条形图
1 绘制全市二手房装修程度的条形图
2 绘制热门户型均价的条形图
3 绘制条形图
二手房数据分析
清洗数据
清洗数据 Unnamed: 0 小区名字 总价 户型 建筑面积 单价 朝向 楼层 装修 区域 0 中天北湾新城 89 万 2 室2 厅1 卫 89 平米 10000 元/ 平米 南北 低层 毛坯 高新 1 桦林苑 99.8 万 3 室2 厅1 卫 143 平米 6979 元/ 平米 南北 中层 毛坯 净月 2 嘉柏湾 32 万 1 室1 厅1 卫 43.3 平米 7390 元/ 平米 南 南 高层 精装修 经开 3 中环12 区 51.5 万 2 室1 厅1 卫 57 平米 9035 元/ 平米 南北 高层 精装修 南关 4 昊源高格蓝湾 210 万 3 室2 厅2 卫 160.8 平米 13060 元/ 平米 南北 高层 精装修 二道 处理空数据
各区 二手房 均价 分析
①
划分各区域
二手房
②
计算各区域二手房均价
③ 图表显示数据
各区二手房均价
各区房子数量比例
①
各 区域分组
②
获取各区域
房子数量
各区房子数量比例 ③ 计算百分比
④
图表显示
数据
全市 二手房 装修 程度分析
①
分组二手房装修程度
②
统计分组后数量
二手房装修程度 ③ 分离数据
④
图表显示
数据
热门户型均价分析
户型分组
获取分组
对应数量
热门户型均价 降序处理
计算户型均价
前5 5 组户型
数据
图表显示
数据
二手房售价预测
参考 数据
( 特征值)
查看数据是否
符合分析条件
二手房售价预测 清洗数据
图表显示数据
预测房价