第7章,,Python数据分析案例实战-二手房数据分析预测系统（精选文档）

发布时间: 2022-08-15 09:10:03 来源：网友投稿

下面是小编为大家整理的第7章,,Python数据分析案例实战-二手房数据分析预测系统（精选文档）,供大家参考。

　二手房数据分析预测系统

　某城市各区二手房均价分析

　1 需求分析某城市各区二手房数量所占比例

　2 全市二手房装修程度分析

　3 热门户型均价分析

　4 二手房售价预测

　系统设计

　功能结构图

　业务流程图用户确认数据来源读取数据文件二手房售价预测各区二手房均价分析各区二手房数量所占比例全市二手房装修程度分析热门户型均价分析绘制图表

　系统预览

　系统开发必备

　开发工具准备 

　操作系统：Windows 7 、 Windows 8 、 Windows 10 。

　

　开发工具：PyCharm 

　内置模块：sys 

　第三方模块：PyQt5 、pyqt5-tools 、matplotlib 、sklearn 、

　pandas

　文件夹组织结构

　技术准备

　scikit- - learn 模块概述

　1 加载 datasets 子模块中的数据集

　2 支持向量回归对象

　scikit-learn库概述 https://sklearn.apachecn.org/

　加载datasets 子模块中的数据集

　本地加载数据: : sklearn.datasets.load _<name>

　1 远程加载数据: : sklearn.datasets.fetch _<name>

　2 构造数据集: : sklearn.datasets.make _<name>

　3 常用数据集

　加载数据函数数据集名称应用任务类型 datasets.load_iris() 鸢尾花数据集用于分类、聚类任务的数据集 datasets.load_breast_cancer() 乳腺癌数据集用于分类、聚类任务的数据集 datasets.load_digits() 手写数字数据集用于分类任务的数据集 datasets.load_diabetes() 糖尿病数据集用于分类任务的数据集 datasets.load_boston() 波士顿房价数据集用于回归任务的数据集 datasets.load_linnerud() 体能训练数据集用于多变量回归任务的数据集本地数据集

　支持向量回归对象

　LinearSVR()对象 sklearn.svm.LinearSVR（epsilon = 0.0，tol = 0.0001，C = 1.0，loss ="epsilon_insensitive"，fit_intercept = True，intercept_scaling = 1.0，dual = True，verbose = 0，random_state = None，max_iter = 1000 ）

　from sklearn.svm

　import LinearSVR

　参参数名称说说明参参数名称 epsilon float 类型值，loss 参数中的ε ，默认值为0.1 fit_intercept boolean 类型值，是否计算此模型的截距。如果设置为false ，则不会在计算中使用截距（即数据预计已经居中）。默认为True tol float 类型值，终止迭代的标准值，默认值为0.0001 verbose int 类型值，是否开启verbose 输出，默认为 True C float 类型值，罚项参数，该参数越大，使用的正则化越少，默认为1.0 dual boolean 类型值，选择算法以解决对偶或原始优化问题。设置为True时将解决对偶问题，设置为False 时解决原始问题，默认为True loss string 类型值，损失函数，该参数有两种选项：

　（（1 ）epsilon_insensitive ：损失函数为Lε（（标准SVR ）

　（（2 ）squared_epsilon_insensitive ：损失函数为

　默认值为epsilon_insensitive intercept_scaling float 类型值，当fit_intercept 为True 时，实例向量x 变为[x，，self.intercept_scaling] 。此时相当于添加了一个特征，该特征将对所有实例都是常数值。

　（（1 ）此时截距变成intercept_scaling* 特征的权重wε （（2 ）此时该特征值也参与了罚项的计算 random_state int 类型值，随机数生成器的种子，用于在混洗数据时使用。如果是整数，则是随机数生成器使用的种子子; 如果是RandomState 实例，则是随机数生成器; 如果为None ，随机数生成器所使用的RandomState实例np.random 。

　max_iter int 类型值，要运行的最大迭代次数。默认为1000 coef_ 赋予特征的权重，返回array 数据类型 intercept_ 决策函数中的常量，返回array 数据类型 LinearSVR()对象常用参数

　图表工具模块

　①

　创建模块

　文件

　②

　绘制饼图

　函数

　③ 绘制折线图

　函数

　④

　绘制条形图

　函数

　图表工具模块

　绘制饼图

　绘制折线图

　绘制条形图

　绘制各区二手房均价的条形图

　1 绘制全市二手房装修程度的条形图

　2 绘制热门户型均价的条形图

　3 绘制条形图

　二手房数据分析

　清洗数据

　清洗数据 Unnamed: 0 小区名字总价户型建筑面积单价朝向楼层装修区域 0 中天北湾新城 89 万 2 室2 厅1 卫 89 平米 10000 元/ 平米南北低层毛坯高新 1 桦林苑 99.8 万 3 室2 厅1 卫 143 平米 6979 元/ 平米南北中层毛坯净月 2 嘉柏湾 32 万 1 室1 厅1 卫 43.3 平米 7390 元/ 平米南南高层精装修经开 3 中环12 区 51.5 万 2 室1 厅1 卫 57 平米 9035 元/ 平米南北高层精装修南关 4 昊源高格蓝湾 210 万 3 室2 厅2 卫 160.8 平米 13060 元/ 平米南北高层精装修二道处理空数据

　各区二手房均价分析

　①

　划分各区域

　二手房

　②

　计算各区域二手房均价

　③ 图表显示数据

　各区二手房均价

　各区房子数量比例

　①

　各区域分组

　②

　获取各区域

　房子数量

　各区房子数量比例 ③ 计算百分比

　④

　图表显示

　数据

　全市二手房装修程度分析

　①

　分组二手房装修程度

　②

　统计分组后数量

　二手房装修程度 ③ 分离数据

　④

　图表显示

　数据

　热门户型均价分析

　户型分组

　获取分组

　对应数量

　热门户型均价降序处理

　计算户型均价

　前5 5 组户型

　数据

　图表显示

　数据

　二手房售价预测

　参考数据

　（特征值）

　查看数据是否

　符合分析条件

　二手房售价预测清洗数据

　图表显示数据

　预测房价