亚洲必赢76net的主页利用Python来协助姑妈买房

亚洲必赢76net的主页 8

2.2.6 深圳房源成交量热力模型

//TODO

基本库

  1. Beautiful
    Soup
    : 从 HTML 获取指定的节点及数据
  2. Requests: HTTP for
    Humans
    : 网络请求库

最核心的就是这 2 个模块, 其它的数据存储, 定时任务, 多线程等都是锦上添花

不错的教程
Python爬虫利器一之Requests库的用法
Python爬虫利器二之Beautiful
Soup的用法
Scrapy笔记11-
模拟登录
Scrapy随机更换User-Agent和实现IP代理池

1.1.2 Linux

安装Python3.x.x,通过pip安装需要的第三方库。

爬虫

2.1.1 Python教你买房维度指标体系

Python教你买房首先我们需要确定我们购房时最关注的维度体系和指标体系。关注主要维度和关键指标体系如图所示:

亚洲必赢76net的主页 1

 

Python教你买房,分为数据爬虫和大数据分析。首先通过爬虫方式获取到深圳房产交易网成功交易量和交易价格并得出深圳房价的趋势,得到最合适的购房时间段,确认最佳的上车时间。然后爬取链家网数据并按用户关注维度深度分析帅选得出适宜的房子,做好一切上车的准备。

亚洲必赢76net的主页 2

 

1. 又或者, 你学习爬虫只是想快捷的抓取数据, 你可以尝试下面的软件(网站), 可以不用写代码, 可视化的编写抓取数据的任务
  • scrapinghub/portia
  • 火车头
  • 八爪鱼
  • import.io

2.2.4 深圳房源均价热力模型

如图展示深圳深圳房源均价热力模型。//TODO 待分析

亚洲必赢76net的主页 3

 

网站爬虫的大体思路是 :

  1. 模拟网站登录请求
  2. 网络请求获取网页源代码
  3. CSS selector 或 xpath 选定需要的元素, 获取内容属性等
  4. 结构化数据并存储到数据库
  5. 定时,并发执行爬虫
  • 关于 iOS 的爬虫, 可以参考我之前的文章 iOS 抓取 HTML ,CSS XPath
    解析数据

1、Python基础

Python是一种面向对象、解释型自由语言,语法简洁清晰、基础代码库丰富,覆盖网络、文件、GUI、数据库、文本等领域。并能和其他主流语言沟通协助制作。Python主要分为Cpython、Jpython、IronPython、PyPy等。解释型语言可移植行好,但是运行速度不及编译型语言,其次解释型语言源码无法像编译型那样编译成二进制串加密。

亚洲必赢76net的主页 4

 

其它

2.2.9 深圳房屋内部指数量化雷达图模型

深圳房屋雷达图分析,程序首先会爬取到海量深圳待售的房产信息,等级差=(最高值-最低值)/10的方式把均价,实际使用率,梯户比例,楼层,楼间距等指标划分10等分,然后用户输入自己心仪的房子,程序将计算改房子的指标在海量房产中的雷达位置,帮助用户快速了解心仪房产的参数配置。效果图如下:

亚洲必赢76net的主页 5

 

#雷达图显示房屋关注指标def drawRadarMap(chartName, arrLables, arrData, labelNum):
 #数据校验
 if labelNum < 0 or labelNum >10: return -1
 if len(arrLables) != labelNum or len(arrData) != labelNum: return -2
 #=======自己设置开始============
 #标签
 labels = np.array(arrLables) #数据
 data = np.array(arrData) #========自己设置结束============
 angles = np.linspace(0, 2*np.pi, labelNum, endpoint=False)
 data = np.concatenate((data, [data[0]])) # 闭合
 angles = np.concatenate((angles, [angles[0]])) # 闭合
 fig = plt.figure()
 ax = fig.add_subplot(111, polar=True) # polar参数!!
 ax.plot(angles, data, 'bo-', linewidth=2) # 画线
 ax.fill(angles, data, facecolor='r', alpha=0.25)# 填充
 ax.set_thetagrids(angles * 180/np.pi, labels, fontproperties="SimHei")
 ax.set_title(chartName, va='bottom', fontproperties="SimHei")
 ax.set_rlim(0,10)
 ax.grid(True)
 plt.show()

Python 爬虫

要写一个爬虫, 可以用一些基本的库, 也可以用爬虫框架 :

2.2.10 深圳房屋外部指数量化雷达图模型

//TODO 量化外部指标参数(学位,地铁距离,公交具体,公园分布,商圈等)

所以,还不会Python的,想买房的,赶快来学习了!限时抢购哦!

部署

在 Scrapy 官网
可以看到, 官方的部署指南,

  • scrapy/scrapyd
    用来本地部署
  • Scrapinghub
    Platform
    是一个类似
    Heroku
    的云平台, 专门部署 Scrapy 爬虫

2.2.3 深圳房源数据模型

亚洲必赢76net的主页 6

 

HTML & CSS & JS

w3school
是入门基础, 要用爬虫获取数据, 必须先了解 HTML 的结构

1.2 Python库

Python为开发者提供丰富代码库,开发者从不会从零开始开发,基础功能基本已经有现成的成熟的框架或库支持,因此大幅度的提升开发者的开发效率和提高代码健壮性。

亚洲必赢76net的主页 7

 

Python很容易学!小编有弄一个交流,互问互答,资源共享的交流学习基地,如果你也是Python的学习者或者大牛都欢迎你来!㪊:548+377+875!一起
学习共同进步!

亚洲必赢76net的主页 8

 

深圳房价飞涨,但也阻挡不了祖国各地人民来深圳买房的欲望。深圳房价动辄几百万,程序猿这种动物想在深圳安居压力山大。所以买房必然是人生一重大决定,必须货比三家。当前各种房产中介,各种开发商,各种楼盘。信息多到我们无法掌握。因此程序猿就需要利用专业的优势通过一些方式获取有效数据,分析筛选最优秀的房源。

爬虫框架

  1. Scrapy
  2. PySpider

由于公司原因, 我接触的是 Scrapy

Scrapy 是一个相对成熟的框架, 多线程, 并发数, 中间件, 超时, 自定义
header, UA, 数据库存储, Log, 部署 等等都有成熟的解决方案和示例,
这也是我选择使用它的原因.

不错的教程
scrapy爬虫框架教程(一)–
Scrapy入门
利用Scrapy爬取所有知乎用户详细信息并存至MongoDB(附视频和源码)

发表评论

电子邮件地址不会被公开。 必填项已用*标注