按关键词阅读:

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

最近呢 , 对链家平台上的北京二手房数据做了个可视化分析 , 对目前北京的二手房交易情况有了个大致了解 , 最终得到一个很实在的结论:奋斗一辈子也买不到一个厕所这句话不是骗人的 , 是真的;关于具体分析内容请看下文
1、工具说明本文用到的 Python 库有
外加百度地图 API
2、数据采集所有数据来源于链家二手房交易平台 , 上面每页排列 30 条二手房数据 , 本文采集了前 100 页 数据 , 每条二手房交易数据中提取 标题、单价、价格、地址、年份、房间样式 等字段作为可视化分析的数据来源
网站没有设置很强的反爬机制 ,爬取时用的是 requests + Cookies+ PyQuery 组合即可 , 最好在爬取时加条 time.sleep() 命令 , 隔几秒休眠一次 , 部分代码如下:
最终一共采集到 3000 条数据:
3、地址经纬度坐标转换获取到的数据是地址是字符串形式(例如梵谷水郡*酒仙桥) , 后面地图位置标记时需要经纬度数据 , 需要把所有地址转化为经纬度坐标 , 这里借助了百度地图 API 完成这步操作
1、百度地图 AK 申请
API 的使用需要在百度地图开放平台申请一个 AK 效验码 , 登录自己的百度账号 , 在控制台创建一个应用 ,
控制台面板-> 我的应用-> 创建应用
其他参数默认 , 应用名称自定义命名即可 , IP 白名单填入 0.0.0.0/0 , 点击提交
以上步骤操作完之后 , 控制台面板会多出一个应用 , 就是刚刚我们建立的 ,
2、地址经纬度坐标转换
获取到你的 AK 参数之后 , 把 AK 和 address(中文地址) 作为参数传入下面函数中 , 就能获取到对应的经纬度坐标
def get_location(addressAK): #根据地址转化为经纬度 try:
url = 'http://api.map.baidu.com/geocoding/v3/?address={&output=json&ak={&callback=showLocation'.format(addressAK)
res_test = requests.get(url).text
res = re.search('\\((.*?)\\)' res_test).group(0).strip('(').strip(')')
lng = json.loads(res)['result'
['location'
['lng'
lat = json.loads(res)['result'
['location'
['lat'
print(lng lat)
return lng lat
except Exception as e:
print('error ---------\')
return None
百度地图 API 的 地址经纬度转换 功能 定位不仅仅局限于省、市 , 还能定位到门牌号 , 只要你提供的地址越详细 , 获取的经纬度信息越准确分页标题#e#
4、可视化分析这一部分进入可视化分析内容 , 城市毕竟是北京么所以首要的就是关注房价问题 , 在抓取的数据中 , 最高的将近19万+/每平方 , 最低的仅有 1.5 万/每平方
我看到 1.5 万每平方就不淡定了 , 这数据肯定有猫腻(北京房价按常理不可能这么低);为了验证想法 , 首先做了房产地段标记
先看一下排名前十的:
上面是房价最高 Top10 的地段位置 , 看起来地理位置还行 , 都是在三环四环之内、分布在市中心附件 , 如果单看这张图的地图的话得不到有用的信息 , 可以对比一下 房价最低 Top10
下面是排名倒数前十的
上面北京二手房房价排名后十 地段分布 , 房价在 1.5万-3万 不等 , 没看到这个分布图之前仅仅认为上面价格是卖家标错了 , 看完这个图后才发现卖家是 挂着羊头卖狗肉 , 挂着北京的名号 , 卖着北京以外的房子(有的房子已经位于河北境内) , 这可能就是卖房的套路之一吧
事出反常必有妖 , 无论买房还是买其他商品也好 , 卖家不会平白无故地给我们优惠 , 当价格远低于市场价之前交易需慎重、慎重、再慎重!
房价我分为 5 个区间 , 分别为 0-3万、3-8万、8-12万、12-15万 , 15万+ 五段 , 看一下各自的占比分布
其中房价位于 3-8万 占比最大达 76 %占比 , 次之就是8-12万、12-15万 , 依次占比为16.38%、3.46% , 而房价位于 15 万 + 占比最少 , 仅有1.12% 左右;
接下来我们再看一下 , 不同价位二手房在北京的分布
15万+的
12-15万
8-12万
3-8万
从地段分布来看北京房价以8万作为分水岭 , 8万+和8万以内房产分布明显变化 , 价格越高 , 越靠市中心以外;从地图信息来看 , 想在北京买一套地段不错的房子 , 预期房价最低也要在8万+ , 8 万是什么概念 , 也就说如果你想在北京买一套50平米的房子 , 最低也要 400万!
关于15万+ 的房产 , 大致都分布两个区域 , 一个是高校区(周围是人大、北航、清华等高校) , 另一个位于右下角 , 也就是北京朝阳区
【北京市|Python采集3000条北京二手房数据,看我都分析出了啥?】
北京卖的二手房不一定都是装修之后的 , 有可能也是毛坯(刚建造交付之后 , 未进行任何装修);参考下图 , 北京二手房中毛坯占比约1.39%共41套 , 户主买来这些房子大概率用于资产增值而不是作为刚需;
借助 Treemap 图再看一下北京二手房建筑时间分布 , 大部分都集中于2002-2010 这 9 年 , 北京房产也是在这段期间迅速发展 ,到 2015 年之后明显收缓 , 源于可建筑地段已经达到饱和再加上国家相关政策的施压
最后贴张词云图作为本文的结束 , 选取的文本信息为3000条房产信息的标题 , 从图中来看 , 标题中高频词汇有 南北通透、高楼层、精装修、采光好 等 , 也可以说这几个特点也是大多数房源的最大卖点(抛去价格、地段等因素)
5、小总结本文针对北京二手房的分析角度并不全面 , 仅仅围绕着房价、地段、修建年份等几个维度做了简单分析 , 分析结果仅供学习 , 其数据真实性有考察
好了以上就是本文的全部内容 , 最后感谢大家的阅读 , 我们下期见~

来源:(数据分析不是个事儿)
【】网址:/a/2021/0304/kd763700.html
标题:北京市|Python采集3000条北京二手房数据,看我都分析出了啥?