爬虫实战 | 揭秘古风系列商品,避免踩坑( 三 )

3、为分析清洗和处理所需的数据

4、利用文本分析技术:jieba分词以及wordcloud可视化对高词频商品进行分析

5、古风商品销量,价格等数据的回归以及可视化分析

6、商品区域分布展示

7、总结以及指出不足之处

数据获取:

数据来源:淘宝网(www.taobao.com)



关键词搜索:古风

数据集:4303个(爬取了105页左右的数据,仅爬取淘宝网站,对天猫店铺直接忽略)

工具以及相关库:python(urllib.request,re, pymysql,jieba,wordcloud,matplotlab,basemap等)

数据集的定义:

字段 

描述 

应用  

title