python写一个豆瓣短评通用爬虫并可视化分析( 三 )

< 5 or k in list:c.pop(k)continue# print(k,v)print(len(c), c)getzhifang(c)# 用这个数据进行画直方图getciyun_most(c)# 词云# print(commnetstr)def anylase():data = http://kandian.youth.cn/index/xlrd.open_workbook('test.xls')# 打开xls文件table = data.sheets()[0]# 打开第i张表nrows = table.nrows# 若干列的一个集合comment = []for i in range(nrows):comment.append(table.row_values(i))# 将该列数据添加到元组中# print(comment)anylasescore(comment)anylaseword(comment)if __name__ == '__main__':anylase()我们再来查看一下执行的效果:
这里我选了姜子牙和千与千寻 电影的一些数据 , 两个电影评分比例对比为:
python写一个豆瓣短评通用爬虫并可视化分析文章插图
从评分可以看出明显千与千寻好评度更高 , 大部分人愿意给他五分 。 基本算是最好看的动漫之一了 , 再来看看直方图的词谱:
python写一个豆瓣短评通用爬虫并可视化分析文章插图
很明显千与千寻的作者更出名 , 并且有很大的影响力 , 以至于大家纷纷提起他 。 再看看两者词云图:
python写一个豆瓣短评通用爬虫并可视化分析文章插图
白龙、婆婆 , 真的是满满的回忆 , 好了不说了 , 有啥想说的欢迎讨论!