天天定时发送一句情话 双鱼女一般男生征服不了,征服双鱼女最直接办法( 二 )


/usr/bin/python3.7 /home/baldwin/PycharmProjects/IAmADog/spider/Spider.pyhtml头中的charset:{'encoding': 'GB2312', 'confidence': 0.99, 'language': 'Chinese'}Process finished with exit code 0Get!!!编码方式为GB2312!
设置解码
代码:
import urllib.requestimport chardeturl = "http://www.1juzi.com/new/150542.html"html = urllib.request.urlopen(url).readcharset = chardet.detect(html).get("encoding")htmlText = html.decode(charset,errors = 'ignore')print(htmlText)结果:
......
h1天天一句小情话/h1
divdivscript type="text/javascript"news1;/script/div
p1、将你放进我心里最重要的位置 , 专心来刻你的名字 。/p
p2、爱是踏破红尘望穿秋水;爱是一生一世冥冥轮回;爱你 , 我不问理由 。/p
p3、拽你入怀 , 予你一世相伴 , 拥你入怀 , 护你一世平安 。/p
p4、何止是野心 , 我预谋了一辈子的念想 , 从遇见你开始 , 不见黄土不死心 。/p
p5、我后来想了想 , 我不耽误你 , 还会有别人耽误你 , 那我不甘心 , 还是我来耽误你吧 。/p
p6、见到你的那一刻我就不知所措 , 有的只是的心跳 , 是你改变了我 , 以前我从不会这样的 。如果有一个人能让我心甘情愿地改变那就是你 。/p
p7、陪我到可可西里去看海不要未来只要你来 。/p
p8、每一天都为你心跳 , 每一刻都被你感动 , 每一秒都为你担心 。有你的感觉真好 。/p
......
哦吼!搞定!
4、封装代码
刚才我们已经实现了资源的获取 , 但是这样的代码用起来太不方便了 , 我们把它封装在方法里:
......import urllib.requestimport chardetdef getHtml(url):"""获取网页html文本资源:param url: 网页链接:return: 网页文本资源"""html = urllib.request.urlopen(url).readcharset = chardet.detect(html).get("encoding")htmlText = html.decode(charset, errors='ignore')return htmlText解析网页资源
解析网页的话 , 需要第三方插件Beautiful Soup来提取 xml 和 HTML 中的数据 。
获取content节点内容
我们想要的资源都在一个class为”content“的div节点下 , 我们现在先获取这个节点的所有内容 。
部分代码:
soup = BeautifulSoup(htmlText,"html.parser")"获取content节点的内容"div_node = soup.find('div', class_='content')print(div_node.get_text)结果:
/usr/bin/python3.7 /home/baldwin/PycharmProjects/IAmADog/spider/Spider.pybound method Tag.get_text of divdivscript type="text/javascript"news1;/script/divp1、将你放进我心里最重要的位置 , 专心来刻你的名字 。/pp2、爱是踏破红尘望穿秋水;爱是一生一世冥冥轮回;爱你 , 我不问理由 。/pp3、拽你入怀 , 予你一世相伴 , 拥你入怀 , 护你一世平安 。/pp4、何止是野心 , 我预谋了一辈子的念想 , 从遇见你开始 , 不见黄土不死心 。/pp5、我后来想了想 , 我不耽误你 , 还会有别人耽误你 , 那我不甘心 , 还是我来耽误你吧 。/p......u本文地址:a href="http://www.1juzi.com/new/150542.html"天天一句小情话/ahttp://www.1juzi.com/new/150542.html/ulia href="https://www.51826.cn/aiqingyulu/"上一页/aspan1/spana href="https://www.51826.cn/new/150543.html"2/aa href="https://www.51826.cn/new/150541.html"下一页/a/li/divProcess finished with exit code 02.4.3. 获取p节点内容
上一步我们已经获取到了我们的主要内容 , 然后总结可以看出我们想要的文本内容在P节点中 , 那么现在就来获取它 。
部分代码:
soup = BeautifulSoup(htmlText,"html.parser")"获取div节点的内容"div_node = soup.find('div', class_='content')"获取P节点内容"p_node = div_node.find_all('p')for content in p_node:print(content.get_text)结果:
/usr/bin/python3.7 /home/baldwin/PycharmProjects/IAmADog/spider/Spider.py1、将你放进我心里最重要的位置 , 专心来刻你的名字 。2、爱是踏破红尘望穿秋水;爱是一生一世冥冥轮回;爱你 , 我不问理由 。3、拽你入怀 , 予你一世相伴 , 拥你入怀 , 护你一世平安 。4、何止是野心 , 我预谋了一辈子的念想 , 从遇见你开始 , 不见黄土不死心 。5、我后来想了想 , 我不耽误你 , 还会有别人耽误你 , 那我不甘心 , 还是我来耽误你吧 。......69、有时 , 爱也是种伤害 , 残忍的人句子大全http://Www.1juzI.coM/ , 选择伤害别人 , 善良的人 , 选择伤害自己 。......Process finished with exit code 04、处理数据