上海Python培训
达内上海Python培训中心

15026646813

热门课程

上海Python培训教你简单的网页爬虫方法

  • 时间:2018-06-29 19:36
  • 发布:上海python培训
  • 来源:Python教程

Python除了在人工智能方面被炒得火热,私下还是写爬虫的利器。今天上海Python培训写一个爬虫来简单爬一下一个段子网站页面。感兴趣的可以一起学哦。

Python爬虫目标网站:ishuo.cn

Python爬虫前分析:上海Python培训先分析其下段子的所在子页的url特点,可以轻易发现发现为“ishuo.cn/subject/”+数字,经过测试发现,该网站的反扒机制薄弱,可以轻易地爬遍其所有站点。

现在上海Python培训利用python的re及urllib库将其所有段子扒下

import sys

import re

import urllib

#返回html格式

def gethtml(url):

page=urllib.urlopen(url)

htm=page.read()

return html

def getmessage(html):

p=re.compile ......

对内容进行正则匹配

message=re.findall(p,html)#返回正则匹配的结果

return message

fp=open('data.txt','w+')

#实际范围比1~7000要大,因为时间原因这里暂定为1~7000

for i in range(1,7000):

i=str(i)

web=gethtml(‘这里写它的网址'+i)

#该网站段子的链接特点

message=getmessage(web)

message2=''.join(message)#将结果转换为字符串类型

#message2=message2.decode('utf8','strict')

message2=str(message2)

print message2

fp.writelines(message2+'\n')

#将爬下的众多段子写入文件中fp.close()

data.txt收录了其中爬下段子的结果,上海Python培训将部分结果写出来:

这些爬下的段子可作为很丰富的文案素材,想要学习更多python爬虫的知识,可以到上海python培训机构官方网站填写python免费5天VIP试听课获的学习机会。

上一篇:Python和Java开发你应该选择哪个?
下一篇:为什么要学Python?自学Python效果怎样?

上海Python培训教你简单的网页爬虫方法

上海Python培训:什么是pymysql

上海Python培训:Python实现注册登录系统

Python和Java开发你应该选择哪个?

选择城市和中心
贵州省

广西省

海南省

免费学习5天VIP课程