当前位置:网站首页 > 资讯百科 > 科技知识 > 正文

网页爬虫开发有哪些简单方法?如何快速上手?

游客游客 2025-06-25 18:30:27 34



1. requests安装

使用pip安装requests,代码如下:

pip install requests

1. 使用requests获取网页源代码

网页有很多种打开方式,最常见的是GET方式和POST方式。

1.1 GET方式

通过网页 http://exercise.kingname.info/exercise_requests_get.html

可以测试使用requests的get()方法获取网页

网页爬虫开发有哪些简单方法?如何快速上手?

importrequests html = requests.get('http://exercise.kingname.info/exercise_requests_get.html').content.decode() print(html)

网页爬虫开发有哪些简单方法?如何快速上手?

1.2 结合requests与正则表达式

1.提取标题

title = re.search('title>(.*?)<',html,re.S).group(1)

2.提取正文,并将两段正文使用换行符拼接起来。

content_list = re.findall('p>(.*?)<',html,re.S) content_str = '\n'.join(content_list)
importrequests importre html = requests.get('http://exercise.kingname.info/exercise_requests_get.html').content.decode() # 提取标题title = re.search('title>(.*?)<',html,re.S).group(1) # 提取正文content_list = re.findall('<p>(.*?)<',html,re.S) # 使用\n换行符将两段正文拼接起来content_str = '\n'.join(content_list) print(f'页面标题为:{title}') print(f'页面正文内容为:\n{content_str}')

网页爬虫开发有哪些简单方法?如何快速上手?

1.3 POST方式

通过浏览器直接访问网页会得到错误信息,故可以通过post方式在网页:https://exercise.kingname.info/exercise_requests_post

可以测试使用requests的post()方法获取网页

网页爬虫开发有哪些简单方法?如何快速上手?

importrequests data = { 'name':'admin', 'password':'123456'} html_formdata = requests.post('https://exercise.kingname.info/exercise_requests_post',data=data).content.decode() print(html_formdata)

网页爬虫开发有哪些简单方法?如何快速上手?

1.4 多线程爬虫测试

循环访问百度首页100次

单线程爬虫

defquery(url): requests.get(url) start = time.time() fori inrange(100): query('https://www.baidu.com') end = time.time() print(f'单线程循环访问100次百度首页,耗时:{end - start}')

多线程爬虫

start = time.time() url_list = [] fori inrange(100): url_list.append('https://www.baidu.com') pool = Pool(5) pool.map(query,url_list) end = time.time() print(f'五线程循环访问100次百度首页,耗时:{end - start}')
importrequests importtime frommultiprocessing.dummy importPool defquery(url): requests.get(url) start = time.time() fori inrange(100): query('https://www.baidu.com') end = time.time() print(f'单线程循环访问100次百度首页,耗时:{end - start}') start = time.time() url_list = [] fori inrange(100): url_list.append('https://www.baidu.com') pool = Pool(5) pool.map(query,url_list) end = time.time() print(f'五线程循环访问100次百度首页,耗时:{end - start}')

网页爬虫开发有哪些简单方法?如何快速上手?

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 3561739510@qq.com 举报,一经查实,本站将立刻删除。

转载请注明来自专注SEO技术,教程,推广 - 8848SEO,本文标题:《网页爬虫开发有哪些简单方法?如何快速上手?》

标签:

关于我

搜索
最新文章
热门文章
热门tag
抖音优化提升网站排名网站优化百度SEO优化提高网站排名抖音小店SEO优化SEO优化技巧网站排名网站SEO优化seo优化小红书关键词优化网站建设关键词排名seo网站优化SEO搜索引擎优化百度SEO排名
友情链接