网页爬虫开发有哪些简单方法?如何快速上手?
游客
2025-06-25 18:30:27
34
1. requests安装
使用pip安装requests,代码如下:
pip install requests
1. 使用requests获取网页源代码
网页有很多种打开方式,最常见的是GET方式和POST方式。
1.1 GET方式
通过网页 http://exercise.kingname.info/exercise_requests_get.html
可以测试使用requests的get()方法获取网页
importrequests html = requests.get('http://exercise.kingname.info/exercise_requests_get.html').content.decode() print(html)
1.2 结合requests与正则表达式
1.提取标题
title = re.search('title>(.*?)<',html,re.S).group(1)
2.提取正文,并将两段正文使用换行符拼接起来。
content_list = re.findall('p>(.*?)<',html,re.S) content_str = '\n'.join(content_list)
importrequests importre html = requests.get('http://exercise.kingname.info/exercise_requests_get.html').content.decode() # 提取标题title = re.search('title>(.*?)<',html,re.S).group(1) # 提取正文content_list = re.findall('<p>(.*?)<',html,re.S) # 使用\n换行符将两段正文拼接起来content_str = '\n'.join(content_list) print(f'页面标题为:{title}') print(f'页面正文内容为:\n{content_str}')
1.3 POST方式
通过浏览器直接访问网页会得到错误信息,故可以通过post方式在网页:https://exercise.kingname.info/exercise_requests_post
可以测试使用requests的post()方法获取网页
importrequests data = { 'name':'admin', 'password':'123456'} html_formdata = requests.post('https://exercise.kingname.info/exercise_requests_post',data=data).content.decode() print(html_formdata)
1.4 多线程爬虫测试
循环访问百度首页100次
单线程爬虫
defquery(url): requests.get(url) start = time.time() fori inrange(100): query('https://www.baidu.com') end = time.time() print(f'单线程循环访问100次百度首页,耗时:{end - start}')
多线程爬虫
start = time.time() url_list = [] fori inrange(100): url_list.append('https://www.baidu.com') pool = Pool(5) pool.map(query,url_list) end = time.time() print(f'五线程循环访问100次百度首页,耗时:{end - start}')
importrequests importtime frommultiprocessing.dummy importPool defquery(url): requests.get(url) start = time.time() fori inrange(100): query('https://www.baidu.com') end = time.time() print(f'单线程循环访问100次百度首页,耗时:{end - start}') start = time.time() url_list = [] fori inrange(100): url_list.append('https://www.baidu.com') pool = Pool(5) pool.map(query,url_list) end = time.time() print(f'五线程循环访问100次百度首页,耗时:{end - start}')
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 3561739510@qq.com 举报,一经查实,本站将立刻删除。
转载请注明来自专注SEO技术,教程,推广 - 8848SEO,本文标题:《网页爬虫开发有哪些简单方法?如何快速上手?》
标签:
- 搜索
- 最新文章
- 热门文章
-
- 高温红色警报!电动车夏季充电紧急提醒,牢记“3要拔4不充”要求
- 华为重磅双旗舰曝光:三折叠MateXT2或9月发布
- 巨大升级?苹果电池干到5000mAh了,续航反杀安卓,库克终于开窍了?
- 70%的免伤,48%的吸血,孙权成为S40发育路玩家救星!附玩法思路
- iQOO15细节曝光:2K大直屏+3D超声波+7K新电池,或10月发布
- 抖音小说视频剪辑技巧有哪些?如何快速制作?
- 王者S40法师玩家遭到重创,貂蝉成首个受害对象,妲己小乔无一幸免
- 7月4-6号全国天气预报,新一轮降雨中心已定,大雨暴雨分布如下
- 今年三伏只有30天?10年难遇!有啥讲究?今年三伏为何是30天?
- 网站架构出错导致浏览器无法打开怎么办?
- 怎么剪辑视频做账号呢抖音?抖音账号视频剪辑的正确步骤是什么?
- 准大学生购机换机指南:推荐5款大学生真香机,价位从1500元到3000元!
- 家里WiFi信号差?如何用两个路由器实现全屋覆盖?
- 本轮降雨确定完成,高温天气全面到来,今天夜间~7月6日天气预报
- 512GB+8300mAh!荣耀新机曝光:7月中下旬,正式发布!
- K线图到底该怎么设置才能看清主力动向?
- 手机流量套餐设置真的这么烧脑吗?
- 快手录视频剪辑怎么赚钱?有哪些赚钱的途径和技巧?
- 小说投稿网站分析怎么写?如何选择合适的平台进行投稿?
- 华为耳机降噪功能怎么调最有效?
- 热门tag