python爬虫学习(三)
tip 要是觉得找elements中对应部分有点麻烦,可以用ctrl+shift+c然后点网页你想要的部分,开发者模式中就会跳转过去了。 1.防盗链 现在很多网站启用了防盗链反爬,防止服务器上的资源被人恶意盗取。什么是防盗链呢? 从HTTP协议说起,在HTTP协议中,有一个表头字段:referer,采用URL的格式来表示从哪一个链接跳转到当前网页的。通俗理解就是:客户端的请求具体从哪里来,服务器可以通过referer进行溯源。一旦检测来源不是网页所规定的,立即进行阻止或者返回指定的页面。 2....
python爬虫学习(一)
1.前言本篇开始想要从基础的爬虫案例开始,逐步完成爬虫相关技术的学习,在本篇中,我会用东方财富 、51游戏、中国人事考试网等案例进行,从易到难。 2.爬虫功能分类在进行案例之前先说明一下爬虫的功能分类,一共有如下几种 通用爬虫:直接对页面的所有数据进行爬取 聚焦爬虫:对页面中的数据有选择性的爬取 功能爬虫:通过浏览器或者app实现自动化爬取 增量式爬虫:对新更新的数据进行补充爬取,以前爬取的数据不再新爬取 分布式爬虫:搭建分布式集群对网络资源进行联合且分布的爬取当然本篇的案例只是很基础的案例,甚至代码都不会多 3.1 东方财富网网址:https://www.eastmoney.com/ 123456789import requests url = 'https://www.eastmoney.com/'#向指定URL进行请求,响应数据response = requests.get(url =url) response.encoding = 'utf-8'page = response.text...