python html

HTML headers

浏览器查看HTTP headers

1、打开浏览器,F12打开控制台
2、输入访问URL
3、点击Network 点击请求 点击Headers

HTTP header 常用属性

(1) Host:

请求报头域主要用于指定被请求资源的Internet主机和端口号,它通常从HTTP URL中提取出来的,例如我们在浏览器中输入:https://www.baidu.com,浏览器发送的请求消息中,就会包含Host请求报头域,如下:
Host:www.baidu.com(此处使用缺省端口号443,若指定了端口号,则变成:Host:指定端口号

(2)Referer

当浏览器向web服务器发送请求的时候,一般会带上Referer,告诉服务器该请求是从哪个页面链接过来的,服务器借此可以获得一些信息用于处理。比如从我主页上链接到一个朋友那里,他的服务器就能够从HTTP Referer中统计出每天有多少用户点击我主页上的链接访问他的网站。

(3)User-Agent

这个对于爬虫比较重要 因为一班都需要添加该属性,否则稍微处理过的网站,都无法爬取。
告诉HTTP服务器, 客户端使用的操作系统和浏览器的名称和版本。
我们上网登陆论坛的时候,往往会看到一些欢迎信息,其中列出了你的操作系统的名称和版本,这往往让很多人感到很神奇,实际上,服务器应用程序就是从User-Agent这个请求报头域中获取到这些信息。User-Agent请求报头域允许客户端将它的操作系统、浏览器和其它属性告诉服务器。
例如: User-Agent: Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; CIBA; .NET CLR 2.0.50727; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729; .NET4.0C; InfoPath.2; .NET4.0E)

应用程序版本“Mozilla/4.0”表bai示:你使用Maxthon 2.0 浏览du器使用 IE8 内核;
版本标识“zhiMSIE 8.0”
平台自身的dao识别信息“Windows NT 5.1”表示“操作系统为zhuan Windows XP”
Trident内核版本“Trident/4.0”,浏览器的一种内核,还有一种就是WebKit内核

(4)Content-type

表示后面的文档属于什么MIME类型。Servlet默认为text/plain,但通常需要显式地指定为text/html。由于经常要设置Content-Type,因此HttpServletResponse提供了一个专用的方法setContentType。
  • 常见的媒体格式类型如下:
text/html HTML格式
text/plain 纯文本格式
text/xml XML格式
image/gif gif图片格式
image/jpeg jpg图片格式
image/png png图片格式
  • 以application开头的媒体格式类型:
application/xhtml+xml XHTML格式
application/xml XML数据格式
application/atom+xml Atom XML聚合格式
application/json JSON数据格式
application/pdf pdf格式
application/msword Word文档格式
application/octet-stream 二进制流数据(如常见的文件下载)
application/x-www-form-urlencoded 中默认的encType,form表单数据被编码为key/value格式发送到服务器(表单默认的提交数据的格式)
  • 另外一种常见的媒体格式是上传文件之时使用的:
multipart/form-data 需要在表单中进行文件上传时,就需要使用该格式。

(5)Accept-Language

Accept-Langeuage:指出浏览器可以接受的语言种类,如en或en-us指英语,zh或者zh-cn指中文,当服务器能够提供一种以上的语言版本时要用到。

(6)Cookie

Cookie:浏览器用这个属性向服务器发送Cookie。Cookie是在浏览器中寄存的小型数据体,它可以记载和服务器相关的用户信息,也可以用来实现会话功能。
防反爬
user-agent 必须
referer 防盗链,看网站机制
cookie 用户登陆数据
其他 看具体回复
1
2
3
4
5
6
7
8
9
10
11
12
headers = {
'accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
'cookie': '_ntes_nnid=34d30980bda87343a01de676455caf23,1631167819959; _ntes_nuid=34d30980bda87343a01de676455caf23; UM_distinctid=17c0c4d974ac0-0ba38bbbaac2f6-5d462912-1fa400-17c0c4d9751fb; _iuqxldmzr_=32; NMTID=00Om6TxDNkNyCDUr0gNqt6nB6FaFhkAAAF87eurOQ; WNMCID=psyebj.1636079184756.01.0; WEVNSM=1.0.0; WM_TID=VMJqpPoVcjlBAQAFRFJutLnIBScu5%2FUN; WM_NI=rJ2Na1%2FOiVw4gOtZ9mXjaTEzi%2FWy2Z58sYTJb2RnIhKorYLEsi%2BIwQFZmj9yWrsA5RhEnkhGUrpreF4SKlgVT8K1LjzaQZ53Fg7zksmX3DBX2%2BlB5ySte0Ih9CsZiUfWWlk%3D; WM_NIKE=9ca17ae2e6ffcda170e2e6eeb5b841f388a6aab67caba88ea2d85b929e9abbf87ca3e9b6b6b6469a98a7aaf52af0fea7c3b92ab296feafe43bed91a7b7f640a591bcbbbc679cb6afb5c872abf1999ab152f7e8bdbad742a2ee9e8fcc6489b1bebacf4fb1b7e5aaf65b8686a38bbc7395aebda2b85aac9ba28ceb4d97aec093e84ef88d858de65e98e885d2cf62babf9fbbb83986b9f99bea79af88fda5c154f2f5a4a3b87391acabd1cc64fb9dbdbbec5fa689998dea37e2a3; JSESSIONID-WYYY=bs0%5CC%5Cv7UnBn8U6MnZGPeKf4v0m40UEWk4bb1k9%5CwCqBgmhc6ckHWvuaxxNy7wDjGpdg6Vx7TK9XbWVnoToHYNomM3wh44tHcVdDmcUyX5UJzF%5CEhrT38j%5C1%2Bi5OI1Q%5Ct6xxn%5CWO9DRUnh6tATDSp9UM%5Cxq65%5CljyyewOwXaZ9F2Zhw0%3A1636341503070',
'referer': 'https://music.163.com/',
'sec-fetch-dest': 'document',
'sec-fetch-mode': 'navigate',
'sec-fetch-site': 'none',
'sec-fetch-user': '?1',
'upgrade-insecure-requests': '1',
'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36',
}

-->

请我喝杯咖啡吧~

支付宝
微信