在编写爬虫代码的时候,有些网站会验证访问的请求头可能导致无法爬到想要的数据。这里我们可以抓包到请求头,模拟正常的浏览器访问。

抓包到的请求头

如果直接把抓包到的请求头粘贴在代码里面,肯定是不行的,因为这些字符串没有用引号引起来,手动改又太麻烦,所以这里我们可以用正则表达式(Re)来一键处理。

使用支持正则表达式替换的文本编辑器,例如Notepad++(也可以使用Sublime,只要支持正则表达式替换即可):

新建一个空的编辑框,把请求头复制进去。

复制粘贴的请求头

进行替换
  1. Ctrl+F进入查找窗口,然后单击替换进入替换选项卡。

替换

  1. “查找目标”设为(.*?): (.*),“替换为”设为"$1": "$2",

  2. 勾选“循环查找”和“正则表达式”

  3. 点击“全部替换”

替换结果

结果