requests_html 中使用浏览器渲染js时修改headers信息

requests_htmlrequests的作者 基于 requestspyppeteer 以及一些其他网页爬虫库的整合
关于 pyppeteer 是什么就不多赘述了

requests_html 通过方法 render() 调用的pyppeteer 与浏览器进行交互,

requests_html官方文档中,并没有找到有关如何修改浏览器Headers的内容,

比如,修改user-agent

但在网上可以找到

# 创建session对象
session = requests_html.HTMLSession(browser_args=['--no-sandbox','--user-agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3809.100 Safari/537.36"'])

https://www.cnblogs.com/ruhai/p/11318133.html
https://blog.csdn.net/github_38358734/article/details/81738757

另一方面,不仅仅想要修改user-agent ,还需要修改Headers 中的 Referer
这个,pyppeteer 中是实现了的,page.setExtraHTTPHeaders({})

requests_html 中 是把这部分舍弃掉了
所以想要通过requests_html修改 Referer 还需要改下 requests_html的源码

改三个地方,需要修改Referer的话,调用render()时,传入referer即可
requests_html

发表评论

邮箱地址不会被公开。 必填项已用*标注