如何爬取微博评论

01 前言

微博,想必大家都非常熟悉。人人都可以在上面发表自己的观点。到现在微博已经成为了官方和明星等“新闻发布”的第一阵地,比如前几天范冰冰宣布和李晨分手,双宋CP宣布离婚,瞬间微博就爆炸。主要是因为微博不同于其他的社交平台,不需要对方关注你或是成为好友,就可以看到所有你想看到的信息和动态。所以,微博信息量巨大,也为我们爬数据提供了基础!

数据爬取

是的,今天,我们就来爬一下微博的评论,前面已经给大家介绍了很多经典算法,大家对于python基本的内容已经熟悉啦,今天,我们就简单的来学习一下如何爬数据。

Tip:准备工作

首先,我们需要找到一个待爬取的微博,微博主要是三种界面,分别是网页版、手机端和移动端,我们选取最简单的移动端来练手。

接下来,就开始我们的爬虫了,我们就选取前几天大热的范冰冰的博客吧。微博页面如下图所示:

我们的工作是对评论进行爬取,点击“下一页”,可见评论页数高达28514页,看来大家对这个话题的关注度真的很高诶~~我们可以看到评论的链接为:

https://weibo.cn/comment/HASs7tfjN?uid=3952070245&rl=0&page=1

https://weibo.cn/comment/HASs7tfjN?uid=3952070245&rl=0&page=2

https://weibo.cn/comment/HASs7tfjN?uid=3952070245&rl=0&page=3

网址最后的数字代表了页数,这也就为我们的评论爬取提供了基础!

Tip:爬取算法

算法介绍:Requests算法

1. Request 对象用于从访客那里获取信息。

2.pattern:属性规定用于验证 <input> 元素的值的正则表达式

爬取算法:

运行上述算法后,将得到:

输出到txt文件的内容是:

这样的数据还不太美观直接,我们再对上面的数据进行整理:

运行上述算法后,可得结果为:

这样我们就大功告成啦!

总结

这次我们只介绍了爬取新浪微博移动端的评论数据(因为这个比较简单....)大家可以用这个方法试着爬取网页端或者手机端的数据哦~我们下期再见!

    • *

发表评论

邮箱地址不会被公开。 必填项已用*标注