从 01 开始 从 01 开始
首页
  • 计算机简史
  • 数字电路
  • 计算机组成原理
  • 操作系统
  • Linux
  • Docker
  • 计算机网络
  • 计算机常识
  • Git
  • 数据库
  • JavaSE
  • Java 高级
  • JavaEE

    • 构建、依赖管理
    • Ant
    • Maven
    • 日志框架
    • Junit
    • JDBC
    • XML-JSON
  • JavaWeb

    • 服务器软件
    • 环境管理和配置管理-科普篇
    • Servlet
  • Spring

    • Spring基础
  • 主流框架

    • Redis
    • Mybatis
    • Lucene
    • Elasticsearch
    • RabbitMQ
    • MyCat
    • Lombok
  • SpringMVC

    • SpringMVC 基础
  • SpringBoot

    • SpringBoot 基础
  • Node
  • Windows 使用技巧
  • 最全面的输入法教程
  • 浏览器
  • 终端软件
  • 装机
  • 笔记类软件
  • Markdown
  • 各大平台
  • 远程控制
  • RSS
  • 图片类工具
  • Office
  • 手机
  • 校招
  • 五险一金等
  • 职场规划
  • 关于离职
  • 杂谈
  • 教程简介
  • 英语学习方法论
  • 字母
  • 音标
  • 单词
  • 语法
  • 英语兔的相关视频
  • Larry 想做技术大佬的相关视频
  • 驾驶技能
  • 住房相关
  • 厨艺
  • 关于税
  • 理财
  • 睡眠
  • 皮肤
  • 口腔健康
  • 学会呼吸
  • 健身日志
  • 电影

    • 电影推荐
  • 漫画

    • 漫画软件
    • 漫画推荐
  • 游戏

    • Steam
    • 三国杀
    • 求生之路
  • 反腐
  • GFW
  • 404 内容
  • 审查与自我审查
  • 互联网
  • 2022
  • 2023
  • 2024
  • 2025
  • 关于本站
  • 关于博主
  • 网站动态
  • 公告栏
  • 友人帐
  • 从零开始搭建一个博客
  • 搭建邮件服务器
  • 本站分享
  • 文章分类
  • 文章归档

晓林

程序猿,自由职业者,博主,英语爱好者,健身达人
首页
  • 计算机简史
  • 数字电路
  • 计算机组成原理
  • 操作系统
  • Linux
  • Docker
  • 计算机网络
  • 计算机常识
  • Git
  • 数据库
  • JavaSE
  • Java 高级
  • JavaEE

    • 构建、依赖管理
    • Ant
    • Maven
    • 日志框架
    • Junit
    • JDBC
    • XML-JSON
  • JavaWeb

    • 服务器软件
    • 环境管理和配置管理-科普篇
    • Servlet
  • Spring

    • Spring基础
  • 主流框架

    • Redis
    • Mybatis
    • Lucene
    • Elasticsearch
    • RabbitMQ
    • MyCat
    • Lombok
  • SpringMVC

    • SpringMVC 基础
  • SpringBoot

    • SpringBoot 基础
  • Node
  • Windows 使用技巧
  • 最全面的输入法教程
  • 浏览器
  • 终端软件
  • 装机
  • 笔记类软件
  • Markdown
  • 各大平台
  • 远程控制
  • RSS
  • 图片类工具
  • Office
  • 手机
  • 校招
  • 五险一金等
  • 职场规划
  • 关于离职
  • 杂谈
  • 教程简介
  • 英语学习方法论
  • 字母
  • 音标
  • 单词
  • 语法
  • 英语兔的相关视频
  • Larry 想做技术大佬的相关视频
  • 驾驶技能
  • 住房相关
  • 厨艺
  • 关于税
  • 理财
  • 睡眠
  • 皮肤
  • 口腔健康
  • 学会呼吸
  • 健身日志
  • 电影

    • 电影推荐
  • 漫画

    • 漫画软件
    • 漫画推荐
  • 游戏

    • Steam
    • 三国杀
    • 求生之路
  • 反腐
  • GFW
  • 404 内容
  • 审查与自我审查
  • 互联网
  • 2022
  • 2023
  • 2024
  • 2025
  • 关于本站
  • 关于博主
  • 网站动态
  • 公告栏
  • 友人帐
  • 从零开始搭建一个博客
  • 搭建邮件服务器
  • 本站分享
  • 文章分类
  • 文章归档
  • Windows

  • 输入法

  • 浏览器

  • 终端

  • 笔记类

  • Markdown

  • 装机

  • 各大平台

    • B站

    • 微博

      • 一个批量爬取微博数据的神器
        • 起因
        • 项目介绍
        • 实践
        • 效果
      • weibo-crawler:新浪微博爬虫
      • 一键下载微博图片和视频
    • 微信

  • 远程控制

  • Office

  • RSS

  • 图片类

  • 手机

  • 效率软件
  • 各大平台
  • 微博
2024-08-21
目录

一个批量爬取微博数据的神器

# 100.一个批量爬取微博数据的神器

分享一个能批量下载微博图片/视频/评论的工具

‍

# 起因

偶尔玩玩微博,最近看到了一名专业的 coser,因此想要下载一些她的微博,方便观看,也避免以后平台倒闭/博主退坑的情况导致无法看原微博。

​

专业 coser:鲨鱼 SAME (opens new window)

‍

# 项目介绍

然后我在 GitHub 上搜了下,发现一个高赞项目:weibo-crawler,新浪微博爬虫。

项目地址:https://github.com/dataabc/weibo-crawler (opens new window)

简单摘录下项目的文档:

连续爬取一个或多个新浪微博用户(如 迪丽热巴 (opens new window)、郭碧婷 (opens new window))的数据,并将结果信息写入文件。写入信息几乎包括了用户微博的所有数据,主要有用户信息和微博信息两大类,前者包含用户昵称、关注数、粉丝数、微博数等等;后者包含微博正文、发布时间、发布工具、评论数等等,因为内容太多,这里不再赘述,详细内容见输出部分。

具体的写入文件类型如下:

  • 写入 csv 文件、写入 json 文件、MySQL 数据库、MongoDB 数据库、SQLite 数据库​
  • 下载用户原创和转发微博中的原始图片、视频、Live Photo 中的视频、一级评论

‍

还可以通过自动化,定期增量爬取新微博,非常方便。

# 实践

实操起来也很简单,官方文档写的非常详细,字数都上万了,配图也很丰富,我这里就简单说明下,其实就三步:

  • 首先,该项目基于 Python,因此得安装 Python(具体步骤就不展开了,网上很多教程)。
  • 然后,填写好要爬取的微博用户信息(例如用户 ID,Cookie)
  • 运行项目:python weibo.py​

具体操作文档请看官方文档了,我会在下一篇博客转载它,方便国内的读者查看(想看最新版还是建议去官网看)

‍

# 效果

将所有图片、视频等数据分别存储,并且都是原始文件(高清),文件名也已经重命名好了:

​

如果有下载失败的情况,会将情况写在 not_downloaded.txt 里(若图片全部下载成功则不会生成该文件),非常贴心。 ‍

——完——

‍

‍

‍

上次更新: 2024/12/2 18:56:44
小心!这样分享 B 站视频会暴露身份
weibo-crawler:新浪微博爬虫

← 小心!这样分享 B 站视频会暴露身份 weibo-crawler:新浪微博爬虫→

最近更新
01
2025 年 2 月记
02-28
02
最全面的浏览器教程-完结撒花
02-16
03
这个工具可以轻松搞到你的浏览器账户密码!
02-15
更多文章>
Theme by Vdoing | Copyright © 2022-2025 | 粤 ICP 备 2022067627 号 -1 | 粤公网安备 44011302003646 号 | 点击查看十年之约
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式