您好,欢迎来到二三四教育网。
搜索
您的当前位置:首页不会写Python代码如何抓取豆瓣电影 Top 250

不会写Python代码如何抓取豆瓣电影 Top 250

来源:二三四教育网

说到爬虫,大多数人会想到用Python来做,毕竟简单好用,比如想抓取豆瓣电影top250 的所有电影数据。ps: 我收藏了部分top 250 的电影,可以回复对应电影名试试。

image.png

简单的代码如下:

import requests
from bs4 import BeautifulSoup

url = 
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36'}
s = BeautifulSoup(requests.get(url, headers=headers).text, 'html.parser')
for link in s.find_all('span', class_='title'):
    print(link.text)

这样就可以输出第一页的所有电影标题,第二页的数据还需要代码处理。


image.png

但对于非程序员还是有难度的,有没有不用写代码就能抓取数据的爬虫工具呢,下面介绍几个非常实用的爬虫工具,这里还是以爬取豆瓣电影top250为例。

爬山虎采集器

image.png image.png
点下一步,因为有10页,因此要选择 自动识别分页
image.png
然后保存并采集
image.png
采集结果:
image.png

image.png
成功导出250条数据。
image.png
txt文件内容
image.png

后羿采集器

image.png
输入网址,它会自动分页加载。
image.png
点击开始采集
image.png image.png

采集完成


image.png image.png

这个相比上面的爬山虎采集器可以导出 excel csv text 等格式。


image.png

我这里导出到excel,所有电影标题,链接,封面图片,导演,评价人数都抓取下来了。

image.png

八爪鱼采集器

image.png

集搜客

image.png

Web Scraper

有了上面这些工具,不会代码的你也能轻松抓取你想要的公开数据。

推荐阅读:

免费星球

公众号:苏生不惑

扫描二维码关注或搜索微信susheng_buhuo

Copyright © 2019- how234.cn 版权所有 赣ICP备2023008801号-2

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务