说到爬虫,大多数人会想到用Python来做,毕竟简单好用,比如想抓取豆瓣电影top250 的所有电影数据。ps: 我收藏了部分top 250 的电影,可以回复对应电影名
试试。
简单的代码如下:
import requests
from bs4 import BeautifulSoup
url =
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36'}
s = BeautifulSoup(requests.get(url, headers=headers).text, 'html.parser')
for link in s.find_all('span', class_='title'):
print(link.text)
这样就可以输出第一页的所有电影标题,第二页的数据还需要代码处理。
image.png
但对于非程序员还是有难度的,有没有不用写代码就能抓取数据的爬虫工具呢,下面介绍几个非常实用的爬虫工具,这里还是以爬取豆瓣电影top250为例。
爬山虎采集器
image.png image.png点下一步,因为有10页,因此要选择
自动识别分页
image.png
然后保存并采集
image.png
采集结果:
image.png
。
image.png
成功导出250条数据。
image.png
txt文件内容
image.png
后羿采集器
image.png输入网址,它会自动分页加载。
image.png
点击开始采集
image.png image.png
采集完成
image.png image.png
这个相比上面的爬山虎采集器可以导出 excel csv text 等格式。
image.png
我这里导出到excel,所有电影标题,链接,封面图片,导演,评价人数都抓取下来了。
image.png八爪鱼采集器
image.png集搜客
image.pngWeb Scraper
有了上面这些工具,不会代码的你也能轻松抓取你想要的公开数据。
推荐阅读:
免费星球