爬虫采集数据库爬虫提取到的数据该如何处理?

2020-06-19 9:17 数据库 loodns

  最好是存入到数据库外,好比mongodb或者mysql,最好mongodb,便利后续的数据处置。

  你爬取到的数据是json格局的,若是你用的是Python,就用json.loads把数据转成数组,然后遍历生成你想要的格局。

  按照你想要的格局提取,也就是提取你本人想要的数据,好比你爬了淘宝的图片,你只想要图片,那你就只需将图片地址提取出来就能够了,分之一句话,你要啥就解析啥,欢送关心我号哈

  能够试一下ForeSpider爬虫软件,采集之前,间接建表,配放,就能够间接把想要的数据采集到数据表里边去。

  一般爬虫回来的数据都是存进去数据库啦,最好用mongdb咯,默认爬虫做了去沉和数据清洗,存进去数据库是无效的数据就完事了。

发表评论:

最近发表