时间:2023-07-13 19:00:01 点击次数:18
今天我就来给大家分享一个不用技术,不需要编程开发,可直接使用的一个快捷采集的软件,只用添加需要采集的网页链接就可以将网页上的数据采集到本地放到Excel表格当中给我们做数据分析。链家作为一个全国二手房市场的代表企业,二手房数据也是比较全的,下面我们就用GooSeeker网络爬虫来采集链接的二手房信息。
下面就给大家分享下快速有效地将链家的二手房信息采集下来的步骤。
下载,安装,打开,登录账号,这里就不废话了,直接上干货
数据DIY是一个快捷采集工具,不用编程,直接用
1)进入数据DIY,从GooSeeker网站的顶部菜单进入路线是:资源——>数据DIY
2)在数据DIY网页上,依次选择 类别 — 网站 — 网页
链家的具体类型是:
类别:房地产,
网站:链家,
网页:链家二手房在售房源列表
参考下图
3)对比样本页面,观察页面的结构,输入的网址一定要具有相同的页面结构,否则会采集失败。
链家的样本页面是这个样子的
你可能看到的需要采集的页面是这样的,可以对比一下,他们是一样的。
可以看出两个页面几乎一样,只是商品和地区不同而已
4)输入要采集的网址,需要采集多少页就选择多少页,如果需要采集完全部数据都话,就直接选择全部就好了
会看到一个提示,要求启动爬虫窗口。而且会启动2个窗口,一个用来采集数据,一个用来打包数据。运行期间不要关闭他们,也不要最小化。但是这些窗口上面可以覆盖其他窗口
5)等待采集完成,打包下载数据
注意:提示采集完成后不要立马关闭窗口哦,需等待打包按钮变成绿色,采集状态变成已采集,请看下图
6)打包数据
7)下载数据
8)到这里我们的数据就采集下来了,让我们来看下我们采集到的数据吧
9)采集完列表信息之后可以直接将这个详情链接添加到链家二手房在售房源详情信息来采集房源详情的信息