时间:2023-07-09 12:23:40 点击次数:7
下面介绍一种功能强大实用性强的农业智能平台系统建设方案要点
一、平台系统建设目的
农业智能数据平台系统和农业智能数据分析技术是农业智能化发展的重要方向,将农业数据、大数据平台和分析技术结合,为农业生产提供及时监测预警信息,为农业市场提供风险评估,为农业灾害提供应急对策,为农业管理提供科学指导。
二、模式简介
该系统基于大数据框架以及数据挖掘算法,可以实现农业大数据存储与智能化分析应用,使用场景遍及农业各领域。
该系统选取Hadoop中的分布式文件系统HDFS作为数据存储工具,选取Spark作为计算引擎,来搭建农业大数据存储和分析系统。
运用聚类算法中的谱聚类算法,对算法进行并行化处理,将其运行在构建的系统上,以实现农业数据的挖掘分析处理(算法的具体运用另行发布)。
同时,该系统还具有数据查询、文件上传下载以及WEB数据自动爬取的功能。
三、技术要点
(一)大数据挖掘系统技术选型
运用hadoop和spaek两个主流大数据处理框架,选取hdfs分布式文件系统作为系统的基础存储框架,并选取spark作为主计算引擎。
(二)数据挖掘算法模型
针对农业无标签数据分类问题,该系统采用聚类方法中的谱聚类(spectralclustering)算法作为核心算法。谱聚类算法能够对农业非凸空间数据产生良好的聚类效果,其算法复杂度和聚类精度都具有优势。
(三)农业大数据挖掘系统设计与实现
根据需求分析和架构设计,搭建四层架构的大数据平台系统。这四层架构分别为负责数据的获取、分布式存储功能的数据层,提供计算框架以及逻辑处理功能的核心业务层,以及实现平台与用户之间交互接口的交互层,并对数据存储、数据分析和数据管理系统子模块进行管理。
另外,数据增值服务也是一个重要运用场景和层次。
(四)农业大数据挖掘系统部署与应用
该系统易于搭建和低成本运用,由数台服务器进行集群搭建。
四、总体架构设计
该系统采用四层架构体系
(一)数据层
数据层:数据层主要实现数据获取、清洗、存储以及管理等功能。
能够获取农业类科学网站、农业传感器及卫星遥感方式提供的农业统计、实时数据等。
搭建分布式Hadoop平台,对获取数据进行清理归类整合等底层数据操作,并通过分布式文件系统HDFS,将处理后的数据进行分布式存储,为上层用户提供可靠的并发访问和安全的副本。
最后利用YARN对分布式集群进行高效管理。
(二)业务层
业务层为系统的核心层,该层基于spark的内存计算框架,实现了系统的数据查询、数据分析、数据挖掘功能。
还能够实现数据挖掘中的并行化谱聚类算法,该算法不仅可以提供准确性颇高的聚类结果,而且可以提供并行化的高性能计算效率,是整个系统功能完整性与强大性的关键层。
(三)交互层
主要是系统与用户之间交互层。构建交互界面,通过该界面用户可以实现对数据的管理。
此外可以根据自身需求定制各种维度的数据挖掘算法。同时,系统运行所产生的结果也可以通过交互层展现给用户。
(四)增值服务层
基于平台全部数据,在上述三项功能基础上,还可以进行农业增值服务,如农业科学技术服务,农业企业融资服务,农业管理服务等。
五、主要模块简介
(一)数据存储模块
该模块将获取的数据存储在大数据系统上,该数据系统的存储层主要采用hdfs数据存储架构,拥有四个计算节点的集群。经过预处理后的数据或经过平台分析的数据,以文本的方式写入到分布式文件系统hdfs中。
该系统可以为数据存储提供强大的性能保障,通常每个数据都有三个备份,以避免单个节点发生故障后数据丢失的情况。
(二)数据分析模块
数据分析模块的计算引擎主要采用spark内存计算引擎。主要实现海量农业数据的并行化计算,采用spark的相关组件实现数据
分析模块的调入,并利用spark的编程语言接口,利用sparkx等实现自定义模块功能的编写与模块调入功能,平台实现了自定义的并行化谱聚类算法,并将该算法传入到分析模块。
将数据源接入的数据进行数据过滤和清洗,为数据建模和预测提供样本数据。
(三)数据管理模块
数据管理模块可以分为数据采集和数据查询两个部分。
数据采集:
获取来自于互联网的数据,从中国科学院数据云、中国农业科学院相关农业网站获取数据,互联网数据的获取可以采用爬虫方式获得。
获取来源于统计年鉴上关于农业资源的历史数据。
获取从传感器等现场实地传回来农作物生长状况和生长环境的实时数据,通过嵌入客户端,将农业现场数据实时传回平台。
此外还可以从科学数据库中获取农业的相关文献。
数据查询:
主要由sparksql实现,对用户具有一定的友好性。用户可以利用简单的sql语言实现系统的数据查询、数据过滤等功能。
(篇幅所限,了解该系统可以进一步私聊)