基于Spark的通用大数据分析和展示平台技术汇报_王铭辉

当前在线: 54 /历史访问: 2551228

基于Spark的通用大数据分析和展示平台技术汇报_王铭辉_王寅骅

杨诗鹏 Thu Mar 07 2019 16:51:09 GMT+0800 (中国标准时间) [ 报告 ] 浏览次数:3968

本次报告主要内容： 1.介绍了系统目前完成的模块：登录模块、数据集模块、模型算子模块、数据分析模块、模型保存模块 2.介绍系统要继续完成的模块：结果展示模块、部分bug解决、双击数据集展示的说明、替换缺失值字符串类型的列、列名缺失用col1.col2补上、保存模型到服务器、网格搜索有报错、res点有时候出不来、spark分布式。 3.Flask介绍： (1)安装：$ sudo pip install Flask (2)route()装饰器把一个函数绑定到对应的 URL 上。 (3)要给 URL 添加变量部分，可以把这些特殊的字段标记为 ,这个部分(4)将会作为命名参数传递到你的函数。或者可以用指定一个可选的转换器。 (5)默认情况下，路由只回应 GET 请求，但是通过route()装饰器传递 methods 参数可以改变这个行为。 (6)使用url_for()给指定函数构造url。 (7)使用render_template()渲染模板。 4.Spark介绍： (1)Spark Mllib：MLlib是Spark的机器学习（Machine Learning）库。它被分为如下两个包：spark.mllib ：包含基于RDD的原始算法API ；spark.ml ：提供了基于DataFrames 高层次的API。MLlib目前支持4种常见的机器学习问题: 分类、回归、聚类和协同过滤。 (2)Pipeline：工作流将多个工作流阶段（转换器和估计器）连接在一起，形成机器学习的工作流，并获得结果输出。构建方法见PPT。 (3)机器学习算法：决策树举例：决策树（decision tree）是一种基本的分类与回归方法。决策树学习通常包含三个过程：A．特征选择：选取对训练数据具有分类能力的特征。B．决策树生成：选择信息增益最大的特征作为结点的特征，由该特征的不同取值建立子结点，再对子结点递归地调用以上方法C．决策树剪枝：防止出现过拟合

附件: 基于Spark的通用大数据分析和展示平台技术汇报_王铭辉_王寅骅.pdf [登录后查看]

自动标签 : 王寅骅 Spark 通用决策树机器学习工作流 Mllib 模块特征数据集部分 spark 函数可以分类

更多 [ 报告 ] 文章

请先登录, 查看相关评论.