基于Spark的通用大数据分析和展示平台技术汇报_王铭辉_王寅骅
杨诗鹏   Thu Mar 07 2019 16:51:09 GMT+0800 (中国标准时间) [ 报告 ]     浏览次数:3219

本次报告主要内容: 1.介绍了系统目前完成的模块:登录模块、数据集模块、模型算子模块、数据分析模块、模型保存模块 2.介绍系统要继续完成的模块:结果展示模块、部分bug解决、双击数据集展示的说明、替换缺失值字符串类型的列、列名缺失用col1.col2补上、保存模型到服务器、网格搜索有报错、res点有时候出不来、spark分布式。 3.Flask介绍: (1)安装:$ sudo pip install Flask (2)route()装饰器把一个函数绑定到对应的 URL 上。 (3)要给 URL 添加变量部分,可以把这些特殊的字段标记为 ,这个部分(4)将会作为命名参数传递到你的函数。或者可以用指定一个可选的转换器。 (5)默认情况下,路由只回应 GET 请求,但是通过route()装饰器传递 methods 参数可以改变这个行为。 (6)使用url_for()给指定函数构造url。 (7)使用render_template()渲染模板。 4.Spark介绍: (1)Spark Mllib:MLlib是Spark的机器学习(Machine Learning)库。它被分为如下两个包:spark.mllib :包含基于RDD的原始算法API ;spark.ml :提供了基于DataFrames 高层次的API。MLlib目前支持4种常见的机器学习问题: 分类、回归、聚类和协同过滤。 (2)Pipeline:工作流将多个工作流阶段(转换器和估计器)连接在一起,形成机器学习的工作流,并获得结果输出。构建方法见PPT。 (3)机器学习算法:决策树举例:决策树(decision tree)是一种基本的分类与回归方法。决策树学习通常包含三个过程:A.特征选择:选取对训练数据具有分类能力的特征。B.决策树生成:选择信息增益最大的特征作为结点的特征,由该特征的不同取值建立子结点,再对子结点递归地调用以上方法C.决策树剪枝:防止出现过拟合


附件: 基于Spark的通用大数据分析和展示平台技术汇报_王铭辉_王寅骅.pdf [登录 后查看]

自动标签  : 王寅骅   Spark   通用   决策树   机器学习   工作流   Mllib   模块   特征   数据集   部分   spark   函数   可以   分类    

更多 [ 报告 ] 文章

请先 登录, 查看相关评论.