本次报告主要内容:
1.介绍了系统目前完成的模块:登录模块、数据集模块、模型算子模块、数据分析模块、模型保存模块
2.介绍系统要继续完成的模块:结果展示模块、部分bug解决、双击数据集展示的说明、替换缺失值字符串类型的列、列名缺失用col1.col2补上、保存模型到服务器、网格搜索有报错、res点有时候出不来、spark分布式。
3.Flask介绍:
(1)安装:$ sudo pip install Flask
(2)route()装饰器把一个函数绑定到对应的 URL 上。
(3)要给 URL 添加变量部分,可以把这些特殊的字段标记为 ,这个部分(4)将会作为命名参数传递到你的函数。或者可以用指定一个可选的转换器。
(5)默认情况下,路由只回应 GET 请求,但是通过route()装饰器传递 methods 参数可以改变这个行为。
(6)使用url_for()给指定函数构造url。
(7)使用render_template()渲染模板。
4.Spark介绍:
(1)Spark Mllib:MLlib是Spark的机器学习(Machine Learning)库。它被分为如下两个包:spark.mllib :包含基于RDD的原始算法API ;spark.ml :提供了基于DataFrames 高层次的API。MLlib目前支持4种常见的机器学习问题: 分类、回归、聚类和协同过滤。
(2)Pipeline:工作流将多个工作流阶段(转换器和估计器)连接在一起,形成机器学习的工作流,并获得结果输出。构建方法见PPT。
(3)机器学习算法:决策树举例:决策树(decision tree)是一种基本的分类与回归方法。决策树学习通常包含三个过程:A.特征选择:选取对训练数据具有分类能力的特征。B.决策树生成:选择信息增益最大的特征作为结点的特征,由该特征的不同取值建立子结点,再对子结点递归地调用以上方法C.决策树剪枝:防止出现过拟合
附件: 基于Spark的通用大数据分析和展示平台技术汇报_王铭辉_王寅骅.pdf [登录 后查看]
自动标签 :
王寅骅
Spark
通用
决策树
机器学习
工作流
Mllib
模块
特征
数据集
部分
spark
函数
可以
分类