静脉曲张不治疗会有什么后果| 这是什么皮肤病| 最近有什么新闻| 乌豆和黑豆有什么区别| 凝聚力是什么意思| 蓝莓有什么营养价值| 高专是什么| 高密度脂蛋白低是什么原因| 总三萜是什么| 胎盘低是什么原因造成的| 什么水晶招财旺事业| 细菌感染是什么原因| 谷草转氨酶偏高是什么意思| 天干地支是什么意思| 上山下乡是什么意思| 便秘吃什么菜| 颈部出汗是什么原因| 马钧发明了什么| 零零年属什么| 阳春是什么意思| 小便不利是什么意思| 胆毒是什么原因引起的| 丝瓜什么时候种植最好| pp材质是什么| 猕猴桃不能和什么一起吃| 儿童脾胃不好吃什么调理脾胃| 4.4是什么星座| 干贝和瑶柱有什么区别| 妊娠高血压对胎儿有什么影响| md鞋底是什么材质| 力挺是什么意思| 什么叫雷达| 腰扭伤挂什么科| 睡眠好的人说明什么| 清创是什么意思| 出汗多吃什么药| 睾酮是什么| 七月十日是什么星座| 人间正道是沧桑是什么意思| 什么颜色属金| 做梦被杀了是什么征兆| 儿童办理护照需要什么材料| 7月17日是什么日子| 小便发黄是什么原因引起的| 最贵的玉是什么玉| 木须是什么| 交期是什么意思| 正常尿液是什么颜色| 胃痛按什么部位可以缓解疼痛| 什么是天干地支| 五三年属什么生肖| 磨牙是什么原因引起的| 下午五点多是什么时辰| 眉尾长痘是什么原因| 敢爱敢恨是什么意思| 闺蜜是什么样的关系| 竣字五行属什么| 青提是什么| 玉米什么季节成熟| 右边偏头痛什么原因| broom是什么意思| 吊兰开花有什么兆头| 吃紧急避孕药有什么副作用| 浑身没劲什么原因| 酸梅汤与什么相克| 属马的本命佛是什么佛| 硬核是什么意思| 3475是什么罩杯| 经常吃莲子有什么好处| 9.15是什么星座| 脑供血不足是什么原因| 什么的小火车| 跑团什么意思| 胆碱酯酶是什么意思| 子宫回声欠均匀是什么意思| 扼腕是什么意思| 绍兴酒是什么酒| coach是什么牌子的包| 鬼针草有什么作用| 血小板低吃什么补的快| 一个虫一个合读什么| 板带是什么| 江苏有什么特产| 梦见自己扫地是什么意思| 做梦梦到地震预示着什么| 阴唇肥大是什么原因| 痞是什么意思| 卧虎藏龙是什么生肖| 甲沟炎去医院挂什么科| 无春年是什么意思| 理想血压是什么意思| 颂字五行属什么| 纲目是什么意思| 热疹用什么药膏最好| 有机奶粉是什么意思| 子虚乌有是什么意思| 堂号是什么意思| 2010年是什么生肖| 遥字五行属什么| 丑土代表什么| 阴道口痒用什么药好| 为什么明星整牙那么快| mg什么意思| 97年的属什么| 眼睛老是肿着是什么原因造成的| 一月27日是什么星座| 鱼豆腐是什么做的| 血小板偏高是什么原因| 肺部结节是什么意思啊| 灰枣与红枣有什么区别| 血液是由什么组成的| ufo是什么意思| 怀孕前三个月为什么不能告诉别人| 癌胚抗原是什么意思| 就坡下驴什么意思| 直接胆红素偏高是什么原因| 风生水起是什么生肖| 牙冠什么材质的好| 核心是什么意思| 为什么犹太人聪明| 吃甲硝唑有什么副作用| 成语一什么不什么| 7月30日是什么星座| 舌苔白厚腻吃什么药见效快| 小孩拉肚子吃什么药| 猪头猪脑是什么生肖| 旱魃是什么| 葡萄糖偏低是什么意思| 眼睛发蓝是什么原因| 痴女是什么意思| crp高是什么原因| 纳氏囊肿是什么意思| 临期是什么意思| 五六月份是什么星座| 生理盐水有什么作用| 祭奠用什么花| 小孩坐飞机需要什么证件| 人为什么会哭| 知了是什么意思| 拉稀拉水吃什么药管用| 脾虚如何调理吃什么药| 处长什么级别| 口腔上火吃什么药| 立秋是什么时候| 是什么样的感觉我不懂是什么歌| 知世故而不世故是什么意思| 全职什么意思| babyface是什么意思| 什锦是什么意思| 巫师是什么意思| 送对象什么礼物好| 女人长期做俯卧撑有什么效果| 藕是什么季节的| 马的守护神是什么菩萨| 小脚趾麻木是什么原因| 车水马龙什么意思| 炼蜜是什么| 贫血貌是什么表现| 孢子是什么东西| 男人纹身纹什么运气好| 阿昔洛韦乳膏治什么病| 喉咙发痒咳嗽吃什么药| 痛经 吃什么| 抬头头晕是什么原因| lpl是什么| 张学良为什么叫小六子| 胎菊和金银花一起泡水有什么效果| 海豚吃什么食物| 亚甲炎是什么原因引起的| 为什么科比叫黑曼巴| 什么水果补钙| 穷途末路什么意思| 富硒对人体有什么好处| 脚底褪皮是什么原因| 什么是菱形| 茧子是什么意思| 1989属什么| lesportsac什么牌子| 舌尖长溃疡是什么原因| 七月半是什么日子| 蒸鱼豉油什么时候放| 免疫组织化学染色诊断是什么| 一月十七是什么星座| 化疗为什么要剃光头| 318号是什么星座| 肚子疼呕吐是什么原因| 炙子是什么意思| 慢性肠胃炎吃什么药| 喝可乐有什么危害| 砂仁是什么| 肚子疼吐了是什么原因| 含金量什么意思| 什么是乳腺增生| 五塔标行军散有什么功效| 阿尔马尔是什么药| 惊涛骇浪是什么意思| 心悸是什么病| 菠萝什么季节成熟| 头发爱出油是什么原因| 你有毒是什么意思| 言字旁有什么字| 野餐带什么| 什么贵人能治孤辰寡宿| 属猪适合佩戴什么饰品| 血浆是什么| blk是什么意思| 独美是什么意思| 大便不成形是什么原因造成的| 洗葡萄用什么洗最干净| 风向是什么意思| 五行属土缺命里缺什么| 梦见女鬼是什么意思| 哪吒代表什么生肖| 手上螺纹多少代表什么| 梦见下大雪是什么预兆| 男人睡觉流口水是什么原因| 兔死狐悲是什么生肖| 脖子长痘痘是因为什么原因| c1是什么意思| 旗袍搭配什么鞋子好看| 为什么掉头发很厉害| 中国在什么半球| 形容高兴的词语有什么| 膝盖痛什么原因| 西南方向是什么方位| 十二生肖代表什么花| 肉桂是什么味道| 复健是什么意思| 什么是植物神经| 7月30日是什么日子| 夜里2点到3点醒什么原因| 京东积分有什么用| 豆工念什么| 夏天穿什么鞋| 前列腺是什么意思| 宫颈非典型鳞状细胞是什么意思| 唐卡是什么| 痣挂什么科| 总是低烧是什么原因造成的| 孩子疱疹性咽峡炎吃什么药| 中国最好的大学是什么大学| 元宵节有什么活动| kenzo是什么牌子| 勋章是什么意思| 狐狸是什么科| 浊气是什么| 三伏天什么时候最热| 薄荷有什么作用| 口蜜腹剑是什么意思| 顺势而为什么意思| 前额头痛吃什么药| 反流性食管炎吃什么药最有效| 晴雨表是什么意思| 长命锁一般由什么人送| 常务理事是什么职位| 水晶消磁是什么意思| 男女接吻有什么好处| 前壁后壁有什么区别| 媛交是什么意思| volume什么意思| 什么是肋骨骨折| 什么的池塘| 眼睛为什么老是流眼泪| 小金鱼吃什么食物| 百度
大数据中国 首页 大数据技术 数据挖掘 查看内容
干货:数据挖掘方法论与工程化思考
2018-2-8 15:03 | 查看: 21300| 评论: 0

数据挖掘的标准流程

CRISP-DM(cross-industry standard process for data mining),即为"跨行业数据挖掘标准流程"。近年来CRISP-DM 在各种KDD过程模型中占据领先位置,2014年的统计数据表明其采用量达到43%。

通常来说,在各类KDD过程方法论中排在CRISP-DM后面的是SAS SEMMA。SEMMA代表建模的五个步骤,分别是samle,explore,modify,model和assess。SEMMA更偏重于数据挖掘的建模过程,与SAS的EM工具进行整合,其模型管理部署部分则体现在另外的工具套件中。

相比之下,CRISP-DM通用性更强,在大数据背景下的适应性也比较好。在此基础上我们制定了企业级的数据挖掘管理办法,源于CRISP-DM方法论并进行针对性细化,目的是对数据挖掘流程进行规范化管理。



其实CRISP-DM和SEMMA并没有太多的分歧,具体选择哪项方法跟实际人员投入和工具基础有关。CRISP-DM反映了数据挖掘中的自然迭代规律,在实际工作中可以从其中某一点切入,整体呈现螺旋优化的过程,其对应的六个阶段分别如下:

1.商业理解(business understanding),从商业的角度上面了解项目的要求和最终目的是什么. 并将这些目的与数据挖掘的定义以及结果结合起来。

2.数据理解(data understanding),开始于数据的收集工作。接下来就是熟悉数据的工作;收集原始数据,对数据进行装载,描绘数据,并且探索数据特征,进行简单的特征统计,检验数据的质量。

3.数据准备(data preparation),涵盖了从原始粗糙数据中构建最终数据集(将作为建模工具的分析对象)的全部工作。

4.建模(modeling),各种各样的建模方法将被加以选择和使用,通过建造,评估模型将其参数将被校准为最为理想的值。

5.评估(evaluation),在这一阶段中已经建立了一个或多个高质量的模型。但在进行最终的模型部署之前,更加彻底的评估模型。回顾在构建模型过程中所执行的每一个步骤,是非常重要的,这样可以确保这些模型是否达到了企业的目标。是否仍然有一些重要的企业问题还没有被充分地加以注意和考虑。在这一阶段结束之时,有关数据挖掘结果的使用应达成一致的决定。

6.部署(deployment),即将其发现的结果以及过程组织成为可读文本形式.模型的创建并不是项目的最终目的。

数据挖掘的工程化基础

现阶段大数据、人工智能技术日新月异,对于数据科学领域的工作者来说,在学习新技术的同时更要积极探索适合企业发展的应用场景。尤其是在人工智能领域,现阶段业界对于技术和数据的讨论比较多,但在传统行业中的应用场景其实还差的很多。

当然这不是一蹴而就的,其实依赖于企业整体数据应用水平的提升。企业积极尝试应用新技术,在大数据分析挖掘领域进行试点,然后伴随数据挖掘从点到面的工程化铺开,人工智能的应用场景自然就会呈现出来。

通常传统企业在大数据挖掘领域会有所尝试,并在若干点上取得一定的进展,但距离整体铺开应该都还有很大的差距。企业数字化转型即业务从电子化到数字化的过程,对应着大数据应用深度和复杂度的持续提升,其中数据挖掘的工程化水平是一个重要的衡量标准。

数据挖掘在流程机制的建立过程中要充分实现工程化管理,同时注意加强知识技能的共享和传导。模型开发对应的是实验室机制,数据科学家发挥应有的核心作用。模型部署则是工厂化的概念,需要严格的验证测试过程,确保模型在生产环境稳定高效运行。模型运行结果在业务应用中发挥应有的数据价值,同时业务发展催生新的建模需求。模型管理在整体上发挥监督指导作用,负责数据挖掘全生命周期的管理。

数据挖掘开发部署的十步法

模型管理包括的内容很多,模型从开发到部署的过程中需要一套严格的操作办法,具体可分为十个步骤。这些步骤基本覆盖从模型开发到模型部署的全过程,同样适合于数据挖掘工作的监督管理或第三方评测。

十是一个有趣且比较完整的数字,当然内容可以细化或合并,将其增加或减少直至获得中意的数字。另外,模型都是有生命周期的,满足条件之后就要进行退役或下线,这个过程就不在十个步骤中体现了。


一、原始数据采集

检查原始数据提取过程(数据仓库、数据集市、外部数据等),注意查看是否按要求进行数据脱敏,以及是否进行数据质量检查。

1)使用提供的数据提取方法,重新进行数据提取;

2)抽样检查字段正确性和完整性;

3)抽样查看字段中是否有敏感信息;

4)统计数据总量及缺失量。

二、数据整合逻辑

检查数据处理及整合的基本思路,数据处理方法和流程(数据关联、链接)的正确性和完整性及处理结果的正确性。

1)检查数据预处理思路和处理方法是否正确;
2)检查数据处理流程(数据关联、链接)和整合过程是否正确且完整;
3)抽样检查数据处理结果,并与原数据进行对比,或设置检查点进行中间步骤的检查;
4)结合模型训练及预测结果,对数据处理逻辑进行完善。

三、特征工程处理

检查数据特征加工处理结果的正确性和稳定性。

1)检查特征提取方法是否正确且可以表达业务含义;
2)结合模型训练及测试结果,确认特征提取逻辑的完备性和稳定性。

四、算法参数选择

根据业务需求分析算法合理性,对比不同参数下的模型运行结果,确定算法及参数选择的合理性。

1)根据业务需求及数据特点选择合适算法,使用多种算法进行对比,得到适合建模场景的算法;
2)参数选择同理,对比多种参数选择结果,选最佳结果对应的参数。

五、数据分配策略

检查采用交叉验证方式建立模型过程中的数据集拆分策略及模型结果,对比不同分配策略下模型的效果。

1)检查数据集是否满足生产环境数据应用需求(如时序要求,数据量级限制等);
2)检查交叉验证过程中数据集训练和测试分配策略是否合理,包括拆分比例和方法;
3)对比多种分配策略,根据训练和预测结果选择恰当的分配比例,使得模型有良好的准确性、稳定性和泛化性。

六、模型训练效率

检查模型开发过程中所使用的工具情况,及模型开发过程的运行耗时。

1)检查模型开发平台或工具包在训练过程中的可靠性;

2)检查模型训练和测试耗时是否满足需求;

3)检查模型训练和测试的自动化支持能力。

七、模型评价方案

检查模型评价方案及评价指标的合理性。

1)使用多种评价指标分析模型训练效果,针对不同类型模型选择适当评价指标;

2)建议分类模型选择AUC、Precision、Recall和F1-score;回归模型选择Rmse、r2等;聚类模型选择聚合度等。

八、模型结果复核

检查模型评价结果的正确性,结果可再现及稳定性;

1)选择适当的评价指标,由评价指标结果判断模型结果优劣;
2)多次重复建模过程,改变模型开发输入数据,检查结果可再现性及稳定性。

九、流程化部署

检查模型部署在生产环境后模型运行过程的流程化能力,以及调度脚本的正确性和可维护性。

1)模型部署后,使用调度脚本控制数据挖掘模型实现流程化运行;

2)查看调度脚本的正确性和完整性,以及控制整个流程调整变化的能力。

十、模型运营优化

模型在日常运行过程中,检查批处理的输入数据采集、加工及运行过程的处理效率,检查模型输出结果的时效性和准确性。

1)确定数据处理用到的软硬件运行环境,分析其运算效率;
2)进行完整的数据批处理过程(数据采集、加工及预测)并记录耗时,检查是否有耗时较长的步骤,并寻求可改进的方法(编码改进,软件选择,设备更改);

3)检查模型运行结果是否满足前端业务应用需求,跟踪模型运行情况,定期进行模型结果分析,并适时启动模型优化更新。

Be the Change

与传统IT技能有所区别,在数据挖掘领域工作能够沉淀下来的并不完全是技术,更多的是对数据资产的理解与认知。如何最大化数据资产价值,如何通过数据产品完成价值传导,这些关键问题决定了创新是数据挖掘领域的核心能力。

技术日新月异,昨天的知识到了今天可能就是错误的,所以需要持续更新知识。想要通过数据挖掘提升企业竞争能力,那就先把自己武装起来,这样才有机会做些实事。

另外,数据挖掘的工作涉及人员、角色众多,需要与干系人建立良好的协会关系。单打独斗能做一两个模型,但是落地应用就需要多方参与,以共赢为基调才有可能推进模型在业务流程中的有效应用。共赢不难,只要清楚自己的定位和能力。

至于数据挖掘建模从点到面的推广,就需要建立完善的模型实验室和模型工厂运行机制,也就是要真正实现数据挖掘的工程化管理。这是目前传统企业进行数字化转型过程中需要重点考虑的问题,过程中涉及人员、工具、文化等影响因素。
作者:老田

来源:人工智能和大数据

免责声明: 除非特别声明,文章均为投稿或网络转载,仅代表作者观点,与大数据中国网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。如果本文内容有侵犯你的权益,请发送信息至ab12-120@163.com,我们会及时删除

最新评论

关闭

站长推荐上一条 /1 下一条

大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2025-8-4 06:04 , Processed in 0.071885 second(s), 23 queries .

返回顶部
补充电解质是什么意思 繁花似锦是什么意思 升结肠ca是什么意思 你代表什么意思 钟馗是什么人物
喝什么酒对身体好 质数是什么 菜板什么材质的好 冠心病什么症状表现 缪斯是什么意思
眼白有点黄是什么原因 位置是什么意思 属鼠和什么属相相冲 一切有为法是什么意思 前列腺肿瘤有什么症状
印泥用什么能洗掉 为什么头痛 记忆力下降是什么原因引起的 然五行属什么 二拇指比大拇指长代表什么
豆支念什么hcv8jop4ns9r.cn 身上长小红点是什么原因baiqunet.com 浅蓝色裙子配什么颜色上衣好看hcv9jop0ns8r.cn 遇见是什么意思hcv8jop4ns3r.cn 繁衍的衍是什么意思hcv9jop2ns3r.cn
输卵管堵塞是什么原因造成的hcv9jop4ns2r.cn 龙凤呈祥的意思是什么hcv8jop0ns3r.cn 卧推练什么肌肉hcv7jop9ns5r.cn 表现优异是什么意思hcv9jop4ns4r.cn 5月21号是什么星座hcv9jop8ns0r.cn
婴儿坐飞机需要什么证件hcv8jop9ns9r.cn 喜神是什么意思hcv8jop7ns2r.cn 联字五行属什么hcv8jop0ns3r.cn 是什么星座hcv8jop5ns2r.cn 肚子疼做什么检查hcv9jop1ns5r.cn
梦到下雨是什么意思cj623037.com 右手臂痛是什么预兆hcv8jop2ns5r.cn 睡眠不好是什么原因引起的hcv8jop0ns9r.cn 夏季适合种什么花hcv9jop3ns4r.cn 玉米是什么时候传入中国的hcv7jop7ns1r.cn
百度