日志数据分析-日志数据的种类
大家好,今天小编关注到一个比较有意思的话题,就是关于日志数据分析的问题,于是小编就整理了4个相关介绍日志数据分析的解答,让我们一起...
扫一扫用手机浏览
大家好,今天小编关注到一个比较有意思的话题,就是关于数据分析分类的问题,于是小编就整理了4个相关介绍数据分析分类的解答,让我们一起看看吧。
我做数据挖掘相关的工作很多了。简单来谈一下个人对这个问题的看法。有说的不对的地方,欢迎各位同行批评指正:
数据挖掘大概可以分成四类问题,问题不一样,对应的处理方法也不同
1.预测问题:建模数据***中有X和Y,Y是连续变量。通常用线性模型、随机森林、xgboost算法来解决。评估主要基于测试集上的均方误差或者相对误差。或者计算cross-validation的平均均方误差或者相对误差
2.分类为题:建模数据***中有X和Y,Y是类别变量。通常用logistic回归、cart、随机森林、xgboost来解决。评估主要基于测试***上的准确率和召回率或者计算cross-validation的平均准确率或召回率
3.聚类问题:建模数据***只有X,没有Y。需要把X里面的样本分成多个群组。一般***用K-MEANS算法。不过业界没有统一的评估标准
4.异常检测问题:建模数据***只有X,没有Y。需要把X数据里面的异常点找出来。这个相对而言比较麻烦。一般用Isolation Forest。业界似乎也没有统一的评价标注。
据数据类型,需要***取不同的统计方法来处理,下面适用于分类数据的分析方法是众数。
众数(Mode)是指在统计分布上具有明显集中趋势点的数值,代表数据的一般水平。 也是一组数据中出现次数最多的数值,有时众数在一组数中有好几个。用M表示。
1.工具分类,汽车修理,
餐厅管理,人物分析,
杂物收纳,玻璃切割,
钢筋加工,数据***集,
垃圾分类,窗口服务,
***兴建,材料试验,
杂质清除,城市清洁,
地板擦拭,课程布置,
教学研究,课题研讨,
语言沟通,体育锻炼,
钢琴伴奏,文件传输,
心理辅导,祖国建设,
河道清理,
通常能想到的属性就不说了
从3个维度去配比你的商品和用户之间的关系
1 你的商品本身,商品的价位,功能,时效等,商品item本身的属性有哪些
2 你的企业本身,企业自身的品牌,所在行业,所在地点等属性
3 你用户自身的属性,性别,年纪等生物属性,收入,行业等社会属性
最后把3个属性之间通过同现,先验,后验,获得自己独特视角的维度,用这个去分析进行分类!
还有一种无脑的方式,把这些属性直接灌到dl模型里面,最后用softmax输出!
到此,以上就是小编对于数据分析分类的问题就介绍到这了,希望介绍关于数据分析分类的4点解答对大家有用。
[免责声明]本文来源于网络,不代表本站立场,如转载内容涉及版权等问题,请联系邮箱:83115484@qq.com,我们会予以删除相关文章,保证您的权利。 转载请注明出处::http://www.lzkypy.com/41208.html