详细解释数据挖掘中的 10 大算法(上) - 博客 - 伯乐在线
详细解释数据挖掘中的 10 大算法(上) 还等什么?这就开始吧! 等下,什么是分类器呢? 分类器是进行数据挖掘的一个工具,它处理大量需要进行分类的数据,并尝试预测新数据所属的类别。 举个例子吧,假定一个包含很多病人信息的数据集。我们知道每个病人的各种信息,比如年龄、脉搏、血压、最大摄氧量、家族病史等。这些叫做数据属性。 现在: 做法是这样的: 病人有癌症的病史 病人有和癌症病人高度相似的基因表达 病人有肿瘤 病人的肿瘤大小超过了5cm 基本原则是: 那 C4.5 算法和决策树系统有什么区别呢? 首先,C4.5 算法在生成信息树的时候使用了信息增益。 最后,不完全的数据用算法自有的方式进行了处理。 分类器是很棒的东西,但也请看看下一个聚类算法…. 举个例子,假设我们定义一个病人的数据集。在聚类分析里,这些病人可以叫做观察对象。我们知道每个病人的各类信息,比如年龄、血压、血型、最大含氧量和胆固醇含量等。这是一个表达病人特性的向量。 请看: 那它是怎么处理的呢?k-means 算法有很多优化特定数据类型的变量。 我们现在有 k 个类,并且现在每个病人都是一个类中的一员。 这个中心成为类新的中心点。 为什么要使用 k-means 算法呢?我认为大多数人都同意这一点: k-means 关键卖点是它的简单。它的简易型意味着它通常要比其他的算法更快更有效,尤其是要大量数据集的情况下更是如此。 但用k-means 算法也不是一帆风顺的: 咦?一个超..Read full article from 详细解释数据挖掘中的 10 大算法(上) - 博客 - 伯乐在线
No comments:
Post a Comment