本文总结了数据挖掘以及机器学习中常见算法如神经网络算法、随机森林算法以及决策树等,希望能对数据挖掘爱好者有一定帮助。

阅读更多

数据挖掘(KDD)

(1)数据清理(消除噪声和删除不一致数据)
(2)数据集成(多种数据源可以组合在一起)
(3)数据选择(从数据库中提取与分析任务相关的数据)
(4)数据变换(通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式)
(5)数据挖掘(基本步骤,使用智能方法提取数据模式)
(6)模式评估(根据某种兴趣度度量,识别代表知识真正有趣的模式)
(7)知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)

阅读更多

JDK 是 Java 规范的实现,Java 程序在运行期间除了 JVM 的因素外,JDK 也是另外一个重要的影响因素, Java 规范中定义了众多的接口 规范,但实现则取决于各个 Java 规范实现的厂商, 例如 Sun、 IBM、 Bea, 其在实现 Java 规范时采用的方法并不一定相同,在编写 Java程序时,由于Java提供了众多看似功能一样的类,如何选择合适的类来实现需求就成了一个难题了,这也是需要深入理解JDK的原因,以做到根据需求来选择合适的类,而不是想当然的认为调用某个类的某个方法时就会达到预期的效果,否则很有可能因为对 JDK 的实现不了解而导致最终程序运行的效果和预期不一致。

阅读更多

随着系统数据量的不断增长, 访问量的不断提升, 系统的响应通常会越来越慢, 又或是编写的新的应用在性能上无法满足需求, 这个时候需要对系统的性能进行调优, 调优过程是构建高性能应用的必备过程, 也是一个相当复杂的过程, 而且涉及到了很多的方面, 硬件、操作系统、 运行环境软件以及应用本身, 要实现调优, 首先需要做的是找到性能低的根本原因, 然后才是针对性的进行调优, 本章节就来介绍下寻找性能瓶颈以及调优的一些技术上的方法。

阅读更多

Java 程序运行在 JVM 之上, JVM 的运行状况对于 Java 程序而言会产生很大的影响, 因此掌握 JVM 中的关键机制对于编写稳定、 高性能的 JAVA 程序至关重要。
JVM 制定了 Java 类的加载、 编译、 执行、 对象内存的分配和回收、 线程以及锁机制,这些机制对 Java 程序的运行效果起到了重要的影响, 当然, JVM 涉及的不仅仅是上面这些机制, 但在本章节中并不打算介绍所有 JVM 的机制, 而是仅仅深入介绍其中的一些关键机制。

阅读更多

当应用从集中式步入分布式, 随着系统功能的越来越丰富, 应用就逐步从一个由 10 个系统以下构成的应用逐步发展为 100 个, 甚至 1000 个系统构成的应用, 随着系统越来越多,如何管理和运维好一个如此庞大的系统就将成为一个大问题, 这其中包括了开发、 调试、 测试、 部署、 升级等众多的过程, 同时, 高可用性以及高性能也会一直伴随着这个发展过程,随着系统的越来越多, 数据的不断增加, 访问量的不断攀升, 要做到高可用性以及高性能的难度也会不断的提升, 最能体现这样发展过程的无疑是互联网网站, 多数成功的互联网网站都经历着如上的发展过程。

阅读更多

我们平时总是将混为一谈,殊不知它俩并不是一个概念。下面我来为大家揭晓我所知道的一些真相。

首先,它俩根本不是一个概念。

  三层架构是一个分层式的软件体系架构设计,它可适用于任何一个项目。

  MVC是一个设计模式,它是根据项目的具体需求来决定是否适用于该项目。

  那么架构跟设计模式有什么区别呢?

阅读更多

后缀数组是处理字符串的有力工具。后缀数组是后缀树的一个非常精巧的替代品,它比后缀树容易编程实现,能够实现后缀树的很多功能而时间复杂度也并不逊色,而且它比后缀树所占用的内存空间小很多。可以说,在信息学竞赛中后缀数组比后缀树要更为实用。本文分两部分。第一部分介绍两种构造后缀数组的方法,重点介绍如何用简洁高效的代码实现,并对两种算法进行了比较。第二部分介绍后缀数组在各种类型题目中的具体应用。

阅读更多

很多初学者在进行OpenStack Havana 安装过程中进行设置Cinder时,进行重启服务

service iscsitarget start
service open-iscsi start

经常出现 “modules iscsi_trgt not found”这样的错误,很多情况下是因为 /lib/modules/3.1.0-32-generic/kernel/iscsi文件中缺少iscsi_trgt.ko文件。所以接下来要通过以下办法来解决这个错误。

阅读更多