《machine learning with spark》学习笔记--聚类

By XingLiu

发表于 2016-02-14

Next, we will consider the case when we do not have labeled data available.

《machine learning with spark》学习笔记--分类

By XingLiu

发表于 2016-02-13

In this article, you will learn the basics of classification models and how they can be used in a variety of contexts.

《machine learning with spark》学习笔记--推荐模型

By XingLiu

发表于 2016-02-02

In this article, we will use explicit rating data, without additional user or item metadata or other information related to the user-item interactions. Hence, the features that we need as inputs are simply the user IDs, movie IDs, and the ratings assigned to each user and movie pair

大数据可视化Google Chart实现

By XingLiu

发表于 2016-01-04

本程序调用Weka API以及libsvm工具包，对基金数据库进行数据预处理，然后将处理好的数据通过Chart.js 框架来实现数据的可视化，接下来要说明实现流程。

JAVA EE 7 SDK Tutorial 分析

By XingLiu

发表于 2016-01-02

随着Java平台企业版（Java EE），Java企业应用程序的开发从未如此简单或更快。在Java EE 7平台的目的是向开发人员提供了一套强大的API，同时缩短开发时间，降低了应用的复杂性，并提高应用程序的性能。

在Java EE 7平台引入了一个简化的编程模型。随着Java EE 7的技术，XML部署描述符现在是可选的。相反，开发人员可以简单地输入信息作为注释直接到Java源文件，以及Java EE服务器将配置组件在部署和运行。这些注解通常用于，否则将在一个部署描述符中提供一个节目数据嵌入。使用注释，规范信息直接把你的代码下一个程序单元，它的影响。

本文分析了Servlet 3.1、JAX-RS 2.0、JSON Processing 1.0、WebSocket 1.0相关技术的几个示例，以及相关技术下的应用。

一个用Python编写的股票数据（沪深）爬虫和选股策略测试框架

By XingLiu

发表于 2015-12-26

一个股票数据（沪深）爬虫和选股策略测试框架，数据基于雅虎YQL和新浪财经。

eclipse运行spark程序

By XingLiu

发表于 2015-12-23

最近在学spark，尝试在Windows+Eclipse运行程序，现在分享给大家

Java实现高斯模糊算法处理图像

By XingLiu

发表于 2015-12-21

高斯模糊（英语：Gaussian Blur），也叫高斯平滑，是在Adobe Photoshop、GIMP以及Paint.NET等图像处理软件中广泛使用的处理效果，通常用它来减少图像噪声以及降低细节层次。

Hadoop环境共享

By XingLiu

发表于 2015-12-14

最近花了很长时间搭载了Hadoop生态系统环境，其中包含Spark,Hive，HBase等，将环境压缩成一个压缩包，现在分享给大家，亲测可用

TFS(Taobao File System)安装办法

By XingLiu

发表于 2015-12-09

TFS（Taobao File System）是一个高可扩展、高可用、高性能、面向互联网服务的分布式文件系统，主要针对海量的非结构化数据，它构筑在普通的Linux机器集群上，可为外部提供高可靠和高并发的存储访问。TFS为淘宝提供海量小文件存储，通常文件大小不超过1M，满足了淘宝对小文件存储的需求，被广泛地应用在淘宝各项应用中。它采用了HA架构和平滑扩容，保证了整个文件系统的可用性和扩展性。同时扁平化的数据组织结构，可将文件名映射到文件的物理地址，简化了文件的访问流程，一定程度上为TFS提供了良好的读写性能。