Monday, May 31, 2010

Roman Mosaic Art, 2nd century AD, NYC Metropolitan Museum

The idea of "Pixel" in image format we are currently using today dates back to 2nd century AD, Rome.

For me, the most impressive piece of art in NYC Metropolitan Museum, is this one:
Mosaic floor panel
Roman, Imperial, 2nd century AD,
Excavated from a villa at Daphne near Antioch, the metropolis of Roman Syria


The root of "science" which is dominant world-widely today, stems from ancient Greek, also know as western culture. As a Chinese, I'd like to think of why the ancient Chinese culture which had dominated the world for centuries faded out in 19th century.

This Roman mosaic panel, ~ 100AD, in some sense, reflects the different thoughts (way of thinking) between eastern and western cultures.

Analytic is the major philosophy of science. Calculus is a good example of it. Analytic power provides a "scalable" way for research that can be inherited by next generation, which is lack in the eastern culture.

In this panel, thousands of tiny mosaics contribute to the holistic view of the "imaginary & continuous" object, which is believed to be a celebrity in that era. This provides a way of breaking down an infinitely impossible problem into some scalable and discrete steps. If the size of the mosaics are small enough, then we could approximate that "imaginary & continuous" object/concept to an acceptable extend.

On the other hand, Chinese culture or art prefer to capturing a holistic view of an object, in some abstract and implicit way ( which is believed to be the ultimately decent way of solving problems), like the wash drawing / paintings, and Chinese medicines. In a world of small scale, this way is good enough to achieve the engineering goal, but as the problem approaching to a larger scale, it is not a preferable way.

For nowadays, science with analytic power seems to be the best way and it dominates. The nice thing I found in the NYC Metro is that, this piece of art in the 100AD has a quick and direct answer.

Friday, May 21, 2010

夜听雨

帘外雨潺潺,春意阑珊

Wednesday, May 19, 2010

Oxford Buildings Dataset

Oxford Buildings Dataset



http://www.robots.ox.ac.uk/~vgg/data/oxbuildings/index.html

Friday, May 14, 2010

Scaling data attributes before using SVM!

2.2 Scaling
Scaling before applying SVM is very important. Part 2 of Sarle's Neural Networks
FAQ Sarle (1997) explains the importance of this and most of considerations also apply
to SVM. The main advantage of scaling is to avoid attributes in greater numeric
ranges dominating those in smaller numeric ranges. Another advantage is to avoid
numerical di culties during the calculation. Because kernel values usually depend on
the inner products of feature vectors, e.g. the linear kernel and the polynomial kernel,
large attribute values might cause numerical problems. We recommend linearly
scaling each attribute to the range [-1; +1] or [0; 1].
Of course we have to use the same method to scale both training and testing
data. For example, suppose that we scaled the rst attribute of training data from
[-10; +10] to [-1; +1]. If the rst attribute of testing data lies in the range [-11; +8],
we must scale the testing data to [-1:1; +0:8]. See Appendix B for some real examples.

Tuesday, May 11, 2010

图 ˙谱˙马尔可夫过程˙聚类结构 (zz)

A little article with insightful comments on graph, graph spectral, Markov process, clustering.

http://dahua.spaces.live.com/

图 ˙谱˙马尔可夫过程˙聚类结构



题目中所说到的四个词语,都是Machine Learning以及相关领域中热门的研究课题。表面看属于不同的topic,实际上则是看待同一个问题的不同角度。不少文章论述了它们之间的一些联系, 让大家看到了这个世界的奇妙。

从图说起

这里面,最简单的一个概念就是“图”(Graph),它用于表示事物之间的相互联系。每个图有一批节点(Node),每个节点表示一个对 象,通过一些边(Edge)把这些点连在一起,表示它们之间的关系。就这么一个简单的概念,它对学术发展的意义可以说是无可估量的。几乎所有领域研究的东 西,都是存在相互联系的,通过图,这些联系都具有了一个统一,灵活,而又强大的数学抽象。因此,很多领域的学者都对图有着深入探讨,而且某个领域关于图的 研究成果,可以被其它领域借鉴。

矩阵表示:让代数进入图的世界

在数学上,一种被普遍使用的表达就是邻接矩阵(Adjacency Matrix)。一个有N个节点的图,可以用一个N x N的矩阵G表示,G(i, j)用一个值表示第i个节点和第j个节点的联系,通常来说这个值越大它们关系越密切,这个值为0表示它们不存在直接联系。这个表达,很直接,但是非常重 要,因为它把数学上两个非常根本的概念联系在一起:“图”(Graph)和“矩阵”(Matrix)。矩阵是代数学中最重要的概念,给了图一个矩阵表达, 就建立了用代数方法研究图的途径。数学家们几十年前开始就看到了这一点,并且开创了数学上一个重要的分支——代数图论(Algebraic Graph Theory)。

代数图论通过图的矩阵表达来研究图。熟悉线性代数的朋友知道,代数中一个很重要的概念叫做“谱”(Spectrum)。一个矩阵的很多特性 和它的谱结构——就是它的特征值和特征向量是密切相关的。因此,当我们获得一个图的矩阵表达之后,就可以通过研究这个矩阵的谱结构来研究图的特性。通常, 我们会分析一个图的邻接矩阵(Adjacency Matrix)或者拉普拉斯矩阵(Laplace Matrix)的谱——这里多说一句,这两种矩阵的谱结构刚好是对称的。

谱:“分而治之”的代数

谱,这个词汇似乎在不少地方出现过,比如我们可能更多听说的频谱,光谱,等等。究竟什么叫“谱”呢?它的概念其实并不神秘,简单地说,谱这 个概念来自“分而治之”的策略。一个复杂的东西不好直接研究,就把它分解成简单的分量。如果我们把一个东西看成是一些分量叠加而成,那么这些分量以及它们 各自所占的比例,就叫这个东西的谱。所谓频谱,就是把一个信号分解成多个频率单一的分量。

矩阵的谱,就是它的特征值和特征向量,普通的线性代数课本会告诉你定义:如果A v = c v,那么c 就是A的特征值,v就叫特征向量。这仅仅是数学家发明的一种数学游戏么?——也许有些人刚学这个的时候,并一定能深入理解这么个公式代表什么。其实,这里 的谱,还是代表了一种分量结构,它为使用“分而治之”策略来研究矩阵的作用打开了一个重要途径。这里我们可以把矩阵理解为一个操作(operator), 它的作用就是把一个向量变成另外一个向量:y = A x。对于某些向量,矩阵对它的作用很简单,A v = cv,相当于就把这个向量v 拉长了c倍。我们把这种和矩阵A能如此密切配合的向量v1, v2, ... 叫做特征向量,这个倍数c1, c2, ...叫特征值。那么来了一个新的向量x 的时候,我们就可以把x 分解为这些向量的组合,x = a1 v1 + a2 v2 + ...,那么A对x的作用就可以分解了:A x = A (a1 v1 + a2 v2 + ...) = a1 c1 v1 + a2 c2 v2 ... 所以,矩阵的谱就是用于分解一个矩阵的作用的。

这里再稍微延伸一点。一个向量可以看成一个关于整数的函数,就是输入i,它返回v( i )。它可以延伸为一个连续函数(一个长度无限不可数的向量,呵呵),相应的矩阵 A 变成一个二元连续函数(面积无限大的矩阵)。这时候矩阵乘法中的求和变成了积分。同样的,A的作用可以理解为把一个连续函数映射为另外一个连续函数,这时 候A不叫矩阵,通常被称为算子。对于算子,上面的谱分析方法同样适用(从有限到无限,在数学上还需要处理一下,不多说了)——这个就是泛函分析中的一个重 要部分——谱论(Spectral Theory)。

马尔可夫过程——从时间的角度理解图

回到“图”这个题目,那么图的谱是干什么的呢?按照上面的理解,似乎是拿来分解一个图的。这里谱的作用还是分治,但是,不是直观的理解为把 图的大卸八块,而是把要把在图上运行的过程分解成简单的过程的叠加。如果一个图上每个节点都有一个值,那么在图上运行的过程就是对这些值进行更新的过程。 一个简单,大家经常使用的过程,就是马尔可夫过程(Markov Process)。

学过随机过程的朋友都了解马尔可夫过程。概念很简单——“将来只由现在决定,和过去无关”。考虑一个图,图上每个点有一个值,会被不断更 新。每个点通过一些边连接到其它一些点上,对于每个点,这些边的值都是正的,和为1。在图上每次更新一个点的值,就是对和它相连接的点的值加权平均。如果 图是联通并且非周期(数学上叫各态历经性, ergodicity),那么这个过程最后会收敛到一个唯一稳定的状态(平衡状态)。

图上的马尔可夫更新过程,对于很多学科有着非常重要的意义。这种数学抽象,可以用在什么地方呢?(1) Google对搜索结果的评估(PageRank)原理上依赖于这个核心过程,(2) 统计中一种广泛运用的采样过程MCMC,其核心就是上述的转移过程,(3) 物理上广泛存在的扩散过程(比如热扩散,流体扩散)和上面的过程有很重要的类比,(4) 网络中的信息的某些归纳与交换过程和上述过程相同 (比如Random Gossiping),还有很多。非常多的实际过程通过某种程度的简化和近似,都可以归结为上述过程。因此,对上面这个核心过程的研究,对于很多现象的理 解有重要的意义。各个领域的科学家从本领域的角度出发研究这个过程,得出了很多实质上一致的结论,并且很多都落在了图的谱结构的这个关键点上。

图和谱在此联姻

根据上面的定义,我们看到邻接矩阵A其实就是这个马尔可夫过程的转移概率矩阵。我们把各个节点的值放在一起可以得到一个向量v,那么我们就 可以获得对这个过程的代数表示, v(t+1) = A v(t)。稳定的时候,v = A v。我们可以看到稳定状态就是A的一个特征向量,特征值就是1。这里谱的概念进来了。我们把A的特征向量都列出来v1, v2, ...,它们有 A vi = ci vi。vi其实就是一种很特殊,但是很简单的状态,对它每进行一轮更新,所有节点的值就变成原来的ci倍。如果0 < ci < 1,那么,相当于所有节点的值呈现指数衰减,直到大家都趋近于0。

一般情况下,我们开始于一个任意一个状态u,它的更新过程就没那么简单了。我们用谱的方法来分析,把u分解成 u = v1 + c2 v2 + c3 v3 + ... (在数学上可以严格证明,对于上述的转移概率矩阵,最大的特征值就是1,这里对应于平衡状态v1,其它的特征状态v2, v3, ..., 对应于特征值1 > c2 > c3 > ... > -1)。那么,我们可以看到,当更新进行了t 步之后,状态变成 u(t) = v1 + c2^t v2 + c3^t v3 + ...,我们看到,除了代表平衡状态的分量保持不变外,其它分量随着t 增长而指数衰减,最后,其它整个趋近于平衡状态。

从上面的分析看到,这个过程的收敛速度,其实是和衰减得最慢的那个非平衡分量是密切相关的,它的衰减速度取决于第二大特征值c2,c2的大 小越接近于1,收敛越慢,越接近于0,收敛越快。这里,我们看到了谱的意义。第一,它帮助把一个图上运行的马尔可夫过程分解为多个简单的字过程的叠加,这 里面包含一个平衡过程和多个指数衰减的非平衡过程。第二,它指出平衡状态是对应于最大特征值1的分量,而收敛速度主要取决于第二大特征值。

我们这里知道了第二大特征值c2对于描述这个过程是个至关重要的量,究竟是越大越好,还是越小越好呢?这要看具体解决的问题。如果你要设计 一个采样过程或者更新过程,那么就要追求一个小的c2,它一方面提高过程的效率,另外一方面,使得图的结构改变的时候,能及时收敛,从而保证过程的稳定。 而对于网络而言,小的c2有利于信息的迅速扩散和传播。

聚类结构——从空间的角度理解图

c2的大小往往取决于图上的聚类结构。如果图上的点分成几组,各自聚成一团,缺乏组与组之间的联系,那么这种结构是很不利于扩散的。在某些 情况下,甚至需要O(exp(N))的时间才能收敛。这也符合我们的直观想象,好比两个大水缸,它们中间的只有一根很细的水管相连,那么就需要好长时间才 能达到平衡。有兴趣的朋友可以就这个水缸问题推导一下,这个水缸系统的第二大特征值和水管流量与水缸的容积的比例直接相关,随比例增大而下降。

对于这个现象进行推广,数学上有一个重要的模型叫导率模型(Conductance)。具体的公式不说了,大体思想是,节点集之间的导通量 和节点集大小的平均比例和第二大特征值之间存在一个单调的上下界关系。导率描述的是图上的节点连接的空间结合,这个模型把第二特征值c2和图的空间聚集结 构联系在一起了。

图上的聚类结构越明显, c2越大;反过来说,c2越大,聚类的结构越明显,(c2 = 1)时,整个图就断裂成非连通的两块或者多块了。从这个意义上说,c2越大,越容易对这个图上的点进行聚类。机器学习中一个重要课题叫做聚类,近十年来, 基于代数图论发展出来的一种新的聚类方法,就是利用了第二大特征值对应的谱结构,这种聚类方法叫做谱聚类(Spectral Clustering)。它在Computer Vision里面对应于一种著名的图像分割方法,叫做Normalized Cut。很多工作在使用这种方法。其实这种方法的成功,取决于c2的大小,也就是说取决于我们如何构造出一个利于聚类的图,另外c2的值本身也可以作为衡 量聚类质量,或者可聚类性的标志。遗憾的是,在paper里面,使用此方法者众,深入探讨此方法的内在特点者少。

归纳起来
图是表达事物关系和传递扩散过程的重要数学抽象
图的矩阵表达提供了使用代数方法研究图的途径
谱,作为一种重要的代数方法,其意义在于对复杂对象和过程进行分解
图上的马尔可夫更新过程是很多实际过程的一个重要抽象
图的谱结构的重要意义在于通过它对马尔可夫更新过程进行分解分析
图的第一特征值对应于马尔可夫过程的平衡状态,第二特征值刻画了这个过程的收敛速度(采样的效率,扩散和传播速度,网络的稳定程度)。
图的第二特征分量与节点的聚类结构密切相关。可以通过谱结构来分析图的聚类结构。

马尔可夫过程代表了一种时间结构,聚类结构代表了一种空间结构,“谱”把它们 联系在一起了,在数学刻画了这种时与空的深刻关系。

Naive Bayes classifier notes

Naive Bayes classifier is a trivial generative model, which assumes conditional independent of all features.

therefore, b4 we construct the NB, we need to do a correlation analysis for whole feature set, and if we identify some high correlated features, we should only pick one of them from that subset.

Otherwise, it'll be a lousy NB classifier.

Tuesday, May 4, 2010

some interesting UCRS research

http://www.cs.ucr.edu/~eamonn/tutorials.html

http://www.cs.ucr.edu/~bcampana/

Saturday, May 1, 2010

SDM 2010 summary

SDM 2010 is in Columbus this year and my first time attending data mining conf. I found out that this conf is quite small and concrete, all accepted 80 papers have enough opportunities to present, because they could present in oral and poster sessions, both.

Here are some good presentations:

1, L1 sparse tutorial by Jieping Ye: provides lots of insightful and uptodated resources, amazing part is about that separable non-smooth penalty from the loss func.

2, Best Paper Award
Fast Single-Pair SimRank Computation, Pei Li, Renmin University of China;
this paper improves the simrank algorithm, but badly presented.


3, Best Student Paper Award
A Compression Based Distance Measure for Texture
Authors: Bilson J. Campana and Eamonn Keogh, University of California, Riverside.

Impressive part is the constant time figure, and the authors make the PPT with lots of cartoon, (but as well as making it a bit childish....)


4, social network and graph ming.
Now it's the era of social network and graph ming.... lots of papers in this topic. Esp. heterogeneous biological network label propagation.