浙江大学数学系张振跃教授与美国佐治亚理工大学查宏远教授在非线性流形学习研究领域的合作研究,近期获得了新的实质性进展。流形学习或非线性降维是一个在机器学习和统计领域中受到极大关注的国际热点研究课题。近十年来研究人员已经提出了不少实用的数值算法,并成功地应用于计算机视觉,语音分析、基因分析和分子动力系统分析等等数据分析与应用领域的研究。相应地,也有一些文献指出了这些算法有可能会产生一些不理想的甚至灾难性的结果。尽管人们可以感知影响算法有效性的一些表面因素,如数据误差与分布等,但背后隐藏的导致灾难性结果的根本原因并不清楚。很少有文献触及这些流形学习方法背后更深层次的关键问题。这些深层次的问题已经成为流形学习研究中的瓶颈。在今年第三期(V.51,N.3, 2009)的美国工业与应用数学学会(SIAM)的旗舰性刊物SIAM Review上,数学系张振跃教授与美国佐治亚理工大学查宏远教授报告了他们在非线性流形学习算法研究上取得的最新进展。他们以自己提出的LTSA算法为蓝本,全面地详细分析并解决了决定流形学习方法的三个关键性问题:
(1)没有任何计算误差和数据误差的理想条件下,流形学习方法的可靠性问题;
(2)流形学习方法关于误差的稳定性问题;
(3)稳定性因素对于数据的依赖性问题,及其估计和改善。
他们借助于数值代数和图论等多种研究手段,揭示了理想情形下确保算法可靠的充分条件和必要条件、在实用情形下相对于理想问题的误差来源、扩大因素和对最终结果的影响力,以及数据邻域对这些影响力的直接关系。这些研究成果对于更深入地理解现有算法,进而探索更有效的新方法,有积极的指导与推动作用。
(理学部陈平 供稿)