EN
2022年03月24日研究成果

非数值数据集处理的优化技术与系统

陈文光团队

       Spark系统是业界通用的大数据处理系统,如何改进Spark系统,使其更加高效,是一个重要的研究问题,并对产业具有重大影响。清华大学计算机系教授、智源研究员陈文光团队提出了一种动态与静态结合的任务图,整个分布式运行包括数据混洗等仍然保持原有的动态方式,但将其中的单机核心处理阶段抽象为静态的任务图,从而可以使用非托管语言编写并在编译时优化。同时实现了包括紧凑数据结构,算子合并和向量化等等技术,实现的系统可以比Spark显著节省内存和提高性能。该系统具有替代Spark在业界得到广泛应用的前景。目前已经与华为运营商BG开展了合作,在其内部话单聚合场景进行了试用。初步测试结果表明,与使用Spark相比,可节省服务器使用70%以上。 


chnewen.png

实现的系统比Spark显著节省内存和提高性能(图片来源:学者提供)


分享到: