2017 年 12 月 22 日至 12 月 24 日,由 SKA 中国科学数据处理联盟于复旦国际学术交流中心主办了 “第二届中国 SKA 科学数据处理学术年会”,该学术年会由复旦大学计算机科学技术学院和上海市数据科学重点实验室承办,北京比特大陆科技有限公司、浪潮集团、上海冠乐商务咨询有限公司和复旦国际学术交流中心协办。在中国 SKA 办公室和中国科学技术部国家遥感中心支持下,会议邀请到了中国科学院国家天文台郝晋新副台长、彭勃、秦波、李菂、崔辰州等研究员,山东省超算中心主任、中科院计算技术研究所张云泉研究员,“神威” 系列超级计算机应用系统负责人兼国家超级计算无锡中心总工程师刘鑫,北京比特大陆副总裁于明扬博士、复旦大学计算机科学技术学院副院长赵一鸣,天文、大数据、超算、高性能计算和人工智能等领域 96 专家学者以及科技部遥感中心 SKA 办公室吕唯佳主管,围绕 “大数据·天文数据处理·高性能计算·人工智能” 主题进行研讨。
大会指导委员会由郝晋新研究员(SKA 中国专家委员会副组长、中国科学院国家天文台副台长)、彭勃研究员(SKA 中方科学董事)、王晓阳教授(复旦大学计算机科学技术学院院长)、斯雪明教授(中国 SDP 联盟执行委员会主任、SKA 中国专家委员会委员、上海市数据科学重点实验室副主任)、骆源教授(中国 SDP 联盟总体组组长、上海交通大学计算机科学与工程系副系主任)、朱扬勇教授(上海市数据科学重点实验室主任)、祝永新研究员(中国 SDP 联盟首席架构师、中国科学院上海高等研究院感知与计算实验室副主任)等组成,大会主席斯雪明教授担任,中国 SDP 联盟首席数据科学家、复旦大学计算机科学技术学院池明旻副教授以及祝永新研究员共同担任程序委员会主席,中国 SDP 联盟总体组副组长、复旦大学计算机科学技术学院汪卫教授,北京比特大陆公司于明扬副总裁,中国 SDP 联盟总体组副组长、浪潮集团人工智能和高性能产品部研发经理吴韶华博士共同担任组委会主席。大会得到了比特大陆和浪潮集团的赞助。
首先,由斯雪明教授主持开幕式,他介绍了中方 SDP 联盟发展的历程,虽然目前 SDP 面临着科学技术和组织管理的双重挑战,希望通过本次年会的召开,加强天文、大数据、高性能计算、人工智能等交叉领域的深入沟通,联合多方力量在各联盟成员的共同努力下,希望明年有更大的收获,为 SKA 工作做出重大的贡献。
SKA 中国科数据处理联盟执行委员会主任、SKA 中国专家委员会委员、上海市数据科学重点实验室副主任斯雪明教授致开幕词
接着,复旦大学计算机科学技术学院副院长赵一鸣教授致欢迎词。他提到,SKA 是国际大科学工程,对应的科学数据处理也是当前的大热点,紧扣人工智能和高性能计算,环绕天文数据处理,需要各家单位协同研究,共同发展。复旦大学在大数据和人工智能等方面有很好的积淀,已成立了上海市数据科学重点实验室,设立了数据科学、数据工程、人工智能等相关学科方向。本次大会吸引了近百名的来自于天文、人工智能、高性能计算和大数据等交叉领域的学者和公司领导员工参与,希望通过本次大会,大家能够互相交流,互相促进,最后预祝大会圆满成功。
复旦大学计算机科学技术学院副院长赵一鸣教授致欢迎词
郝晋新副台长代表中国 SKA 专家委员会致大会议欢迎词,他提到,SKA 是现代人类探索宇宙的最宏大的构想之一,SKA 数据不仅是天文领域的数据,也属于全社会的。天文学在当代社会生活中的重要性也体现在我们国家的最重要的政治报告——中共十九大报告中,“天眼” 和 “悟空” 被作为我国重大科技创新被写入报告。这说明天文学受到全社会的广泛关注。SKA 是一个国际合作的重大装置建设项目,建设周期长,是几代人的事情,SKA 第一阶段的建设还需要三四年才开始,我们的科学数据处理,十年之后才可看到结果,对 SDP 联盟的可持续发展是一个考验但也是一个重大机遇,联合天文学者加深理解天文用户需求有更多的时间研发出自己的产品。科学数据处理工作包有别于天线包的模式,该工作包由电科集团一家承担,但 SDP 工作包由国内多家单位联合组成,科学大数据的处理是涉及很广泛的学术领域,其人力资源远远多于天文领域,必将在 SKA 科学数据处理方面发挥自己的优势。他还指出虽然中方 SDP 联盟的出发点是 SKA SDP,但将发挥远远高于 SDP 的价值。如南非要建自己的超算和数据中心,且不论是否和 SDP 有直接关系,但中方 SDP 联盟可通过参与 SKA 建设,可以在相关国际事务中展现中国制造和高性能计算的实力。从 2013 年中方 SDP 联盟组建至今,逐渐对天文用户需求有了深入的理解,如天线包走过的历程,郝台充满信心地表示相信中方 SDP 联盟终将在国际 SKA 的工作中发挥核心作用。最后郝台建议,中方 SDP 联盟应提出自己的系统解决方案,不要受制于当前国际 SDP 联盟分发的零散工作;鉴于 SDP 工作包的特殊性,在 SKA 综合论证中,可将 SDP 的工作设想直接提交给中国 SKA 办公室。
SKA 中国专家委员会副组长、中国科学院国家天文台副台长郝晋新研究员致辞
SKA 中方科学董事、中国科学院国家天文台彭勃研究员,回忆了 SKA 发展的艰难历程,见证了中方 SDP 联盟的成长过程,在今年的 SKA 科学数据处理学术年会,不仅看到了联盟的老朋友,还看到了一些新面孔,很高兴看到 SDP 队伍在不断壮大。希望大家聚集在一起做一件 SKA 大事,集中大家的智慧,共同担当,在 SKA 中留下我们里程碑式的贡献。
SKA 中方科学董事、中国科学院国家天文台彭勃研究员致辞
开幕式结束后,大会进入特邀报告专题环节,由池明旻副教授和祝永新研究员主持特邀报告。报告人包括李菂研究员(中国科学院国家天⽂台射电天⽂研究部首席科学家、千⼈计划国家级专家、国家⼤科学⼯程-500 米⼝径球面射电望远镜 (FAST)项目副经理、副总⼯程师)、崔辰州研究员(中国科学院国家天文台信息与计算中心主任、中国虚拟天文台项目负责人、国家天文台-阿里云天文大数据联合研究中心主任、国际天文学联合会数据驱动的天文科普教育工作组主席)、骆源教授(SKA 中国科数据处理联盟总体组组长、SKA 中国专家委员会委员、上海交通大学计算机科学与工程系副系主任)和张云泉研究员(山东省超算中心主任、中国计算机学会常务理事/高性能计算专业委员会秘书长、中国计算机学会大数据专家委员会副秘书长、中国科学院计算技术研究所研究员),刘鑫总工程师(“神威” 系列超级计算机应用系统负责人、国家超级计算无锡中心总工程师国家并行计算机工程技术研究中心)和于明扬博士(北京比特大陆科技公司副总裁)。
大会现场
中国科学院国家天⽂台射电天⽂研究部首席科学家、千⼈计划国家级专家、国家⼤科学⼯程-500 米⼝径球面射电望远镜 (FAST)项目副经理、副总⼯程师李菂研究员首先介绍了 FAST 的计算挑战,每年将新产生 20PB 级的数据量,每个波段每秒将产生 100Mbs 的观测数据(共计 19 波束)。因而,急需人工智能技术和高性能计算技术的引入,提高 FAST 观测数据处理的效率并提高科学产出的准确性。
中国科学院国家天⽂台射电天⽂研究部首席科学家、千⼈计划国家级专家、国家⼤科学⼯程-500 米⼝径球面射电望远镜 (FAST)项目副经理、副总⼯程师李菂研究员做特邀报告
中国科学院国家天文台信息与计算中心主任、中国虚拟天文台项目负责人、国家天文台-阿里云天文大数据联合研究中心主任、国际天文学联合会数据驱动的天文科普教育工作组主席崔辰州研究员提到他作为天文学和计算机的纽带,可以作为双方的传话筒。他在报告中指出天文学家希望获取更多的数据,通过数据融合能产生更多的科研成果。目前,已经整合了一个虚拟天文台平台,通过大量观测设备产生的天文大数据,能更好融合全世界的天文学资源,让全世界的对天文有数据的人参与,但对现有计算带来了巨大挑战。目前他负责的天文云计划,利用云计算技术,构成一个网络化天文学计算和存储平台,为用户打造一个全面的数据资源平台,目前已有近两万的注册用户。同时,国家天文台与阿里云合作,希望将世界各地的天文观测数据在中国的公有云上实现数据的管理存储,并在其云平台上实现大数据分布式计算分析。
中国科学院国家天文台信息与计算中心主任、中国虚拟天文台项目负责人、国家天文台-阿里云天文大数据联合研究中心主任、国际天文学联合会数据驱动的天文科普教育工作组主席崔辰州研究员做特邀报告
骆源教授代表 SKA 中国科学数据处理联盟,介绍了联盟组成情况以及 2017 年参加国际 SKA 和国际 SDP 联合体的活动,以及目前中方联盟承担的任务介绍,包括基于 FPGA、MIC 和 GPU 的 SKA 关键算法加速,基于 COTS(商用平台)的 SKA 大数据执行框架研发,基于大数据处理平台的智能脉冲星搜索系统等工作,并将在下一阶段在太湖之光上实现 SKA 科学数据处理验证平台。
SKA 中国科数据处理联盟总体组组长、SKA 中国专家委员会委员、上海交通大学计算机科学与工程系副系主任骆源教授做联盟工作进展报告
张云泉研究员介绍了中国高性能计算的发展趋势,2017 中国 HPC TOP100 的榜单,神威太湖之光在世界超级计算机冠军宝座的四连冠,天河二号保持第二位置。中国以 167 台的超算数量超过美国的 165 台。接着介绍了济南超算中心的各项应用情况,包括海洋环境,生物医药,航空航天,军工,政务民生等领域。同时,预测峰值 1000TPflops 的机器将在 2018 年出现。
山东省超算中心主任、中国计算机学会常务理事/高性能计算专业委员会秘书长、中国计算机学会大数据专家委员会副秘书长、中国科学院计算技术研究所研究员张云泉做特邀报告
刘鑫总工程师介绍了 “神威·太湖之光” 系统半机以上超大规模并行应用的算法特点、体系结构适应性、计算复杂度、访存复杂度和通信复杂度的大规模实验分析结果,并基于以上分析提出 E 级复杂应用对未来 E 级计算机系统的设计需求。
“神威” 系列超级计算机应用系统负责人、国家超级计算无锡中心总工程师、国家并行计算机工程技术研究中心刘鑫做特邀报告
于明扬副总裁介绍了比特大陆多年积累的 ASIC 和高性能计算的设计经验,以及基于此设计出来的 TPU 处理器 BM1680,该处理器内置了 CNN/DNN 等深度学习加速算法,同时也支持浮点科学计算与 FFT 等,可将其拓展到科学计算,为 SKA 科学数据处理提供了一个定制的系统解决方案。
北京比特大陆科技公司副总裁于明扬做特邀报告
之后,中国 SKA 科学数据联盟的成员针对各自的研发进展进行专题报告。首先,首先,祝永新研究员,提出基于 SPARK 大数据平台和异构加速部件的多节点可扩展异构加速平台设计,解决通用处理器计算平台应对 SKA 科学数据的效能不足的困难。通过 FPGA、MIC、GPU 等异构加速部件的验证,说明了 SPARK 大数据平台和异构加速部件融合的可行性。同时,针对 SKA 科学数据处理预算有限的前提下,提出了针对不同任务到来场景的综合调度策略;同时,也介绍了面向 E 级计算场景下的扩展原型设计条件,通过不同任务规模的仿真实验验证了调度策略的可行性与有效性。
SKA 中国科数据处理联盟首席架构师、中国科学院上海高等研究院感知与计算实验室副主任祝永新研究员做专题报告
池明旻副教授,先介绍了成功应用于图像识别、战胜人类的围棋冠军 AlphaGo、AlphaGo Zero 的人工智能算法,进而剖析了借助高性能计算和大数据计算平台在海量的 NASA 开普勒望远镜数据上找到了 “第二个太阳系” 的人工智能算法。接着,介绍了她团队在 SKA 中的工作,基于人工智能算法和高性能计算在大数据平台上设计实现了脉冲星的自动检测系统。该工作的科学目标是 SKA 的主要科学目标之一,也是中方 SKA 定义的 2+1 科学任务之一。该系统的部分功能已经在神威·太湖之光上得到验证。
SKA 中国科数据处理联盟首席数据科学家、复旦大学计算科学技术学院池明旻副教授做专题报告
SKA 中国科数据处理联盟总体组副组长、中国科学院国家天文台陈学雷研究员,介绍了和 SKA 类似的天籁阵列,目前已经进行各种巡天实验,采集了大量的数据。分析和处理了干扰数据,研究了干扰来源,进行了减除干扰硬件升级,对系统效应进行了各种分析,全面深入理解仪器的各种响应,最后对数据管线特别是校准方案进行深入的研究,完成了全天区较高质量的天图。
SKA 中国科数据处理联盟总体组副组长、中国科学院国家天文台陈学雷研究员做专题报告
中国科学院上海天文台的郭泉研究员代替 SKA 中国科学数据处理联盟总体组副组长、中国科学院上海天文台安涛研究员介绍了中国 SKA 区域中心的准备和进展情况。
中国科学院上海天文台的郭泉研究员做专题报告
SKA 中国科数据处理联盟总体组副组长、广州大学王锋教授介绍了科学数据处理的执行框架,他介绍了澳大利亚西澳大学 ICRAR 主导研发的 Daliuge 框架及其最新进展,以及该团队将 SageCAL 等传统 MPI 天文数据处理软件移植到 DALIUGE 下的工作进展。
SKA 中国科数据处理联盟总体组副组长、广州大学王锋教授做专题报告
SKA 中国科数据处理联盟总体组副组长、中国科学院计算技术研究所尤海航研究员,介绍了 SKA 成像管线中的算法参考库 ARL,指出其性能不佳的原因,将 ARL 中核心和耗时的算法,如预测、反转、清洁中用到的多个算法,整体迁移到 C++平台并使用 BLAS 库做优化以提高性能,而对上层的算法调用维持透明方便天文用户使用。同时,使用该团队开发的共享内存环境下的自动并行框架提高 ARL 的动态调度和任务处理,并开发出混合模式大数据平台实现分布式环境下多个成像任务的高效调度和计算,实现大规模高效的 ARL 算法成像任务处理。
SKA 中国科数据处理联盟总体组副组长、中国科学院计算技术研究所尤海航研究员做专题报告
中国科学院计算技术研究所贾海鹏博士介绍了基于 GPU 平台上的自适应 FFT 框架原型,并在 CPU+GPU 集群上利用 2D 网格分解来进行 3D FFT 的算法。
中国科学院计算技术研究所贾海鹏博士做专题报告
SKA 中国科数据处理联盟总体组副组长、浪潮集团人工智能和高性能产品部研发经理吴韶华博士首先介绍了浪潮 AI & HPC 应用研发团队深入分析的 Gridding、deGridding、deConvolution 三种算法(在 SKA 科学数据处理中约占一半以上的计算量),并基于 MIC 平台开展了卓有成效的软件优化工作。同时,宣布了浪潮的 32 个节点的 KNM 集群,计算能力达到 0.4PFlops,可免费开放给 SKA 中国科学数据处理联盟。
SKA 中国科数据处理联盟总体组副组长、浪潮集团人工智能和高性能产品部研发经理吴韶华博士做专题报告
解放军信息工程大学赵亚群教授,介绍了该团队对 SKA 的算法参考库 ARL 的进行了优化以提高性能,验证了基于 GPU 的并行 FFT 算法加速和基于 CUDA 实现的 gridding 与 degridding 算法上性能的大幅提高。
解放军信息工程大学赵亚群教授做专题报告
SKA 中国科数据处理联盟总体组副组长、复旦大学计算机科学计算学院副院长汪卫教授,介绍了就SKA 科学数据处理的分布式执行框架最近一年与英国剑桥大学天体物理中心合作研究的工作进展,共同开展对 SKA 可见度数据进行成像和校准等关键科学处理管线的分布式执行框架的方案设计与原型系统验证。通过分析 SKA 科学数据处理的关键处理管线,获得了 SKA 科学数据处理所需的执行框架需要满足的基本要素。并基于 Spark、Hadoop 等主流分布式执行框架结合 SKA 成像管线与校准管线,设计了满足 SKA SDP 数据处理的 SKA-Spark。对 SKA 数据处理管线在 SKA-Spark 上的处理进行了建模和预测,并给出了在 1500 台计算节点上 MID1 ICAL 管线基于 SKA-Spark 的执行方案。
上海交通大学高晓沨副教授,介绍了 SKA SDP 传输与存储监控的研究进展,在网络连通性检测技术、中频 SDP 管线模型资源配置技术、大规模并行化核心算法库(ARL)的相关技术上和复旦大学展开合作。
最后,斯雪明教授主持了会议闭幕式,郝晋新副台长再次肯定了中国 SDP 联盟的工作,可基于中国 SDP 联盟的大数据、人工智能和高性能计算优势先与南非建立合作,并鼓励联盟推出中国 SDP 的系统解决方案。中国科学院国家天文台秦波研究员再次和大家确认了 SKA 建设的进度以及对外合作过程中对方可能设置的一些障碍。李菂研究员表示在脉冲星搜索方面欢迎 SKA 中国科学数据处理联盟的合作。
通过两天多的热烈讨论,加强了天文、大数据、高性能计算、人工智能等交叉领域的深入沟通,联合多方力量在中国 SDP 各联盟成员的共同努力下,希望明年有更大的收获,为 SKA 工作做出重大的贡献。
大会合影
大会讨论热烈,圆满结束