上周AI热点回顾:AI“模拟”出暗物质、AI挖掘毕加索秘密、CPU在大型神经网络超越V100 GPU…




 

01 全球首个AI宇宙模拟器跑出了暗物质

 

Space Engine是一款宇宙模拟游戏,它包含数千个真实的天体,包括来自HIP目录的恒星,来自NGC和IC目录的星系,几个知名的星云,以及所有已知的系外行星和它们的恒星。它采用星表与程序化生成创造一个边长为10Gpc的立方体宇宙,同时1:1还原了现实宇宙。

Shirley Ho和她的同事创造了一个深度学习网络来为这项模拟过程加速。Deep Density Displacement Model,或者叫它D^3M,这个神经网络被设计为通过识别数据的共性去“学习”如何操作这些数据。

研究人员将8000个通过传统高速计算机模拟的宇宙模型放入D^3M,等D^3M学习完这些模型的工作原理之后,研究人员就放入一个全新的前所未见的6亿光年宽度的宇宙可视立方体模型。(真正可被观测的宇宙大约是930亿光年宽度)

就像处理前面训练时的8000个数据集一样,面对这个全新的宇宙仿真模型,D^3M神经网络依旧游刃有余。这个模型也能为对宇宙起源感兴趣的科学家省下时间。新的神经网络可以在30毫秒内完成模拟,而对于那些没有AI加持的模拟器,最快也需要几分钟。同时,它也将错误率从9.3%降到2.8%。(这些错误率是相对于黄金标准精度而言的,一个模型需要花好几百个小时去做一次模拟)

这项模拟关注的是重力在宇宙形成时所起到的作用,然而令人惊喜的是,当研究人员调到一些前所未见的参数——比如,可视宇宙中的暗物质数量——D^3M也能够进行模拟。这让研究者们目瞪口呆,因为他们从来没有对这个模型录入过任何暗物质相关的变量。

而这也表明,深度学习将来或许可以替代传统的数值模拟宇宙学。

信息来源:livescience

 

02 AI挖掘出毕加索蓝色时期隐藏的秘密

 

毕加索的画像中隐藏了多少秘密,普通人或许难以察觉,但依靠先进的技术,可以让我们拨开迷云重见真相,这其中 AI 也在发挥更大的作用。

在毕加索早期的「蓝色时期」里,多幅经典作品都存在这样的问题。为了揭露绘画背后的真相,人们尝试了多种不同的方法。而前段时间的一项研究,就是借用了 AI 模型,将隐藏的画像从原画中「剥离」了出来。

这项工作里,伦敦大学的研究者,结合了神经风格迁移技术(NST)和 X 射线摄像技术,将隐藏艺术品的 X 光片,覆盖上该时期作家的风格,以此还原出它们本来的面目。

其中关键技术 NST(Neural style transfer),是一种用于处理数字图像和视频的算法,目的是让模型输出的结果,采用参考图像的视觉样式。模型在经过训练之后,能够识别各种风格画中的特点,将其用于艺术作品中,无论是达芬奇、梵高,还是毕加索,AI 都能掌握其精髓,就是对其他照片,像加滤镜一样加上特定风格。

图像风格迁移示意图

将实拍图片生成梵高特色的作品

在重塑《老吉他手》隐藏绘画的过程中,先对模型提供「风格参考」的图像,让它学会毕加索同时期的风格,然后将画作中隐藏作品的 X 光片,经过处理后进行风格迁移。具体而言,研究小组先在《老吉他手》中,勾勒出淡淡的女性的 X 射线轮廓,手动编辑掉不太可能出现在原始绘画中的特征。然后,将毕加索的同时期画作《La Vie》作为风格参考,完成了隐藏画作的上色过程。于是,就得到被毕加索掩盖起来的女子画像。

最终得到的结果

左边分别为原图,X 光片,重建稿,参考图

我们都不知道毕加索隐藏作品背后的想法,但 AI 则给了我们一种最有可能的解释。

信息来源:HyperAI超神经

 

03 20万玩家在科研抗疫游戏中拯救世界

 

华盛顿大学的科学家们,准备发动群众、依靠群众,用人民汪洋大海一样的智慧群智群力,构建了这款名为Foldit的益智免费游戏。参与参加可以构建一种蛋白质,来阻止新冠病毒攻击人类细胞。而且游戏是在线的,结束后如果产生了有希望抗击病毒的结果,那么华盛顿大学蛋白质设计的科学家们,就会拿这些结果去做测试,甚至是制造蛋白质!

Nature杂志在2010年还点名表扬过这款游戏,因为参与其中的5.7万名玩家为科学家们提供了有益的结果,这些结果甚至比某些计算机算法还要好。目前,怀抱拯救世界之心的20万游戏玩家,已经在争分夺秒贡献力量。

现在研究人员已经确定,新型冠状病毒和SARS病毒都是通过刺突蛋白(S蛋白)与人体ACE2受体结合。如果我们可以设计与这种冠状病毒刺突蛋白结合的蛋白,就可以用来阻止与人体细胞的相互作用并阻止感染。所以Foldit最近增加了一个新的关卡,把科学家最新研究成果的实物加入到游戏中。

根据Foldit的描述,当冠状病毒表面上那些尖尖的东西(刺突蛋白),和人类细胞表面的受体蛋白紧密结合时,病毒就会造成感染。而最近几周的研究,已经确定了新冠病毒刺突蛋白的结构,以及它是如何与人类受体结合。

目前,游戏已经吸引了20万用户,其中名为Go Science团队,在团体或个人的排名方面都比较突出。玩家设计出的结构可以提交到社群内,供其他玩家甚至是科学家参考。简直就是死宅们梦想的游戏拯救世界。

信息来源:量子位

 

04 百度飞桨携手北京地铁落地AI口罩检测方案

 

近日,为助力北京地铁做好地铁站内的防疫工作,百度与北京地铁针对北京地铁疫情情况,合作开展了AI口罩检测测试。该方案可在地铁站实时视频流中,准确地对未戴口罩以及错误佩戴口罩的情况进行识别和检测,辅助一线地铁工作人员进行防疫工作。

在接到北京地铁 AI 口罩检测的需求后,专项项目组在3天内完成第一版快速部署,7天内进行了两次模型升级、三次现场部署调试、多次策略优化,最终部署上线,实现了在地铁站实时视频流中,准确地对未戴口罩以及错误佩戴口罩的情况进行检测。

      

百度研发工程师介绍,北京地铁 AI 口罩检测方案充分考虑实际情况,完全复用现有网络视频硬件设备,不修改地铁已有方案部署。首先通过站厅内摄像头进行UDP多播+H264协议为主的实时视频流抓取和分析,若出现未佩戴口罩情况,自动用红框将人脸标出,并保存历史检测记录。而对于如露出鼻子等佩戴不规范情况,模型也将进行识别提示。

方案底层依赖Paddle Inference预测引擎,采用TRT子图功能加速,兼容Windows/Linux多平台,保证了高效,便捷的在多站台部署。同时相关模型在PaddleHub 上也开源了口罩检测的轻量化部署方案,用户只需稍加改动即可部署到移动端。

基于PaddleHub的项目方案:

https://github.com/PaddlePaddle/PaddleHub/tree/release/v1.5/demo/mask_detection

信息来源:飞桨PaddlePaddle

 

05 DeepMind祭出预测新冠病毒“蛋白质折叠”重磅武器:AlphaFold!

 

谷歌母公司Alphabet旗下的明星AI公司DeepMind以打败人类享誉世界,凭借AlphaGo击败人类围棋世界冠军,凭借AlphaStar击败99.8%的人类玩家。而这一次,DeepMind要帮助人类击败新冠病毒。

要想检测病毒并开发疫苗,科学家必须首先了解病毒,特别是病毒蛋白质的结构。这是一个漫长的过程,需要几个月的时间,并且有时候是徒劳的。预测出新冠病毒的蛋白质结构至关重要,可以使科学家能够通过模拟和模型获得更多关于蛋白质形状及其运作方式的知识,也给新药物的开发开辟了新的潜力,降低了实验成本,并极大的加快科学家找出更有效治疗方法的流程,最终得以拯救全世界患者。近年来,研究人员已经转向计算机预测。

而此次DeepMind用来预测新冠病毒蛋白质结构的重磅武器,就是其在2018年底推出的、被各路媒体热捧的AlphaFold。

DeepMind汇集了来自结构生物学、物理学和机器学习领域的专家,以应用尖端技术,仅根据其基因序列预测蛋白质的3D结构。

AlphaFold从头开始对蛋白质的形态结构进行建模,而没有使用已经解析的蛋白质作为模板。结果在预测蛋白质结构的物理性质时达到高准确度,在此基础上使用两种不同的方法,来构建完整蛋白质结构的预测。

这两种方法都依赖于深度神经网络,可以从蛋白质的基因序列中预测其特性。该网络预测指标主要有两个:1)氨基酸对之间的距离(2)连接这些氨基酸的化学键之间的角度该技术用于估计氨基酸对之间是否彼此接近。

和之前GPT-2捂着不发布形成鲜明对比,由于当前疫情的急迫性,DeepMind等不及通过同行评审,第一时间就发布了蛋白质结构的预测结果,并以pdb文件存放,研究者下载后可自行利用pdb文件中的数据绘制图像。
 

信息来源新智元

 

06 钟南山等人用 LSTM 力证“早发现早隔离”重要性

 

2020 年 2 月 28 日,钟南山院士等人在医学期刊 JTD 发表了一篇名为《公共卫生干预下 COVID-19 流行趋势的 SEIR 和 AI 预测修正》(Modified SEIR and AI prediction of the epidemics trend of COVID-19 in China under public health interventions)的论文。

根据论文,研究团队将 2020 年 1 月 23 日前后的人口迁移数据及最新的新冠肺炎流行病学数据整合到 SEIR 模型中导出流行曲线。值得一提的是,团队还利用 AI ,以 2003 年 SARS 数据为基础进行训练,从而更好地预测新冠疫情。

值得一提的是,研究团队使用 LSTM(长短期记忆)模型——一种用于处理、预测各种时间序列问题的循环神经网络(RNN),预测新增感染数随时间的变化。

对于基本训练数据集,研究团队使用了 2003 年 4-6 月 SARS 的病例统计,同时纳入 COVID-19 流行病学参数,如传染概率 b、传染系数(率)β、潜伏率 σ、退出率 γ 等。此外,由于数据集相对较小,团队开发了更简单的网络结构防止过拟合,并使用 Adam 优化器优化模型并迭代 500次。

根据上述方法,研究团队预测,疫情将在 2 月底达到高峰,并在 4 月底得到基本控制。同时,如果国家实施的干预措施推迟 5 天,中国大陆的疫情规模将增加 3 倍;如果取消湖北检疫站点,将导致湖北省在 3 月中旬出现第二次疫情高峰,同时疫情可能持续至 4 月下旬——这些结果都得到了机器学习预测的证实。

信息来源:雷锋网

 

08 学习超大神经网络,CPU超越V100 GPU?

 

虽然普遍观点认为,GPU 相比 CPU 有更强的算力优势。但在近日,莱斯大学的计算机科学家们公布了新的研究成果,其提出的深度学习框架,在大型工业级的推荐数据集上验证了在没有类似于 GPU 的专业硬件加速条件下,也可以对深度学习进行加速。

研究者指出,尽管已有的研究表明,在算法端对模型进行优化无法显示出如同 V100 GPU 那样强大的性能提升,但是他们提出的 SLIDE 引擎却可以实现。这一模型可以显著地减少训练和推理阶段的运算,比在 GPU 上 经过 TensorFlow 高度优化过的算法还要快。

例如,在工业级的推荐数据集上测试 SLIDE 时,Tesla V100 GPU 上的训练时间是 Intel Xeon E5-2699A 2.4GHZ 的 3.5 倍。而在同样的 CPU 硬件条件下,SLIDE 比 TensorFlow 快了 10 倍。

我们可以先看张实验图,在 Amazon-670K 这样的复杂分类数据集上,超一亿参数量的大型神经网络训练时间竟然是 SLIDE + CPU 最快,连 TensorFlow + Tesla V100 都要慢很多。而且从迭代步数上看,它们两者是等价的,表明模型的收敛行为是相同的。

对于论文和结果的复现,研究者已提供了相应的代码。

  • 论文链接:

    https://www.cs.rice.edu/~as143/Papers/SLIDE_MLSys.pdf

  • 开源地址:

    https://github.com/keroro824/HashingDeepLearning

信息来源:机器之心

 

07 本周论文推荐

 

Graph Few-shot Learning via Knowledge Transfer(通过知识迁移的图小样本学习),AAAI2020

作者:Huaxiu Yao, Chuxu Zhang, Ying Wei, Meng Jiang, Suhang Wang, Junzhou Huang, Nitesh V. Chawla, Zhenhui Li

论文介绍:对于具有挑战性的半监督节点分类问题,已有广泛的研究。图神经网络(GNNs)作为一个前沿领域,近年来引起了人们极大的兴趣。然而,大多数gnn具有较浅的层,接收域有限,并且可能无法获得令人满意的性能,特别是在标记节点数量很少的情况下。为了解决这一问题,我们创新性地提出了一种基于辅助图的先验知识的图小样本学习(GFL)算法,以提高目标图的分类精度。具体来说,辅助图与目标之间共享一个可转移的度量空间,该空间以节点嵌入和特定于图的原型嵌入函数为特征,便于结构知识的传递。对四个真实世界图形数据集的大量实验和消融研究证明了我们提出的模型的有效性

论文地址

https://arxiv.org/abs/1910.03053

发布了463 篇原创文章 ·
获赞 59 ·
访问量 17万+