来自Pydata伦敦的有趣谈判2017年
今年的PyData伦敦会议在5月6日和5月7日的彭博会的办事处举行,5月5日的教程。就像这种情况一样Pydata Amsterdam 2017.,我在会议上观看所有会议的时间,并写一个关于我发现最有趣的博客文章。
所以,让我们开始。正如我是随机森林的巨大粉丝,并认为他们几乎是数据科学101,我彻底享受了谈话内森爱泼斯坦来自会议主持人彭博。他对算法如何运作非常直观地介绍,并对其与神经网络的优势有关 - 在每个人都在深度学习和“AI”的时候非常有用。
伊恩ozsvald,伟大的作者“高性能python”, 和...一起Guzstav Belteki.和Giles Weaver.,使用从新生儿病房中使用的呼吸机收集的数据,提出了一段针对NHS的研究。他们提到了使用汤姆阿古申尔工人s伯纳德用于数据的包裹检查(我们应该在自动数据清洁脚本IMHO中使用的东西)。他们还提到使用散景用于其时间序列数据的可视化和手动注释,以及用于建模的上述随机林算法。:)
Rebecca Bilbro.从Bytecubed,在乔治城大学ML的讲师,以及作者“使用Python应用文本分析”谈到了一个叫做有趣的项目黄砖用于可视化模型诊断。她还提供了很好的概述了许多可用的诊断技术。该项目正在积极寻找贡献者,所以可能是沉入牙齿进入的好选择。
在他的主题演讲中,基因Kogan.,作者“艺术家的机器学习”给出了一堆使用CNN和GAN进行图像识别,样式传输,图像和声音生成,自动标题的示例,也给出了实时视频风格转移的演示!这是一个非常有趣的谈话,我笑了很少几次。:)(顺便提一下,他最近也教过3天的研讨会谐振在我的家乡贝尔格莱德的节日。)
我发现来自营销和社会研究背景艾琳尼尔森谈论民意调查真的很有趣。她涵盖了使用的不同采样方案,后处理方法,以及从各种民意调查中聚合数据的方法。她还讨论了她认为关于美国选举的预测,以及英国欧盟公投的错误。
跟上主题,会moy.和Mevan Babakar.从完全的事实谈到他们组织在检查公共话语中的各种事实时一直在进行工作。他们涵盖了各种形式的虚假新闻和事实扭曲,其中来自英国的充足的例子,并展示了使用Python,Solr和Corenlp建造的系统,以实时进行自动检查。
Nuno Castro.来自Expedia谈到了他们如何使用凯拉斯(覆盖真的很好教程从第一天开始)和VGG-16预先训练的模型在他们的网站上排名酒店图片,以提供更好的用户体验。他们还使用了亚马逊机械土耳其,用于构建他们的数据集,这被证明是非常快速和成本效益的。谈话后的问答也非常有趣,有一些很好的问题。
安德鲁帕特森来自NaturalMotion的一个有趣的介绍,关于他们如何在他们的手机游戏中发现作弊。He mentioned the various methods they’ve seen cheaters use, and a large part of his talk was dedicated to epxplaining the difficulties in establishing a ground truth, with a dictinction between cheaters that explicitly impact revenue and cheaters that implicitly impact revenue, by causing frustration in legitimate players. As the lines between a cheater and really good player can sometimes be really blurry, he presented some interesting methods for detecting outliers.
在一个有趣和吸引力的谈话中,Kathryn Harris.从不在高街上的高街,在学术项目致力于天体物理学家之间,并作为中型技术公司的第一个数据科学家。她谈到了一堆轶事和经验教训,讨论非常生动和教育。
在某种“大数据101”谈话中,拉布拉布里埃尔Urma.和Valentin Dalibard.来自剑桥火花解释了大数据的3 V,批量和流处理之间的差异,以及缩放的困难。他们使用Pyspark和Zeppelin笔记本进行了实时编码会话,并显示了通过旋转Amazon EMR群集来缩小的尺度。
Zack Akil.来自Pivigo在业余时间玩橄榄球,他需要一个录制他的游戏的解决方案,这些游戏比他的朋友制作的摇晃手持视频更好。因此,他使用广角相机,覆盆子PI,Python和单层神经网络建造了一个机器人,几乎完美地跟随并记录了音高上的动作!
关于静态与动态打字的永无止境的辩论,自然,
溢出到数据科学,特别是在写作时
ETL管道,生产模型,以及一般创建数据产品。
Marco Bonzanini.在涉及Python的时候给出了这个话题,他的谈话非常值得一件事。
一个我没有看到或教授的一个主题是软件工程最佳实践对于数据科学家来说,测试是特别重要的。Nick Radcliffe.试图用他的态度弥合这个差距TDDA包裹,他做了一个伟大的教程,使用它。
嗯,这是今年的PyData伦敦会议!希望你喜欢这些,并在后面见到你柏林流行文2017.!!