中科院计算所福州分所

网站首页 > 分所新闻 > 新闻动态 > 行业动态

【BDTC 2015】互联网大数据分论坛:滴滴、百度、京东等大数据实践

2015-12-23 10:54:52 中科院计算所福州分所 阅读

  2015年12月10-12日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、北京中科天玑科技有限公司与CSDN共同协办,以“数据安全、深度分析、行业应用”为主题的 2015中国大数据技术大会(Big Data Technology Conference 2015,BDTC 2015)在北京新云南皇冠假日酒店盛大开幕。


  12日下午的互联网大数据分论坛,滴滴机器学习研究院研发总监刘威、百度主任架构师、机器翻译技术负责人何中军、京东商城大数据研发部负责人刘彦伟、中国人民大学副教授窦志成、国双技术副总裁黄勇坚、北京拓尔思信息技术股份有限公司副总裁刘瑞宝、微众税银联合创始人兼COO曾源分享了大数据在移动出行、机器翻译、数据平台实现、分析引擎、征信等领域的应用。


滴滴刘威:移动出行的大数据挑战


  滴滴机器学习研究院研发总监刘威分享了题为《移动出行的大数据挑战》的演讲。


  滴滴机器学习研究院的机器学习算法解决的核心问题包括:地图服务,ETA预估,交易引擎,出行导流,智能运力调度,极速拼车等。出行是中国民众每天都要面临的“痛点”。出行领域的现状是:由于公共交通系统不便,人均汽车拥有量较低加上牌照限制,人们对舒适出行的巨大需求难以得到满足,而且我国移动互联网在城市交通出行领域应用不够。所以需要建立全球最大的一站式出行平台,把所有交通工具搬到网上。中国的出行希望能够满足中国人的出行多样化、个性化的出行需求。未来世界的出行将具有以下特点:满足人们多样化、个性化出行的要求;智能城际交通;降低路上行驶车辆的空驶率;传递、践行共享经济。


  机器学习与大数据是出行平台的大脑。滴滴大数据是指定单数据、行使轨迹数据、实时数据、GPS定位数据。滴滴出行通过地图服务进行定位、计算距离和预估时间,通过交易引擎进行订单分配、出行导流。他就两个核心问题分享了具体的思路。第一个问题就是实时交通路况,这是跟地图相关的,实时交通路况监测。路况随时间波动较大,因此预测需要达到分钟精度。即使在高峰时段,也只能观察到部分的实时路况。所以需要通过机器学习来动态的稀疏学习问题。第二个问题,也是跟地图相关业务相关的互联网公司都会遇到的问题——ETA,这是机器学习的最大挑战之一。这个问题难在于空间在变,时间也在变,要用预测空间的分布,预测时间的分布。预测空间分布的挑战是相邻路段的拥堵情况可能相差很大;预测时间分布的挑战是相邻时间段,同一路段拥堵程度可能完全不一样。紧接着,他分享了交易引擎相关的定单分配问题,这是一个很经典的最大匹配和最小匹配问题,在业务场景里面应该是多对一的匹配。在顺风车应用方面,通过机器学习与数据挖掘进行全局顺风车订单路线匹配,减少司机绕路距离,挖掘车主、乘客喜好,实现个性化匹配。


百度何中军:互联网机器翻译


  百度主任架构师,机器翻译技术负责人何中军分享了题为《互联网机器翻译》的演讲,介绍了互联网大数据带来的机遇与挑战,融合统计与深度学习方法的机器翻译以及百度翻译产品。

1.png

  何中军认为,机器翻译扮演桥梁的角色,它能够实时获取多语言信息和情报、实现跨语言交流、助力企业国际化。机器翻译是人工智能的终极目标之一。机器翻译经历了从翻译备忘录,到基于规则的机器翻译,到基于实例的机器翻译,再到统计机器翻译的发展历程。影响翻译质量的因素包括数据量、翻译方法、垂直领域数据和反馈数据的使用。


  互联网大数据带来的机遇与挑战。互联网大数据的特点包括不规范性(单语言)、不对称性(多语言)、领域性、动态性。对于海量、高质翻译知识的获取,他分享了两种方法。一、拓扑结构分析:网页解析、区域标注和划分、正文内容分块、坐标距离计算。二、双语互译探测:双语信息发现、相似度计算。

2.png

 融合统计与深度学习方法的机器翻译。以前的统计机器翻译需要双语对翻译模型,而且还需要目标语言的语言模型。基于短语的方法表现为绝不翻译较好、难以利用全局信息、步骤复杂、耗费资源大。基于深度学习的方法充分利用全局信息且译文流畅、模型小、步骤简单、网络结构复杂计算量大。RNN (循环神经网络)端到端翻译方法存在的问题是词表大小受限,集外词问题严重;偏重整句句义,漏词问题严重;对双语建模,无法利用单语信息。所以需要使用Log-linear框架融合多特征。他介绍了Multi-task Learning模型:同一个源语言翻译为多个目标语言;同时训练多个模型,源语言信息共享。对于解码算法,RNN存在的问题是大量矩阵运算,解码速度慢。通过优化的柱式搜索算法,利用优先队列减少状态扩展,利用翻译词表减少单词预测。RNN系统在手机端应用存在的问题是存储资源受限、计算资源受限。其解决方法是:词表裁剪、模型压缩、动态加载。


刘彦伟:京东实时数据平台的实现和应用


  京东商城大数据研发部负责人刘彦伟分享了题为《京东实时数据平台的实现和应用》的演讲。他主要从三方面进行了分享:京东大数据平台介绍、实时数据平台架构及实现、京东实时应用现状。

3.png  

京东大数据平台包括离线的数据平台和实时数据平台,这两个平台之间有一定的数据交换。京东大数据平台设计思路是:平台化模式、自助式、工具化、开放式、覆盖全集团数据、效率最大化、成本最优。

4.png

  他主要分享了京东实时数据平台架构及实现。基本思想是做好三个步骤:导入、存储、计算。基本过程是将数据通过JDBUS(数据直通车)写入实时数据总线,再传入实时数据平台。其中,数据直通车是一个功能强大的数据搬运系统,支持实时接入、实时分发、离线接入、离线分发,目前可以支持异构数据类型:Mysql、SqlServer、Oracle、Hive、Hbase、文件MongoDB等之间相互数据搬运,提供Web配置管理工具。数据直通车的价值在于通过产品化屏蔽底层复杂技术实现,让所有人都可以完成数据采接入工作。JDBUS支持的实时数据接入方式包括:基于数据库日志、日志文件、消息上报。数据库日志Binlog实时接入流程为:异构适配、协议解析、数据过滤、格式转换、数据压缩、数据拆分、分库分表数据合并、秒级延迟、自动容灾。实时数据总线是数据接入与下游消费之间的一个数据暂存存储,以标准格式的消息降低异构系统之间对接的成本,实现一次接入、多用户消费,实现异步架构,单个数据实体以Topic粒度存储。实时计算平台是基于Storm打造的流式计算平台,提供SDK实现与JDQ的对接,从而通过JDQ获取实时数据,提供可视化的配置管理系统,支持Job的自助上传、测试、发布、管控服务,支持Job的版本控制,集成监控,实现状态、延迟等异常报警,实时查看Job运行日志,统一的实时计算集群,实现了公司资源利用最大化,包括人力、技术、硬件等。实时计算平台基于CGroup的资源隔离,使用Nimbus HA,可以跨集群程序包共享,重构日志优化用户体验,访问控制,位点服务,跨集群容灾。


人民大学窦志成:大数据时代的互联网分析引擎


  中国人民大学副教授窦志成分享了题为《大数据时代的互联网分析引擎》的演讲。


  人工编辑的目录在互联网发展初期起到了一定的帮助。但它存在一定问题:导航的方式仅适于少量网站;手工编辑代价高,用户查找网站困难;找入口网站,而不是找信息,与用户需求相悖。搜索引擎20年来都没改变的基本模式:网页是基本单元;返回简单结果列表“ten blue links”;用户通过阅读结果来获取信息。这种模式不能满足用户对大规模互联网数据的深层次需求,包括实时及历史数据、探索式搜索、分析与决策支持;部分高阶信息获取需求无法很好满足。