中科院计算所福州分所

网站首页 > 分所新闻 > 新闻动态 > 行业动态

【BDTC 2015】互联网大数据分论坛:滴滴、百度、京东等大数据实践

2015-12-23 10:54:52 中科院计算所福州分所 阅读

  2015年12月10-12日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、北京中科天玑科技有限公司与CSDN共同协办,以“数据安全、深度分析、行业应用”为主题的 2015中国大数据技术大会(Big Data Technology Conference 2015,BDTC 2015)在北京新云南皇冠假日酒店盛大开幕。


  12日下午的互联网大数据分论坛,滴滴机器学习研究院研发总监刘威、百度主任架构师、机器翻译技术负责人何中军、京东商城大数据研发部负责人刘彦伟、中国人民大学副教授窦志成、国双技术副总裁黄勇坚、北京拓尔思信息技术股份有限公司副总裁刘瑞宝、微众税银联合创始人兼COO曾源分享了大数据在移动出行、机器翻译、数据平台实现、分析引擎、征信等领域的应用。


滴滴刘威:移动出行的大数据挑战


  滴滴机器学习研究院研发总监刘威分享了题为《移动出行的大数据挑战》的演讲。


  滴滴机器学习研究院的机器学习算法解决的核心问题包括:地图服务,ETA预估,交易引擎,出行导流,智能运力调度,极速拼车等。出行是中国民众每天都要面临的“痛点”。出行领域的现状是:由于公共交通系统不便,人均汽车拥有量较低加上牌照限制,人们对舒适出行的巨大需求难以得到满足,而且我国移动互联网在城市交通出行领域应用不够。所以需要建立全球最大的一站式出行平台,把所有交通工具搬到网上。中国的出行希望能够满足中国人的出行多样化、个性化的出行需求。未来世界的出行将具有以下特点:满足人们多样化、个性化出行的要求;智能城际交通;降低路上行驶车辆的空驶率;传递、践行共享经济。


  机器学习与大数据是出行平台的大脑。滴滴大数据是指定单数据、行使轨迹数据、实时数据、GPS定位数据。滴滴出行通过地图服务进行定位、计算距离和预估时间,通过交易引擎进行订单分配、出行导流。他就两个核心问题分享了具体的思路。第一个问题就是实时交通路况,这是跟地图相关的,实时交通路况监测。路况随时间波动较大,因此预测需要达到分钟精度。即使在高峰时段,也只能观察到部分的实时路况。所以需要通过机器学习来动态的稀疏学习问题。第二个问题,也是跟地图相关业务相关的互联网公司都会遇到的问题——ETA,这是机器学习的最大挑战之一。这个问题难在于空间在变,时间也在变,要用预测空间的分布,预测时间的分布。预测空间分布的挑战是相邻路段的拥堵情况可能相差很大;预测时间分布的挑战是相邻时间段,同一路段拥堵程度可能完全不一样。紧接着,他分享了交易引擎相关的定单分配问题,这是一个很经典的最大匹配和最小匹配问题,在业务场景里面应该是多对一的匹配。在顺风车应用方面,通过机器学习与数据挖掘进行全局顺风车订单路线匹配,减少司机绕路距离,挖掘车主、乘客喜好,实现个性化匹配。


百度何中军:互联网机器翻译


  百度主任架构师,机器翻译技术负责人何中军分享了题为《互联网机器翻译》的演讲,介绍了互联网大数据带来的机遇与挑战,融合统计与深度学习方法的机器翻译以及百度翻译产品。

1.png

  何中军认为,机器翻译扮演桥梁的角色,它能够实时获取多语言信息和情报、实现跨语言交流、助力企业国际化。机器翻译是人工智能的终极目标之一。机器翻译经历了从翻译备忘录,到基于规则的机器翻译,到基于实例的机器翻译,再到统计机器翻译的发展历程。影响翻译质量的因素包括数据量、翻译方法、垂直领域数据和反馈数据的使用。


  互联网大数据带来的机遇与挑战。互联网大数据的特点包括不规范性(单语言)、不对称性(多语言)、领域性、动态性。对于海量、高质翻译知识的获取,他分享了两种方法。一、拓扑结构分析:网页解析、区域标注和划分、正文内容分块、坐标距离计算。二、双语互译探测:双语信息发现、相似度计算。

2.png

 融合统计与深度学习方法的机器翻译。以前的统计机器翻译需要双语对翻译模型,而且还需要目标语言的语言模型。基于短语的方法表现为绝不翻译较好、难以利用全局信息、步骤复杂、耗费资源大。基于深度学习的方法充分利用全局信息且译文流畅、模型小、步骤简单、网络结构复杂计算量大。RNN (循环神经网络)端到端翻译方法存在的问题是词表大小受限,集外词问题严重;偏重整句句义,漏词问题严重;对双语建模,无法利用单语信息。所以需要使用Log-linear框架融合多特征。他介绍了Multi-task Learning模型:同一个源语言翻译为多个目标语言;同时训练多个模型,源语言信息共享。对于解码算法,RNN存在的问题是大量矩阵运算,解码速度慢。通过优化的柱式搜索算法,利用优先队列减少状态扩展,利用翻译词表减少单词预测。RNN系统在手机端应用存在的问题是存储资源受限、计算资源受限。其解决方法是:词表裁剪、模型压缩、动态加载。


刘彦伟:京东实时数据平台的实现和应用


  京东商城大数据研发部负责人刘彦伟分享了题为《京东实时数据平台的实现和应用》的演讲。他主要从三方面进行了分享:京东大数据平台介绍、实时数据平台架构及实现、京东实时应用现状。

3.png  

京东大数据平台包括离线的数据平台和实时数据平台,这两个平台之间有一定的数据交换。京东大数据平台设计思路是:平台化模式、自助式、工具化、开放式、覆盖全集团数据、效率最大化、成本最优。

4.png

  他主要分享了京东实时数据平台架构及实现。基本思想是做好三个步骤:导入、存储、计算。基本过程是将数据通过JDBUS(数据直通车)写入实时数据总线,再传入实时数据平台。其中,数据直通车是一个功能强大的数据搬运系统,支持实时接入、实时分发、离线接入、离线分发,目前可以支持异构数据类型:Mysql、SqlServer、Oracle、Hive、Hbase、文件MongoDB等之间相互数据搬运,提供Web配置管理工具。数据直通车的价值在于通过产品化屏蔽底层复杂技术实现,让所有人都可以完成数据采接入工作。JDBUS支持的实时数据接入方式包括:基于数据库日志、日志文件、消息上报。数据库日志Binlog实时接入流程为:异构适配、协议解析、数据过滤、格式转换、数据压缩、数据拆分、分库分表数据合并、秒级延迟、自动容灾。实时数据总线是数据接入与下游消费之间的一个数据暂存存储,以标准格式的消息降低异构系统之间对接的成本,实现一次接入、多用户消费,实现异步架构,单个数据实体以Topic粒度存储。实时计算平台是基于Storm打造的流式计算平台,提供SDK实现与JDQ的对接,从而通过JDQ获取实时数据,提供可视化的配置管理系统,支持Job的自助上传、测试、发布、管控服务,支持Job的版本控制,集成监控,实现状态、延迟等异常报警,实时查看Job运行日志,统一的实时计算集群,实现了公司资源利用最大化,包括人力、技术、硬件等。实时计算平台基于CGroup的资源隔离,使用Nimbus HA,可以跨集群程序包共享,重构日志优化用户体验,访问控制,位点服务,跨集群容灾。


人民大学窦志成:大数据时代的互联网分析引擎


  中国人民大学副教授窦志成分享了题为《大数据时代的互联网分析引擎》的演讲。


  人工编辑的目录在互联网发展初期起到了一定的帮助。但它存在一定问题:导航的方式仅适于少量网站;手工编辑代价高,用户查找网站困难;找入口网站,而不是找信息,与用户需求相悖。搜索引擎20年来都没改变的基本模式:网页是基本单元;返回简单结果列表“ten blue links”;用户通过阅读结果来获取信息。这种模式不能满足用户对大规模互联网数据的深层次需求,包括实时及历史数据、探索式搜索、分析与决策支持;部分高阶信息获取需求无法很好满足。


  他提出了数据感知的挑战包括:数据的规模巨大,数据爆炸式增长对于有效信息的全面获取带来很大挑战;数据的类型复杂,数据多种复杂类型使得信息获取和抽取变得更加困难;数据的动态更新,数据更新速度进一步增加了信息的获取和搜集的难度。对此,他分享了自己的思路:建立实时智能收集主题相关的网络数据的感知和获取框架,研究并集成通用的多源异构网络大数据信息抽取算法,可定制可编程的网络数据获取平台。然后,他介绍了一些高阶知识挖掘和分析模型。多维度多角度刻画查询涵盖信息,挖掘查询搜索结果中包含的高频列表。

5.png  

他提出一个概念——互联网分析引擎:在搜索引擎的基础上,提供深度分析,帮助用户获取高阶信息。该引擎有以下特征:倾向于对知识进行深度抽取挖掘,各类的行业知识等;大规模网页汇总,而非简单结果列表;统计分布+明细数据展示;交互式的分析过程,在这期间用户能够通过交互过程来发现这个数据之间的关联关系;历史回溯。

6.png

  他分享了自己互联网分析引擎的构架设想。从数据采集、文档理解、文本及结构化文档、索引、倒排索引、检索、查询词抽出很多很深入的结构化的信息。在获取到关于这个查询的检索结果集合的同时,要在检索集合上进一步对里面包含的结构化信息进行快速地汇总、统计、输出,这里面还涉及到采样和摘样,然后通过交互式分析给用户。它的难点和重点在于:深层次的信息抽取和语义理解、排序模型、性能、话题检测扩充和匹配、分析引擎的评价。


国双黄勇坚:挖掘用户行为大数据中的金矿


  国双技术副总裁黄勇坚分享了题为《挖掘用户行为大数据中的金矿》的演讲。

  用户行为数据的特征包括大量数据、可采集、精准、结构化与非结构化。营销决策流程提前,表现为60%的购买者在与销售人员接洽前已经完成了其决策流程。面临的问题:优化提升用户体验?如何更好设计符合用户兴趣的产品?

7.png

  第一步是采集加工。怎么样能够通过不同的平台技术,在移动平台、安卓、IOS、网页的JAVA进行采集加工。然后围绕采集加工做好数据分析的报表,最后,通过数据挖掘的手段,通过技术学习的手段提供大量的可供决策依赖的数据,为这些数据做行动和决策。

8.png

  大数据下数据全关联,可以基于数据分析解决企业的疑难问题。他举例介绍了可交互的数据挖掘技术——热力图技术。直观通过采集用户的鼠标点击行为,在网页上展示用户的鼠标点击,点击多的地方就是热的地方,点击少的地方就是比较冷的色调。大数据还有一个很重要的威力就是数据是全关联的,把鼠标点击的数据和用户的转化量的数据建立了相应的关联,分析用户点击不同区域的流量。


  他通过举例介绍了多维度数据分析技术。传统的数据报表是一个二维世界的数据报表,现在的数据报表它是数据全关联,建立了数据仓库,通过数据仓库的技术去解决业务分析的问题。在做业务分析的时候,通过OLAP可以衡量业务情况,可以客观地反映你在每一个领域里面的业务情况。维度就是去剖析这些数据的方法。现在在应用技术仓库的时候,在前端可以采集数据行为,在后端把采集到的行为先经过一些加工的处理放到集群里面,然后去解析数据。自主开发了数据仓库的抽象层,去指定了维度,指定了相关的指标。这样就可以使得客户能够全方位的去分析数据。


刘瑞宝:大数据——互联网时代政府发展的引擎


  北京拓尔思信息技术股份有限公司副总裁刘瑞宝分享了题为《大数据——互联网时代政府发展的引擎》的演讲。


  数据成为一种战略资源,数据成为生产要素。数据的资产属性越来越被人们所认可,而我国的人口红利未来将以大数据体现;大数据技术将以其强大的数据融合分析和判断能力辅助政府决策,感知个性需求;应用是大数据价值所在,服务和运营是生命力的体现,数据持续更新形成闭环。大数据发展的三要素是数据、技术、需求。政府主导的智慧城市建设正在面临瓶颈,智慧城市的市场化推动不足。智慧城市,是政府开放数据+个体创新;一定是有新的商业模式的,PPP;智慧城市的下一个入口,是数据生态的建设,促进数据的流转。数据的开放和利用是政府的新亮点。大数据应用政府发展的三个方面是办事、监管、决策。

9.png

  智慧1.0就是充分利用互联网的渠道性。政府网站的六个特点是架构化、集约化、多元化、生态化、社会化、智能化。以生态创新促智慧服务。智慧是整体的、系统的,离不开整条生态链、整个生态圈的支撑。办好政务服务网,实质上是建一个全天候在线的智慧政府。很显然,它亟须重构形成超越传统电子政务发展阶段的新生态。全息、可信、可视化金融大数据平台包括表征信息、行为信息、状态信息、利益信息。


  智慧2.0就是实现数据支撑的政府监管:数据时空化;实时比对,发现异常;挖掘数据之间关系;建立指数化模型。大数据让每个个体都真实呈现。用机器学习构建网贷平台的风险评估模型,定量化分析结果对接管理,对内实现监管,对外实现权益保护,重点监测对象实时风险分析。

10.png

  智慧3.0,人的行为越来越多被数字化,决策需要数据支撑。大数据的挖掘是决策的基础:数据聚类分析、关联挖掘、文本深度挖掘。洞察数据,支撑决策。政府智慧需要数据融合,融合辅助决策。


曾源:政务大数据在征信领域的应用


  微众税银联合创始人兼COO曾源分享了题为《政务大数据在征信领域的应用》的演讲。它主要从三个方面进行了分享:政策背景、技术支撑、应用场景。


  金融主体对于信用有一定的诉求。现有信用体系满足各金融主体需求中的缺陷可以慨括为:信用评估体系建设不完善,信用评估技术落后,数据缺失、杂乱,资源难统一,评价结果不具备预测性,评价模型不具备普适性。

11.png  

使用大数据平台进行技术支撑。公开数据的全量采集+时间维度,将形成未来大数据产业中最重要的基础资源;数据服务于金融、媒体、电商、政府决策等重要的国计民生的重要行业;数十万个深度采集器覆盖,全球多语种商业数据,包括企业基本数据、电子商务数据、社交网络数据、金融咨询数据、行业统计数据、诉讼数据和资产数据等;通过大数据运营平台系统,实时更新、采集、挖掘、分析和管理企业关键数据;通过多样的数据接口方式,可以便于企业随时随地按照自己可配置的方式活动定制化的数据信息。利用大数据技术进行性能优化。利用分布式存储技术,Redis等缓存技术实现海量数据的快速读写。使用容器技术进行架构,为应用提供平台资源支撑;对应用的资源进行健康检查的状态监控,并及时预警;当监控到资源占用过高时,可自动调配闲置容器资源给相应的应用;提供基础镜像支持,实现应用快速秒级部署与秒级更新。

12.png

  面向商业的大数据服务包括应用融合、算法融合和数据融合。监控过程实现了:数据同步,即纳税人申报、信息变更;数据同比,包括更新数据和原数据对比;启动预案,包括现场调查、合作截停、提前收回;数据预警,包括警戒值设置和峰值预警。


来源|CSDN大数据