伴随着京东电商业务的高速发展,在过去5年里京东的商品规模增加了几十倍,京东的GMV也随之线性增长,到现在京东已经有超过百亿的商品规模,GMV也达到了近1.3万亿人民币。未来,京东还会继续成长,继续扩充商品品类,商品数据量也会随之持续性增加。
面对如此庞大的数据量,如何存储、如何处理、如何深层次利用商品数据、如何实现数据应用智能化就成为摆在京东面前亟待解决的技术难题。
7月10日,主题为"大数据赋能数字中国"的第三届中国大数据应用大会在成都召开,京东商城总架构师、基础架构副总裁刘海锋以“海量商品的数据智能”为题发表演讲,并在大会上介绍了京东在海量商品数据的存储与计算、数据智能化方面的最新探索。
京东基础架构副总裁刘海锋
本次大会由成都市人民政府指导,中国大数据专家委员会、中国电子信息产业集团有限公司中国电子学会、四川省经济和信息化委员会主办,世界工程组织联合会工程技术创新委员会(WFEO-CEIT)、成都市经济和信息化委员会、成都市博览局全力支持。京东、百度、中科曙光、联通、小米、IBM等知名公司出席会议并发表演讲。尤其本次大会《连线》(Wired)杂志创始主编凯文·凯利(Kevin Kelly)也将在大会上进行《下一代大数据平台》的主题发言。
在大会间隙,刘海锋和凯文·凯利(Kevin Kelly)进行了合影。
刘海锋表示:“京东是一家电商公司,更是是一家大数据企业。在京东高速发展的过程中积累了海量的高质量的数据,其中商品数据是所有产品与技术的基石。商品数据有它独特的特点:首先,非结构化的商品图片与结构化的商品属性并存。同时,除了平台录入的商品工业数据,还包含评价晒单等用户生成数据。商品数据的多模态特性,使得其存储、计算、机器学习与数据挖掘,极具技术挑战。”
海量商品数据管理,首先要解决的就是存储的问题。刘海锋介绍说,京东采取了分而治之的方式,通过自主研发的分布式文件系统存储商品图片、分布式数据库存储商品属性信息、分布式缓存平台加速热点访问、分布式消息平台作为应用之间的数据传递总线。
电商服务主要以图片作为信息载体,京东拥有超大规模的图片数据:商品原图已经突破了1000亿张,且日均新增超过1亿。必须通过智能化压缩技术,一方面降低数据中心带宽成本,另一方面提升用户体验。京东在2015年首先引进了WEBP图片压缩格式,图片大小降低了30%。“在2018年我们自研了新型的图片压缩格式DPG,图片大小降低了50%,且压缩性能提升了3倍。对于京东来说,每年节约了数以亿计的带宽成本,对于用户来说则是直观的加快了商品浏览速度,也为用户节约了手机流量费用。”刘海锋介绍说。
数据只是基础,解决了基本的存储、压缩难题之后,关键还在于对于数据的智能化应用。
京东用AI重塑了商品图片系统,对京东内部业务方,外部用户与商家都进行了赋能。建立了京东图片档案,将图像信息挖掘结果直接应用,为每张京东图片建立其专属的信息档案;提供相似图片搜索;商品详情页、营销图片智能排版;电子小票、水印图片智能生成等应用。
图片智能合成
电商进行推广、促销,很多都是利用图片做广告,之前这些图片都是由专业的设计师编辑,处理速度有限。从2018年初,京东内部开始广泛应用图片的自动化合成技术。
为了达成这一目标,第一步是机器智能抠图,实现全品类商品主体识别、精准定位与分割,批量智能抠图。第二步是用机器去学习用户体验设计师的美学设计理念,实现机器智能排版。第三实现高性能的图片批量合成。
刘海锋总结说,我们当前机器合成的图大概占了商品总数的1%,预计两年之后这个比例可能上升到15%—20%,也就是说常见的活动商品图都是由机器来做。同时我们还对图片进行了自动化翻译,京东的全球化战略要把本土的商品卖到其它国家。我们结合智能排版的技术去做自动化的图片翻译来实现快速的全球化商品推送。
针对京东的海量商品数据,京东还进行了知识图谱——商品标签关系挖掘工作,对商品数据各种特性进行了深度的挖掘,构建了大规模的图模型知识库,以此作为基础赋能了很多智能化应用。
比如JIMI 智能客服机器人,它可以针对用户常见咨询问题,提供智能化快速响应的实时服务,对于不同用户实现千人千面的个性化回答,同时它还是有感情的,可以结合用户画像对用户进行主动关怀。除此之外,还有“李白”写作机器人,它是基于深度学习的自然语言技术,以电商为特色领域的内容创作服务产品,致力于提升写作效率与质量,让内容产出变得更容易。它可以自动针对特定商品生成内容营销短文、焦点图核心介绍文案等,目前已经在京东发现好物频道实现了规模化应用,还有很多第三方商家也利用李白写作机器人进行产品促销文案创作。
刘海锋表示,海量商品的大数据应用领域,京东通过统一存储、弹性计算、视觉智能、知识图谱,进而支撑一系列产品应用。未来京东将持续投入该领域的技术研发,为用户提供更好的体验。
(责任编辑:魏京婷)