新闻动态

    新闻动态

    首页 / 新闻动态 / 正文

    上海市科学技术奖获奖成果⑨|大数据“炼金术”

    来源:新闻中心 作者:魏丹发布:2020-09-21 15:17:40

    2012年,美国奥巴马政府将大数据战略上升为国家战略。2015年,我国“十三五”规划正式提出“实施国家大数据战略,推进数据资源开放共享”。大数据的战略重要性,不言而喻。在万物皆可数字化的时代,信息数据的增长是爆炸性的,国际数据公司(IDC)预测,2025年全球数据量将达到175泽字节(ZB1泽字节相当于1万亿GB)。那么问题来了:如何从海量的数据中挖掘到有价值的信息并为我们所用呢?

    作为国家战略的先行者,我校副校长、电子与信息工程学院教授蒋昌俊带领团队长期致力于大数据计算分析相关研究。历经十余年的持续深耕,蒋昌俊领衔完成的“网络大数据计算分析与安全可信关键技术及应用”项目交出了一份漂亮的答卷:团队以大数据勘探为核心,自主创新研发了数据勘探器、挖掘分析器、内容索引器以及安全与可信管理器,构建了网络大数据计算分析与安全可信关键技术体系,实现了大数据的高效采集处理与安全可控。

    日前,该项目在上海市2019年度科学技术奖励大会上荣获技术发明一等奖。“项目成果已在金融、保险、贸易、电商、交通等十多个行业的500余家企事业单位得到成功应用。”蒋昌俊说。

    蒋昌俊教授展示项目成果

    “有人将大数据比喻为石油、黄金,一点都不为过。可以说,谁掌握了大数据,谁就掌握了未来,这是大数据的战略意义所在。”蒋昌俊说,“从另外一个角度看,大数据规模巨大,但价值密度较低,大数据的采集和处理与石油开采、沙里淘金也有相似之处。”

    蒋昌俊介绍,现有技术实行海量采集,采集处理及开发利用的盲目性较高,难以经济高效地开采与利用大数据资源。“哪里有数据源?数据源的资源丰不丰富?储量有多少?成分如何?价值高不高?高效采集和处理数据,必须先搞清楚这些问题。”

    4AE01

    受地质矿产勘探的启发,蒋昌俊团队发明了大数据资源勘探器,变海量采集为量化勘探,掌握资源状况与价值所在,实现优化采集,克服了大数据开发利用的盲目性,有效减少无用功。“比如要分析知识产权,首先,到哪里可以找到这样的数据?然后,数据库里的数据结构是怎样的?是文本、图像、视频还是音频?分别有多少?……这些都能通过大数据资源勘探器解决。”

    勘探、采样,确定了“油田”位置,接下来的“钻井采油”也并不简单。“大数据是时刻变化的,不仅增长快,而且更新速度快。”蒋昌俊说,要从动态性高、实时性强的大数据中“提纯”出有价值的信息,偏重于静态全量计算的现有挖掘分析技术就out了。在数据勘探基础上,团队发明了集合特征优选、高效分类与自适应聚类的大数据挖掘分析器,变全量计算为增量计算,解决了大数据强时变、增量性的处理需求与难题。

    “炼油加工”环节,要考虑的是如何组织管理挖掘到的数据才能更好地服务用户。“以往的搜索引擎,采用的是倒排索引,输入关键词,只出来与之相关的所有网页,但关键词与关键词之间不存在语义关联。这种用户体验并不太好,费时繁琐效率不高。”

    为了解决这个问题,团队建立了大数据资源的索引网络模型,在国内较早提出了基于索引网络的探索式搜索技术,发明了内容索引器,变倒排索引为索引网络,变匹配搜索为探索搜索,实现了语义关联信息的有效推荐。“比如搜索同济大学,就会有关联推荐,像相关重点建设高校,或者同济大学的各个学科等等。”蒋昌俊说,“大数据时代,用户面对的是信息海洋,关联推荐是很有必要的。目前,各大搜索引擎网站同类技术已相当成熟,但我们的技术在相关性、新颖性、多样性等方面都优于谷歌。”

    F001

    项目团队与阿贡实验室代表团交流研讨

    有了成熟的大数据采集和处理技术,团队将应用接轨瞄准了大数据安全与保护。自2007年起,蒋昌俊带领团队与支付宝开展研发合作,建立了中国网络支付领域首个风险防控系统。团队通过采集和分析用户在系统中留下的蛛丝马迹,构建了基于用户行为习惯的行为纹理,在行为识别模型基础上建立了一套交易欺诈精准判定和瞬时识别机制,通过比对行为纹理,在线捕获数据,实时阻止欺诈交易。

    “现实生活中,每个人的行为习惯会体现在一言一行中。网络上也一样,任何一个细小行为都会留下‘痕迹’,使用的设备、时长、频率……久而久之形成习惯。这种习惯如同指纹一样难以复制,具有比密码更复杂的特点,借助这些‘痕迹’,可以对网络交易支付用户进行瞬时精准识别。”蒋昌俊举例说,比如某个用户平时网上购物主要是买书,如果用户名、密码被盗,突然出现短时频繁的游戏点卡交易,那么系统比对他平时的行为纹理,就能快速、准确判定交易是否可信,从而决定是放行还是报警。该项技术也因此荣获2016年国家科技进步二等奖和2017年中国专利优秀奖。

    从静态身份认证到动态行为认证,变封闭式防御为开放式安全,蒋昌俊团队建立的综合行为认证与可信评估的大数据保护与开放安全体系,可以有效实施系统二次防控,对进入系统的用户进行行为纹理分析,若差异异常即进行重点跟踪与管控,从而阻止入侵与信息泄露,实现了网络大数据及系统平台的可信管理与安全保障。

    据悉,项目成果还服务于党的十九大会议、上合组织青岛峰会、首届中国国际进口博览会等国家重大活动安全保障,获得“首届中国国际进口博览会网络安保突出贡献奖”。(魏丹)