何帆:利用大模型激活数据要素价值

三分美 足球新闻 2024-11-17 2 0

专题:2024中国高新技术论坛

  “2024 中国高新技术论坛”于11月14日在深圳举行。三六零数智化集团首席产品官何帆出席并演讲。

何帆:利用大模型激活数据要素价值

  何帆建议将数据要素和大模型联合起来在企业内部落地过程中,按以下几个步骤走:

  一是汇聚各种多元数据,在企业内部构建各种业务系统、第三方系统、SaaS应用,已经存在了各种各样数据,同时还有非常多非结构化数据,比如之前有一家航空公司去维修飞机各种各样的操作手册或者维修手册,分散在各个工程师的电脑里、服务器里,每一个工程师掌握的知识不一样,而且这些非结构化数据分散在各地。建议第一步做集中汇聚,进行集中管理。连接模型,建立企业的知识中枢。

  二是关联知识库,企业内部已经形成各种各样的知识库,没必要再把它完整的训到模型里,但需要用搜索引擎连接这些知识库,用RAG看到底有哪些内容,不管是结构化还是非结构化,甚至我们尝试把非结构化数据变成结构化数据再做后面的RAG。

  三是做完AI能力后,需要赋能给企业内部已经在使用的一些自动化办公系统,比如我想定一张机票,可能内部自动提了一个出差申请后就可以给我一些机票建议,什么时间点,有哪些机票,价格怎么样,可以快速通过自然语言决定要不要定这张机票和酒店,快速完成应用。这样的前提是我们需要连接内部各种各样应用来完成这件事,最后是跟各种各样应用打通。架构里最后开放生态的问题,除了自己构建的一些应用,可以连接更多第三方应用来完成。

  以下为演讲实录:

  何帆:大家好,我是三六零的何帆,我的议题主要是目前我国主推的数据要素市场如何靠大模型来激活数据要素价值。

  我主要从背景、思想、方案、以及三六零的优势都跟大家做一个分享。

  可能大家心目中三六零是一家安全公司,推出的免费杀毒模式,靠360安全卫士积累了大家看到的,比如目前国内发现的大概有57个国家级黑客组织,包括美国的中情局、国安局都在这57个国家级黑客组织中,这57个中三六零发现了55个,那三六零是依靠什么来达到这个效果和能力呢?安全背后是我们对大数据的分析和人工智能技术的支撑来完成的。现在我们不但把安全拿出来商业化,更多的希望把人工智能应用和技术以及对大数据的分析技术拿出来,在前场做商业化,赋能政企单位。

  从目前背景看:一是我国对数据要素市场的大力推动,频繁的出台了大量政策来支撑,以及像各省数据局、数据交易所的成立,大力推动数据要素市场;二是我国对人工智能提出了新的战略高度,要大力发展人工智能领域,尤其在大模型领域的发展。

  在这两个背景下,“数算智”是一个新的引擎,来达到一个新的新质生产力,而且通过各种各样的事件包括Open AI发布的各种各样论文能看到高质量的数据集对于大模型的质量是非常重要的,并且大模型的运算后期形成一个反哺的过程。

  从人工智能价值落地上,数据和大模型是非常重要的两个因素。在To B场景落地时,比如对于个人支持的理解、企业支持的理解慢慢用大模型做融合,达到下一步的效果。

  人工智能、数据要素这两个领域大的国家要大力推动背景下,希望用人工智能激活数据要素的价值,靠数据要素再反哺人工智能能力的推动。

  在这个背景下我们提出“存智一体”思路,“存”里,希望把大量企业数据,结构化数据、非结构化数据集中进行存储,用“智”完成价值转化。我们自研了自己文档类型的大模型,包括OCR能力、版式识别能力,让大模型搜得到并且答得准。

  我们推出了一个完整框架,下面是“存”,上面是“智”。数据来源,各种各样企事业单位已经内建了一系列办公、业务上的应用,比如即时通信、电子邮件、CRM、OA等,里面都存在大量数据,需要用一系列的连接器,把各种数据完成集中的采集和存储,同时把一些基础资源包括云计算资源用到公有云资源、私有云资源、混合云资源,集中进行管理。

  “智”,需要构建一个完整的AI应用平台,这个平台里包括大模型、Agent、RAG等,同时也是三六零需要关注的数据隐私、数据泄露问题,都是非常重要的在数据要素和人工智能里非常关键的,如果数据安全没有办法保障,业务跑起来是非常大的隐患。

  在这个架构下推出一系列应用,包括我们自己的应用、企业内部应用、智能应用平台,来完成整个架构的搭建。

  在这个前提下做了一系列实践,我们建议将数据要素和大模型联合起来在企业内部落地过程中,按这几个步骤走:一是汇聚各种多元数据,在企业内部构建各种业务系统、第三方系统、SaaS应用,已经存在了各种各样数据,同时还有非常多非结构化数据,比如之前有一家航空公司去维修飞机各种各样的操作手册或者维修手册,分散在各个工程师的电脑里、服务器里,每一个工程师掌握的知识不一样,而且这些非结构化数据分散在各地。建议第一步做集中汇聚,进行集中管理。连接模型,建立企业的知识中枢。今年上半年三六零开的ISC大会上,我们的创始人周鸿祎先生带领国内16家领先大模型公司集成了大模型生态,并开发了AI助手功能,我们的底座平台已经连接了国内最主流的16家大模型,上层智能应用可以连接底层各种各样的大模型,并且API完全打通。

  关联知识库,企业内部已经形成各种各样的知识库,没必要再把它完整的训到模型里,但需要用搜索引擎连接这些知识库,用RAG看到底有哪些内容,不管是结构化还是非结构化,甚至我们尝试把非结构化数据变成结构化数据再做后面的RAG。

  做完AI能力后,需要赋能给企业内部已经在使用的一些自动化办公系统,比如我想定一张机票,可能内部自动提了一个出差申请后就可以给我一些机票建议,什么时间点,有哪些机票,价格怎么样,可以快速通过自然语言决定要不要定这张机票和酒店,快速完成应用。这样的前提是我们需要连接内部各种各样应用来完成这件事,最后是跟各种各样应用打通。架构里最后开放生态的问题,除了自己构建的一些应用,可以连接更多第三方应用来完成。

  在这个五步曲下我们已经完成哪些实践?这是我们在各地政府完成的,把政务关键数据用模型赋能,从“万事通”变成“政务通”,比如需要对领导完成信息的角色、纵览,对外完成政务问答等等,比如一些政策咨询。我们在一个政务单位做政策问答,比如小升初的政策是什么,能读哪些学校,快速能给公众一些非常准确的答案。

  教育领域,非常私有化的数据通过模型赋能,可以在教学上有很多场景,比如智能交互以及多媒体教育当中通过多模态对它进行更多赋能。

  制造领域,比如我们在某个航空公司的案例,把工业维修SOP生成,比如标准操作步骤用模型生成,生成后由工程师完成后续操作,并且在操作过程中可以跟模型进行多轮交互。我现在遇到的飞机故障应该怎么样维修,维修具体的描述在我维修手册的哪个章节,都有非常准确的定位,同时它跟其他的IT系统交互后,可以快速完成工单创建和完结。

  健康领域,可能健康是我们非常关注的领域,比如智能的AI医生,在医院内部智能的导览、智能的医疗导航,比如几楼几层有哪个科室,挂号、做CT需要去哪里,完全可以依靠大模型和AI。

  最后稍微讲一下目前三六零数智化部分的核心能力。

  我们现在在全国范围内做了大概30多个数智化产业基地,包括城市大脑。我们跟当地政府合作已经完成人工智能各种各样基础设施的落地,我们把生态大模型、开源模型放过去,上层大模型LLMOps平台以及对接的各种各样应用,这个模式落地后我们提供给当地的委办局和企事业单位做初级应用,在此基础上有些增值付费服务出来。

  大模型领域,我们是大模型标准联合组组长,是目前大模型标准编写单位之一,所以我们现在参评的大模型标准包括国标13项,行标3项,团体标准4项等等。

  三六零大家熟知的一直是网络安全领域,多数时是外交部发言人说我们针对国家地震局或者西工大等关键技术设施,来自国外的黑客组织发起的攻击。但刚刚也谈到我们在人工智能的深耕才达到这个效果,2010年开始在人工智能领域耕耘,2015年成立了我们自己人工智能研究院,一路走来,在全国范围内包括很多技术领域上已经有非常多沉淀。

  可能今天很多嘉宾都谈到一个共识的话题,对于模型而言,高质量的数据集是非常重要的元素。三六零本身是一家互联网公司,依靠C端免费模式帮我们积累了大量高质量数据集,同时有大量C端应用,比如360安全卫士、360浏览器等等,帮我们积累了大量高质量数据,并且根据最新数据,三六零的AI搜索现在也是web访问量排名第一的搜索引擎,在搜索引擎领域也帮助我们积累了大量高质量数据集,帮我们从模型训练以及对数据应用理解上积累了大量工程化的能力。

  最后一部分是安全。

  本身三六零是一家安全公司,三六零发布的各种各样应用包括大模型应用在内,被国内外大量网络安全爱好者、黑客首当其冲的作为测试目标。如果你发布一款应用,可能会被大量人拿来做测试,看能不能攻进去。在这个领域我们也积累了非常多经验,所以我们现在提出一个比较先进的理念,用大模型保护大模型,对大模型各种各样内容的输入输出,需要用大模型判断它的合理性,这个会不会给我造成攻击,它的合法性需要做检测,输出的内容是不是合规,会不会造成信息泄露。我们之前看到三星内部的数据泄露,都是把高质量数据放到大模型以及大模型应用过程中带来的数据隐私问题、数据泄露问题。

  我们提出“以模制模”可控问题、内容安全、幻觉问题、提示注入攻击、数据安全。非常强大的安全大模型,它能够保护到通用或者数字化大模型各种各样的应用。

  我的分享大概就这些,谢谢大家!

  新浪声明:所有会议实录均为现场速记整理,未经演讲者审阅,新浪网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。