查看原文
其他

阿里巴巴AIGC技术与数据分析的融合实践

DataFunTalk
2024-09-11

The following article is from 瓴羊QuickBI Author 王璟尧

导读:在数字化转型浪潮中,数据分析和商业智能(BI)工具成为企业洞察数据、优化决策的关键,场景化应用也日益广泛。伴随生成式AI发展,新一代BI与大模型深度融合,引领商业智能的新变革。

作为连续五年入选Gartner ABI魔力象限的产品,Quick BI在自然语言问数、辅助搭建和洞察等领域进行了探索,并自研了BI领域的大模型。受大数据技术社区DataFun邀请,阿里云智能集团瓴羊高级技术专家——王璟尧分享了Quick BI智能化:AIGC与数据分析的融合实践。


本文将从以下三个方面进行展开:

●   Gartner ABI魔力象限报告解读

●   Quick BI在大模型与数据分析的融合探索

●   通用智能问数架构设计和实践


01

Gartner ABI魔力象限报告解读


一、商业智能与数据分析领域的变迁


2024年6月,全球权威的IT研究与咨询公司Gartner发布了2024年数据分析和商业智能魔力象限市场分析报告,Quick BI作为国内唯一且连续五年入选榜单的产品,今年继续巩固了在魔力象限中的挑战者地位,并且位置仍在稳步提升。



*魔力象限:Gartner根据入选厂商表现,将其划分到四个象限,分别是领导者、远见者、挑战者和特定领域者。

今年6月,Gartner正式发布《分析与商业智能平台魔力象限》报告,阿里云凭借其商业智能产品Quick BI的执行能力和愿景完整性入选挑战者(Challengers)象限。


“Quick BI主要优势体现在其多设备的可视化交互功能、与企业业务系统的集成以及符合中国市场的标准报告制作上。报告还指出,Quick BI在可视化和协作功能上具有竞争优势,尤其适合分析开发人员和业务分析师的使用场景。”


2023年,Quick BI升级了其智能化模块——智能小Q,基于阿里巴巴自主研发的通义千问大模型技术,深化了企业内部数据使用场景下的融合,并且提供了自助式复杂报表搭建及数据洞察的能力扩展,以提升用户体验和分析效率。

二、BI分析市场趋势


1、2024年BI市场热点:BI和AI的结合


Gartner定义的技术发展成熟度曲线用来展示和衡量技术从萌芽到成熟的发展阶段。曲线中被红虚线圈住的这一部分是目前临近或者处于期望膨胀期的技术,里面有很多是跟AI相关的,比如NLQ、NLG、增强分析、可解释的人工智能、数据叙事等等。这些技术到达成熟的预期时间都是两到五年内,它们的出现显著加快了敏捷BI向智能演化的速度。



2、BI行业的三大特征


  • 数据科学和机器学习技术的普及


随着数据科学和机器学习技术的不断发展,BI(商业智能)行业也在逐渐向这些领域靠拢。在国际市场上,BI竞品更加注重数据科学家的角色,使得BI能够实现一站式的算法验证和数据分析。然而,目前国内市场在这方面的涉猎还相对较少。


  • 大模型带来的生成式分析体验


大模型的应用增强了BI端到端和增强分析的能力,例如智能助理等新功能使消费者能够更轻松地通过自然语言对话进行数据分析。


  • 大模型对自然语言的理解和归纳能力


大模型在自然语言理解和归纳能力方面的突破性进展,使得整个BI行业的分析能力产生了质的飞跃。这使得BI工具能够更好地理解和处理自然语言数据,从而为用户提供更准确、更高效的数据分析服务。


3、BI的技术演进趋势


  • 传统BI

这一阶段的BI解决方案主要依赖于预先定义的数据模型和语义层。用户需要通过复杂的查询和报表工具来访问数据,这通常要求用户具备一定的技术背景和对数据库结构的了解。这种方式的数据分析相对固定和有限,不够灵活。


  • 敏捷BI

在敏捷BI阶段,用户可以通过更直观的方式,如点击按钮、拖拽元素等操作来进行数据分析和创建报表。这种方式降低了技术门槛,使得非技术背景的用户也能进行一定程度的数据分析,提高了分析的灵活性和自主性。


  • 智能BI

智能BI阶段通过大模型提供了更加智能化的数据分析方式,用户只需以自然语言的形式描述自己的分析需求,智能助理便能根据上下文自动理解用户的意图,拆解并执行任务。这种方式进一步简化了数据分析过程,使用户能够更直观、更自然地与数据交互。

  • AI时代的对话式分析

在AI时代,尤其是得到AIGC 加持的对话式分析,用户可以通过自然的对话来与数据交互,为用户提供了全新的端到端的交互体验。


4、缘何连续5年入选Gartner报告?

今年,Quick BI连续五年入选Gartner®分析和商业智能平台魔力象限,成功巩固在数据分析领域中的挑战者地位,也是唯一一款入选象限的国产BI。


Gartner指出Quick BI具备三大竞争力,首先是灵活,阿里云拥有广泛的销售渠道和灵活的定价方式,Quick BI可以同时在阿里云、淘宝应用市场和钉钉应用市场上售卖,通过提供可定制的功能包和定价模型来适应不同企业的需求,定价模式具备竞争力;第二是可集成,指的是Quick BI与阿里云整个产品系统可组合分析的集成关系,Quick BI既可以作为一个独立的工具提供,同时也是瓴羊大产品组合的其中一部分;第三是客户成功,阿里云瓴羊通过系统的培训来提升用户技能,并且颁发证书,推动客户成功。


回到产品本身,Quick BI可以提供分析协同消费的数据可视化分析整体解决方案,具有以下四大特色优势:


  • 智能数据分析是实现数据价值挖掘,支持数据驱动的关键,Quick BI自然语言对话式的操作让智能分析的门槛触手可及。其自研的BI领域大模型保障问数准确率在业界领先。

  • 安全Quick BI安全体系通过ISO的安全和隐私体系认证,包括权限、水印等六大安全管控能力都是业界领先的。

  • 快速自研可控的多模式加速引擎,能让10亿条数据查询秒级获取;同时能支撑云上百万并发稳定服务,可用性99.9999%

  • 开放Quick BI提供登录、嵌入、自定义、扩展等多种开放集成的能力,可按需接入各类复杂系统。


02

Quick BI在大模型与数据分析的融合探


一、Quick BI产品形态探索

在企业的数智化升级过程中,业务团队和数据团队难以融合贯通这个问题经常被提起:一方面,传统的固定式报表,难以满足企业快速增长的分析需求;另一方面,分析⼈员可能对业务术语不够熟悉,业务人员也难以精确表述他们的数据需求。


基于这些痛点,Quick BI在大模型时代做了如下探索:


  • 智能搭建 

这一功能通过一键生成报表、对话式图表创建以及智能美化等功能,极大地提升了报表的搭建效率。用户可以通过简单的操作或对话来快速构建和美化报表,节省了大量的时间和精力。


  • 智能问数

用户可以通过轻松、自然、随意的聊天方式与智能助手(如小Q)对话,获取想要看到的数据,并按照用户期望的形式展现。这种方式实现了数据集问题的即时回答,提高了数据的可访问性和分析的灵活性。


  • 智能洞察能力

帮助用户快速生成报表摘要,自动检测异常,并进行归因诊断,快速发现数据问题和原因。例如“分析去年签单金额下降的原因”,小Q就会自动分析产品类型、销售渠道、客户类型、大促活动等维度,找到影响签单金额下降的关键因素。


  • 实现层面的创新

在实现层面,基于成熟大模型的基座,结合对BI业务的独特理解,训练出针对BI领域的大模型,将这个大模型与产品的功能底座相结合,探索出一条BI和AI结合的最佳实践路径。这种结合不仅提升了BI工具的智能化水平,还为客户提供了更加高效、智能的数据分析解决方案。


二、智能小Q路线选择的思考


1、两条道路


在对智能小Q的技术产品演进路线选择时,最初面临两条截然不同的道路:


一条道路是基于Quick BI已有能力上的问述,即先有了BI,然后再融合迭代大模型的能力。


第二条道路似于早期开源DEMO项目,即先简单地对接通用的一个大模型,例如拿着拼接好的Prompt去调用GPT,生成特定的SQL,然后再把查询出的数据用开源图表组件做个简单展示。


虽然这种项目的门槛相对较低,演示效果也不错,但实际上很难被商用。这种方式有很多弊端,比如图表没有交互能力,也不具备任何权限管控和数据源管理等企业级能力。



因此,Quick BI选择了第一条路线——由于BI工具本身的基础非常考验行业长期积累,这种技术路线的天花板也会更高。目前,小Q就使用了大量的BI能力,比如可视化分析能力、成熟的图组件、高端计算能力、多端可消费能力等。此外,我们还依赖了文件的四大内核引擎,包括建模分析引擎、加速引擎、渲染引擎等。


2、智能小Q在产品上的优势


  • 快速响应用户提问;

  • 直观表达数据:如使用饼图展示分布,线图展示趋势;

  • 准确识别分析意图:例如时间识别、Top识别和不同力度的累计等;

  • 简化高级知识分析:例如通过内聚和排序预测趋势,而不是依赖低性能的嵌套方法。


三、智能搭建实践


智能搭建是用自然语言去辅助搭建报表,有以下几个功能:


  • 生成报表

根据选定的数据一键生成报表,提高搭建效率。用户可以在此基础上增补创建图表、修改图表类型或根据自己的想法调整代码内容。


  • 调整数据

用户可以通过输入文字指令来更改字段、名称、统计方式,对分析内容进行微调。


  • 辅助分析

该功能可以简化多步骤的高频操作。例如,通过简单的指令就能开启累计计算、添加条件格式辅助线等,许多操作都可以通过自然语言实现。


  • 样式美化

一键美化功能可以在极短时间内完成大量配置优化,提供惊艳的效果,使用户得到即时的视觉和使用体验提升。

四、智能问数实践


1、NL2SQL


智能问数功能通过自然语言交互直接获取数据结果,基于NL2SQL技术开发,它的主要特色包括:


  • 结果可交互:拥有强大的可视化展示能力,使数据分析结果更加直观;

  • 易理解的AI处理过程:用户可以看到AI是如何一步步处理数据的,增加了透明度和可信度;

  • 企业级功能:包括权限分析、主题嵌入、自有系统多端等,满足企业用户的需求;

  • 多场景支持:能够处理复杂的查询语句,适用于多种不同的使用场景。



2、关键步骤

智能问数的关键处理步骤包括:

1)意图识别:解析用户的查询意图;
2)数据实体提取和召回:根据原数据和部分数据特征对数据实体进行提取和召回;
3)模型改写:利用大数据模型对查询进行逻辑重写;
4)BI系统处理及数据源精确转换:执行BI系统对我们DSL的逻辑处理及数据源的精准转换和图表的动态渲染。


03

通用智能问数架构设计和实践


一、智能小Q产品技术架构


接下来介绍一下智能小Q的通用智能架构设计:


  • 整体技术架构:智能小Q的技术架构从上到下分为应用层、AI中间层、资源BI以及BI基座。这样的分层设计使得整个系统能够高效对接不同的业务需求,同时保持了技术的模块化和可维护性。


  • 领域模型与通用模型:在行业数据和系统逻辑表达上,领域模型与通用模型进行了结耦,提高了模型的通用性和复用性,使得模型能够在不同场景下更加灵活地应用。


  • 大模型工具链:内部实现了自动化微调和高效稳定的推理服务,将推理和对应的向量存储打包在一起,实现了算法服务的高效自闭环,提升了处理效率和稳定性。



  • AI中间层:位于上层应用和大模型之间,主要负责任务分发及协同工作,确保模型和BI系统的高效配合。AI中间层还提供了一套自定义的标准结构化语言DSL,为大模型定义了一套可掌握的API语言,通过构建DSL语言,完成了AI和算子操作的对接,使得围绕数据编写的大模型应用更加具备可确定性,避免了自然语言输入带来的应用表达不稳定问题,将BI领域大模型的应用编程变成了确定性的编程。


  • BI基座引擎:作为支撑小Q的重要组成部分,BI基座引擎保证了整个数据分析的强复用性,承载了从数据连接建模到复杂的高级计算和分析的能力,为数据分析提供了强大的底层支持。


  • 渲染引擎:负责整个图表的可视化展示以及交互式分析的相关能力,为用户提供了直观的数据展示和交互体验。


二、NL2SQL:更适合BI大模型的增强SQL语言


对于智能问数系统中NL2SQL流程的演进过程:


最初,系统定义了一个特定的查询语言,称为DSL(领域特定语言)。这个DSL用于描述不同的查询参数,由大模型直接学习并生成。


然后,通过一个中间层将抽象的DSL在原始数据和知识库中实例化,转换成Quick BI能够理解的实际查询参数。


最后,由Quick BI的引擎将这些参数转化为实际的物理SQL语句来执行数据提取。



然而,随着系统需要支持更多样化的用户意图,为DSL语义准备样本的成本逐渐增加。由于DSL是自定义的,通用模型如GPT并不包含这部分内容。同时,通用语言模型在将意图转换为简单的SQL方面已经积累了大量的经验。


因此,团队在单表查询的标准SQL基础上进行了扩展,增加了抽象函数和高级计算,形成了一种增强的SQL语言。通过这种方式,训练模型可以更好地理解和准确生成复杂的SQL语句。然后,通过自研的语法解析器将这些特定的增强SQL语言转换成DSL映射,即增强SQL和DSL之间可以稳定转换。这种方案既有效利用了通用模型的能力,又显著降低了训练样本的准备成本。

三、BI领域大模型实践


在BI领域模型中,主要由NL2API和NL2SQL两大核心部分组成。


  • NL2API负责将用户的自然语言转换为机器可读的API命令及其参数。


通过AI技术的应用,BI工具能够识别用户的意图并生成相应的API指令,以此调用现有的功能执行特定任务。这一过程涉及到持续的学习和调整,以便模型能够更准确地解释用户的输入并生成正确的指令。对大模型来说,学习如何将自然语言转换为API调用类似于学习一套新的语言,这对产品的持续改进而言是一个不断进化的过程,要求不停地扩展智能助理的功能范围并提升其执行任务的质量。


  • NL2SQL专注于处理和解释与数据库查询相关的自然语言。


这一部分的提升意味着大模型在推理和查询生成方面的能力远超传统模型。通过利用企业级知识库和实际的问答数据,结合专门的工程技术,模型能够不断学习并优化其查询解析能力。训练数据的高质量以及真实应用场景的使用,确保了模型在实际应用中的效果。在SQL语句的生成过程中,采用了自定义的DSL以涵盖复杂的查询场景。此外,引入反问、多轮对话和问题修正等机制,确保了模型能够更加精确地处理用户的查询,从而将其从理论演示转变为实际生产中的实用工具。




结束语:

在这场技术革命的浪潮中,数据分析通过与大模型的深度融合,实现了生成式AI的智能化变革。我们可以看到,传统的数据分析方式正在逐步被更加灵活、高效的智能BI所取代,尤其是自然语言处理技术的应用,使得数据的获取和分析变得更加直观、简便。

👇 点击【阅读原文开启免费试用

继续滑动看下一个
DataFunTalk
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存