大规模表格预训练模型 SPACE-T

2023-04-18 18:29:32 来源: DataFunTalk

导读 本文将介绍达摩院在大规模表格预训练模型 SPACE-T 上的实践。

分享内容主要包括五部分:

1. 表格问答的背景及技术趋势


(资料图片仅供参考)

2. 大规模表格预训练模型 SPACE-T

3. SPACE-T @ ModelScope

4. SPACE @ ModelScope

5. 总结和展望

分享嘉宾|黎槟华 阿里巴巴 算法专家

编辑整理|张少华 信雅达科技

出品社区|DataFun

01

表格问答的背景及技术趋势

TableQA 和 Text2SQL 等相关模型技术,近些年在学术界受到了很大的关注。为什么要关注表格问答或者 Text2SQL 这样的内容?其实这有一个相关的背景,在具体的落地业务里面,企业在做智能化过程中会面临一个问题,对于企业里面的相关知识文档以及数据,以各种形态进行存放,比如表格等,这样逐步构成了企业数据库和数据中台,从而衍生出 OA 等企业信息化系统。但是如何从这些大规模的数据中得到一些企业的决策信息或者达到降本增效的功能,这时候需要做各种知识图谱、对话相关的智能系统,如:智能对话、智能 BI 分析。

各行业企业花费了大量资源搭建了企业的数据中台,支撑了企业信息化系统。但是仍需要花费大量精力重头梳理相关业务知识(知识图谱流程、问答、对话等),才能构建起企业智能化系统。这样就面临一个挑战:能否利用企业数据中台直接构建智能化系统?

对于企业来说,常见的一些文档表格、网页表格以及关系型数据库都是二维的表信息。如果能够直接利用这些数据进行智能化系统构建,可以大幅度降低相关的成本。

表格问答技术(TableQA) 利用模型将自然语言转换为 SQL 查询语言,允许用户使用自然语言与表格知识直接交互并返回直观、流畅、忠实的结果。用户通过语音或者文本进行提问,通过自然语言的理解最终形成相关的 SQL 语句,通过对话管理做状态追踪和策略优化,然后去查询相关的知识库及 API,根据得到的内容通过自然语言生成问题答案。上述的这个流程就是表格问答的核心链路。

表格问答常见的应用示例就是智能客服的对话,也是我们日常生活中会经常接触到的一个案例。

Text-to-SQL 的目的是将一个自然语言问题转换为相应的可执行结构语句(SQL),也是近几年一个热度持续升高的技术,并且榜单的争夺也非常激烈。技术发展也由最初的单表单轮发展到现在的 表格预训练模式。

学术模型落地到实际应用场景会有一些鸿沟,下面罗列了部分示例来说明各个场景的数据特点以及他们要实现的业务诉求。

概括来说,实现表格对话落地面临的主要问题有四点: 效果、成本、效率、语言。

以上内容主要介绍了表格对话的一些相关技术背景以及落地技术难点等,接下来我们介绍大规模表格预训练模型 SPACE-T,通过这个模型来解答上面落地的一些问题。

--

02

大规模表格预训练模型 SPACE-T

要实现大规模表格预训练模型,需要至少两方面的要求,首先需要有大规模的数据,其次要有预训练相关的技术才能支撑我们去得到大模型预训练模型。之后,我们可以使用模型强大的泛化能力来解决模型效果问题,如鲁棒问题、效果问题、领域迁移问题等,这样才能在实际业务中落地应用。

首先对于数据,阿里云对全行业进行了 17 个类别划分,收集了亿级表格。这为我们进行模型的预训练提供了丰富的多行业数据,并且数据质量非常高,这样训练出来的表现效果相应也会很好。

对于模型部分,有两个挑战, 第一就是标注的数据成本高,第二是业务场景表格知识独立。 如果按照之前的训练模型,那么这个模型只能应用于某个领域。能否让模型学会使用表格的知识,而非将表格的知识记忆在模型的参数里,即将问题及表格的 Schema 相关的数据输入到模型,将表格内容和问题做一些关联,借助表格内容理解问题在问什么,这样的结果是学会了一种如何使用表格信息的能力,非单一训练数据应对的能力。这样可以通过丰富的问题和表格形态使得模型有了非常好的开箱即用能力。因而在面对一个新的业务时候,对于从未见过的表格数据,模型可以理解表格和数据之间的关系,得到具体的 SQL。

综上来说, SPACE-T 通过 Linking Loss 和 Schema Loss 学会如何理解将表格内容和问题,如何将这两者映射输出 SQL。 这样在实际中就可以解决上述模型遇到的两个问题。

达摩院 TableQA 不光在预训练模型上做了很多工作,同时对于下游模型做了很多探索,并达到了领先。

SPACE-T 落地到阿里云智能客服后, 做了很多领域的应用,如金融、政务、零售等。

阿里云智能客服的表格问答引擎 大幅度降低了运营成本,通过将相关的表格数据转换,再上传绑定到通用模型上,一分钟就可以构建问答,不需要标注训练数据,一键训练易上手。

阿里云智能客服的表格问答引擎的 能力范围从类型和支持的问法都比较广泛。

前面主要讲了 SPACE-T 模型本身的内容以及相关的落地能力。接下来主要讲 SPACE 家族。

--

03

SPACE-T @ ModelScope

首先可以通过社区直接搜索 SPACE-T 或者 SQL 找到预训练模型。

同时可以在线体验 SPACE-T 的能力。在线体验内置了多个领域表格样例,用户可以直接点击更换体验,开发者也可以用代码加载自己的体验。另外 SPACE-T 在线体验内置了内存数据库,用户的问题转换为 SQL,可以返回 SQL 执行结果,开发者也可以通过代码对接自己的数据库。SPACE-T 输出结构化的语句信息,用户可以根据需求转换为可读的 SQL、可执行 SQL 等。

下图从体验、开发到定制来阐述了如何使用 SPACE-T。体验可以在社区站点直达模型,同时提供在线开发环境对 SPACE-T 等模型进行相关开发,最后模型开放了好多接口以满足定制化要求。

--

04

SPACE @ ModelScope

SPACE-T 是 SPACE 家族中的一员,SPACE-T 主要提供大规模表格预训练模型,还有其他如对话、文档模型等,一起来赋能企业智能化相关内容。

以下以对话模型为例进行介绍。提出利用半监督预训练,充分结合有标和无标对话数据进行训练。

有监督就是采用有监督的数据进行大规模训练,实际情况中,有标注的数据量其实有限,更多的是采用无监督的方式,通过大规模的无监督数据去做训练,中间过程也包含半监督,高质量的有监督数据和大量的无监督数据以及目标明确的训练,通过 Transfer Learing 得到的结果就是目前的 SPACE 对话模型的核心过程。

对话模型已经发展了一段时间。半监督预训练,向预训练对话模型中注入人类标注知识打造 SPACE 系列模型,并在 11 个不同国际对话数据集取得 SOTA。

SPACE-3 已经登陆 Modelscope 社区。目前已经开放了 4 种模型包括: 对话生成模型、对话意图识别、预训练对话模型、对话状态追踪等。

在 SPACE 的 Readme 里有了相关的代码,直接复制代码到环境中即可一键运行脚本,并复现最新的 SOTA 效果。

--

05

总结和展望

(1)表格是各行各业应用 最普遍的结构化知识形态, 利用表格作为知识直接构建智能化系统,能 大幅降低构建成本;

(2)SPACE-T 由 亿级 表格数据预训练构建,具备良好的 开箱即用 能力,在 ModelScope、阿里云智能客服等多个产品中输出,支撑了多领域的客户;

3)在 ModelScope 上能够直接获取 SPACE-T 中文/英文的模型,可以 直接在线体验 ,也可以通过 Notebook、 git clone 到本地等方式进行 开发和定制 ,构建自己应用;

4)SPACE-T 是 SPACE 模型家族的⼀员, ModelScope 上也可以获取到 SPACE 模型家族的多个 对话模型 ,构建自己的对话应用;

5)SPACE-T 模型仍在继续迭代中,后续会持续完善模型效果、增加模型能力,敬请期待!

今天的分享就到这里,谢谢大家。

▌2023数据智能创新与实践大会

4大体系,专业解构数据智能 16个主题论坛,覆盖当下热点与趋势 70+演讲,兼具创新与最佳实践 1000+专业观众,内行人的技术盛会

第四届DataFunCon数据智能创新与实践大会将于⏰ 7月21-22日 在北京召开,会议主题为新基建·新征程,聚焦数据智能四大体系: 数据架构 数据效能 算法创新 智能应用 。在这里, 你将 领略到数据智能技术实践最前沿的景观

欢迎大家 点击下方链接 获取大会门票~

关键词:

精选 导读

北京市商务局:推进奥运场馆向社会开放 积极申办国际冰雪赛

4月18日,北京市商务局印发《加快恢复和扩大消费持续发力北京国际消费中心城市建设2023年行动方案》。具体包括,激发潮流体育消费新活力,打造

发布时间: 2023-04-18 18:07
要闻   2023-04-18

[浦东]吴迅中学:项目化学习进课堂 课后服务拓视野——“中

课程背景当前环境恶化、气候变化、生物危机等自然问题频发,随着全球化进程的加快,似乎有一种无法忽视全球力量让我们正视可持续发展的目标。

发布时间: 2023-04-18 18:00
要闻   2023-04-18

天天快看:汉威科技:我司气体传感器种类齐全,应用范围广,

同花顺金融研究中心4月18日讯,有投资者向汉威科技提问,董秘你好,3月14日,由中科院空天信息创新研究院(空天院)牵头的“碳排放监测数据质

发布时间: 2023-04-18 17:20
要闻   2023-04-18

白酒概念板块跌0.09% 来伊份涨2.67%居首

白酒概念板块跌0 09%来伊份涨2 67%居首

发布时间: 2023-04-18 17:22
要闻   2023-04-18

今头条!保变电气(600550)3月31日股东户数9.26万户,较上期

近日保变电气披露,截至2023年3月31日公司股东户数为9 26万户,较12月31日减少1668 0户,减幅为1 77%。户均持股数量由上期的1 95万股增加至1 9

发布时间: 2023-04-18 16:47
要闻   2023-04-18

热点 推荐

大规模表格预训练模型 SPACE-T

导读本文将介绍达摩院在大规模表格预训练模型SPACE-T上的实践。分享内容主要包括五部分:1 表格问答的背景及技术趋势2 大规模表格预训练模型SP

发布时间: 2023-04-18 18:29
IT   2023-04-18

【环球时快讯】补贴政策不公开?弄清楚了!在泰安买房最高补

补贴政策不公开?弄清楚了!在泰安买房最高补贴10万,快截止了,楼市,购房,售楼处,泰山区,泰安市,补贴政策

发布时间: 2023-04-18 18:03
国内   2023-04-18

北京市商务局:推进奥运场馆向社会开放 积极申办国际冰雪赛

4月18日,北京市商务局印发《加快恢复和扩大消费持续发力北京国际消费中心城市建设2023年行动方案》。具体包括,激发潮流体育消费新活力,打造

发布时间: 2023-04-18 18:07
要闻   2023-04-18

环球信息:华发实业5.1亿元中期票据将付息 利率4.65%

观点网讯。4月17日,珠海华发实业股份有限公司发布了2021年度第一期中期票据2023年付息公告。据观点新媒体获悉,本期债券简称“21华发实业MTN0

发布时间: 2023-04-18 18:18
科技   2023-04-18

资本圆桌快讯 | 贺国良:代建不会成为地产公司的主赛道

2023观点资本圆桌?现场快讯。在“不良资产处置重构”圆桌讨论会中,北京金诚同达(上海)律师事务所贺国良表示,“重的越重,轻的越轻”。而大

发布时间: 2023-04-18 18:26
IT   2023-04-18

天天快讯:萌宠健康“守护者”:守护主人与爱宠的“别样”陪

萌宠健康“守护者”:守护主人与爱宠的“别样”陪伴中新网湖州4月18日电(施紫楠陆一平)今年36岁的靳存宝是一名宠物医生,从事宠物医疗工作已有

发布时间: 2023-04-18 17:54
国内   2023-04-18

[浦东]吴迅中学:项目化学习进课堂 课后服务拓视野——“中

课程背景当前环境恶化、气候变化、生物危机等自然问题频发,随着全球化进程的加快,似乎有一种无法忽视全球力量让我们正视可持续发展的目标。

发布时间: 2023-04-18 18:00
要闻   2023-04-18

普陀区人社局召开12345市民服务热线工作推进会

4月17日上午,区人社局召开12345市民服务热线工作推进会。会议通报了区人社局12345市民服务热线的办理及测评情况,局执法大队、人才中心作交流

发布时间: 2023-04-18 17:51
科技   2023-04-18

对“缺斤少两”说不!桃浦市场监管所开展计量强制检定进市场

检定现场,检定人员对经营户用于贸易结算的计量器具逐一进行核对、检定、记录并对合格的计量器具加贴强检合格标识。对于少数性能状态异常的电

发布时间: 2023-04-18 17:42
IT   2023-04-18

用友金融行业人力资源数智化转型方案深度解读

科技金融智慧转型 数字赋能整个金融行业的数字化转型有非常浓厚的时代背景和政策加持。在十四五规划的指导下,金融行业的数字化有明确的方

发布时间: 2023-04-18 17:59
财经   2023-04-18

视点!科技创新+内容纵深 易车联合腾讯视频登陆上海车展

4月18日,2023第二十届上海国际汽车工业展览会(以下简称:2023上海车展)于国家会展中心(上海)正式拉开帷幕。作为今年全球首场A级车展,2023

发布时间: 2023-04-18 17:49
国内   2023-04-18

天天快看:汉威科技:我司气体传感器种类齐全,应用范围广,

同花顺金融研究中心4月18日讯,有投资者向汉威科技提问,董秘你好,3月14日,由中科院空天信息创新研究院(空天院)牵头的“碳排放监测数据质

发布时间: 2023-04-18 17:20
要闻   2023-04-18

赤峰黄金:公司第一期员工持股计划锁定期已满,盘庚价值二号

同花顺金融研究中心4月18日讯,有投资者向赤峰黄金提问,您好,公司第一期员工持股计划产品盘庚价值二号在2022年年报中退出了前十大股东行列,

发布时间: 2023-04-18 17:25
科技   2023-04-18

视讯!东方电缆:目前陆缆、海缆产品的增值税率为13%,工程

同花顺金融研究中心4月18日讯,有投资者向东方电缆提问,您好,请问贵公司的在手订单金额的含税税率是多少,谢谢!  公司回答表示,感谢您对

发布时间: 2023-04-18 17:27
IT   2023-04-18

最新资讯:多主力现身龙虎榜,西藏天路跌停(04-18)

上交所2023年4月18日交易公开信息显示,西藏天路因属于当日跌幅偏离值达7%的证券而登上龙虎榜。

发布时间: 2023-04-18 17:23
国内   2023-04-18

白酒概念板块跌0.09% 来伊份涨2.67%居首

白酒概念板块跌0 09%来伊份涨2 67%居首

发布时间: 2023-04-18 17:22
要闻   2023-04-18

世界资讯:V观财报|歌尔股份2022年净利大降近六成!四季度

V观财报|歌尔股份2022年净利大降近六成!四季度亏损超20亿

发布时间: 2023-04-18 17:24
科技   2023-04-18

世界快播:V观财报|云从科技2022年营收骤降51%,亏损扩大至

V观财报|云从科技2022年营收骤降51%,亏损扩大至8 69亿

发布时间: 2023-04-18 17:12
IT   2023-04-18

【天天新视野】全新探歌上市 售价15.89万-17.99万

2023年4月18日,定位于潮流驾趣SUV的全新探歌在上海车展燃情上市,售价区间为15 89万-17 99万元。新车提供1 4T和全新1 5T两种动力,包括280TSI

发布时间: 2023-04-18 17:10
汽车   2023-04-18

“7”待已久 旗舰驾临 —— 一汽-大众ID.7 VIZZION全球首发

4月17日,大众ID 之夜在上海盛大启幕,现场数百位嘉宾和线上参与者共同见证了ID 家族又一里程碑时刻——ID 7VIZZION全球首发亮相。作为大众品

发布时间: 2023-04-18 17:07
汽车   2023-04-18