简介
转载于:Rethinking Tabular Data Understanding with Large Language Models阅读笔记。
本文聚焦于LLM在理解和推理表格数据方面的能力,研究人员从三个方面进行了探索:
- LLM对于表格结构变动的适应能力
- 文本推理(直接将表格内容塞进prompt直接推理)与符号推理(以生成代码的形式间接推理)两种方式在处理表格数据的差异性
- 如何整合这两种推理方式来提高整体的效果
主要的几点研究发现:
- 对于相同内容的表格,结构上的差异严重影响模型的表现。为此作者提出了一种表格结构规范化方法来消除这种差异。
- 在对文本推理和符号推理的效果比较中,文本推理的效果略微占优。更详细的分析表明,这两种推理方法在不同类型的任务中互有胜负。
- 提出mix self-consistency方式来结合文本推理和符号推理的结构,在WIKITABLEQUUESTION数据集上达到了73.6%的SOTA准确率。
1. 前言
近一年来,LLM在处理文本数据方面取得了显著的进展,然而在处理表格数据时仍然存在一些局限性。
- 解析表格数据的挑战:将非线性的表数据转换为线性文本串,可能损失其中的结构和关系信息;表格的设计差异,会增加解析的复杂性。
- 在进行一些数值推理和数据汇总时,同样会遇到各种各样的挑战。
为了探究LLM如何提高对表格数据的理解能力,文章提出了三个研究问题并一一探索:
- LLM如何感知表格结构,如何确保它们在面对结构变化时的鲁棒性?
- 文本推理和符号推理两种手段,哪个更有效,各自的优势和挑战是什么?
- 结合多种策略是否能够提高LLM理解表数据的准确性?
2. 背景知识
2.1 文本推理和符号推理
文本推理:指的是直接将表格的所有数据以一定形式组织,作为prompt的一部分与用户问题一起输入LLM,然后LLM直接推理得出答案。
符号推理:将表的结构描述以及部分样例数据输入prompt,指导LLM生成代码,执行代码之后得到答案。
2.2 表格结构扰动
原始的表格数据定义:
文中预设了几种表结构的扰动方式:
- 转置:交换表格数据的行列表示方式
- 打乱行顺序
- 转置+打乱行顺序
3. LLM如何感知表格结构,如何确保它们在面对结构变化时的鲁棒性?
一句话总结:采用合适的表结构规范化方法,可以确保它们在面对表结构变化时的鲁棒性。
3.1 扰动之后效果显著下降
从上表的结果可以看出,直接对扰动后的表进行推理时,无论是用文本推理的方法DP(Direct Prompting)还是使用符号推理的方法Python Agent,效果都会显著下降。其中对于转置的扰动,符号推理下降更厉害一点,多半是因为行列置换之后,无法生成可执行的正确代码。
3.2 LLM对于表结构转换的能力探究
3.2.1 转置和非转置表格的识别能力
对于转置和非转置表格的识别能力,直接将表格数据作为prompt的一部分,识别正常表格的准确率为93.35%,识别转置表格的准确率仅为32.54%。
3.2.2 对表格进行转置操作的能力
将表格数据输入prompt,让LLM生成它的转置形式,准确率仅在50%左右。
3.3 表格结构规范化
3.3.1 优化后的转置表格识别能力
前面的探究,仅将表格数据输入prompt,试图让LLM直接判断当前数据是否是转置过的,取得了不够满意的结果。此处做了一些改进,除了表格数据之外,将表格第一行的数据及第一列的数据也作为prompt,让LLM结合表格数据来判断究竟哪个数据适合作为列名,从而决定当前表格是转置的还是非转置的。
这样取得了非常好的效果,对于非转置表格的识别准确率达到97.39%,而对于转置表格的识别准确率也达到了94.77%。
3.3.2 行顺序重排
让LLM结合当前表的列名等信息,选择合适的排序标准对表格数据进行排序。
3.3.3 表格结构规范化的效果
加上表格规范化操作之后,使得扰动后的表格数据的分析效果能回到正常水平,相当于基本消除了表结构扰动的负面影响。
4. 文本推理和符号推理两种手段,哪个更有效,各自的优势和挑战是什么?
一句话总结:整体来看,文本推理方式略优于符号推理方式,但是符号推理的优势在于可以不用输入全部的数据就能取得不错的效果;此外,两种方式的最大挑战有所区别,文本推理方式受限于对表的错误解释,而符号推理方式受限于代码的错误编写。
4.1 实验结果
文本推理方式(下表中的NORM+DP,58.66%)略优于符号推理方式(下图中NORM+PYAGNET,56.87%)。但是符号推理的优势在于不需要输入全部的数据,只需要输入样例即可,当仅输入前三行和后三行的数据作为样例时,也能达到52.45%的准确率(下表中的NORM+PYAGNET-OMITTED)。
4.2 错误详情分析
这里对文本推理和符号推理两种方式出错的case进行了详细的分析,并列出了具体的错误类型的占比情况。
从下表可以看出,文本推理方法和符号推理方法的错误类型分布还是有所差异,文本推理方法主要受限于对表结构的错误解释导致问题答错(占比42%),而符号推理方式最常见的出错原因是编码错误(占比38%)。
5. 结合多种策略是否能够提高LLM理解表数据的准确性?
一句话总结:本文提出的mix self-consistency策略将符号推理和文本推理的结果融合,取得了SOTA的效果。
5.1 几种融合策略
- Self-Consistency
比较同一种方式的多次输出结果的一致性,相当于对多次输出结果进行投票。
- Self-Evaluation
用LLM对文本推理和符号推理的输出结果进行二选一,确定最终结果。
- Mix Self-Consistency
融合和self-consistency和self-evaluation的思想。文本推理和符号推理各输出5个结果,然后对这10个结果进行投票,确定最终结果。
5.2 实验结果
- self-consistency的策略对于文本推理和符号推理两种方式均有效。文本推理(58.66%->64.1%),符号推理(56.87%->63.77%)。
- self-evaluation效果(64.22%)优于文本推理和符号推理单独的效果。
- mix self-consistency达到更强的效果,将准确率提高到了72.4%。
5.3 进一步的验证
在WTQ数据集上对本文所提出的表格结构规范化方法和mix self-consistency策略融合方法的整体效果进行验证。如下表所示,本文提出的方法显著优于已有的其他方法。
补充材料
文本推理&符号推理的Prompt
文本推理:
符号推理:
参考资料
- Liu T, Wang F, Chen M. Rethinking Tabular Data Understanding with Large Language Models[J]. arXiv preprint arXiv:2312.16702, 2023.
- mix self-consistency代码