论文阅读:Dual Reader-Parser on Hybrid Textual and Tabular Evidence for Open Domain Question Answering
論文閱讀:Dual Reader-Parser on Hybrid Textual and Tabular Evidence for Open Domain Question Answering
來源:ACL 2021
下載地址:https://arxiv.org/pdf/2108.02866.pdf
本文主要貢獻:
- 我們提出了一個多模式框架,該框架將混合知識源與用于 ODQA 任務的 Text2SQL 能力相結合。 這是在 ODQA 設置中研究 Text2SQL 的第一項工作。
- 我們提出了一種生成方法,該方法同時采用文本和表格證據并生成直接答案或 SQL 查詢,由上下文自動確定。
- 實驗表明,可解釋的 SQL 生成可以有效地回答需要在 ODQA 設置中進行復雜推理的問題。
Abstract
1、以前研究存在問題:當前最先進的開放域問答(ODQA)生成模型專注于從非結構化文本信息中生成直接答案。 然而,大量世界知識存儲在結構化數據庫中,需要使用 SQL 等查詢語言進行訪問。查詢語言可以回答需要復雜推理的問題,并提供完整的可解釋性。
2、本文主要工作:在本文中,我們提出了一個混合框架,該框架將文本和表格證據作為輸入,并根據哪種形式可以更好地回答問題來生成直接答案或 SQL 查詢。 然后可以在關聯的數據庫上執行生成的 SQL 查詢以獲得最終答案。這是第一篇將 Text2SQL 應用于 ODQA 任務的論文。 根據經驗,我們證明了在幾個 ODQA 數據集上,混合方法始終優于只采用同質輸入的baseline模型。在詳細的分析中,證明了能夠生成結構化 SQL 查詢總能帶來收益,尤其是對于那些需要復雜推理的問題。
Introduction
定義:開放域問答 (ODQA) 是一項在沒有預先指定域的情況下回答事實性問題的任務。
以前的模型:生成模型取得了先進的性能,但是這些方法都有一個共同的途徑,首先從維基百科的自由格式文本中檢索證據。
問題:然而,大量的世界知識不是以純文本形式存儲,而是存儲在結構化數據庫中,需要使用 SQL 等查詢語言進行訪問。
理想的 ODQA 模型應該能夠從非結構化文本和結構化表格信息源中檢索證據,因為數據庫中的表格證據可以更好地回答某些問題。
本文工作:在本文中,我們提出了一個雙閱讀器解析器 (DUREPA) 框架,該框架可以將文本和表格數據作為輸入,并根據上下文生成直接答案或 SQL 查詢。總體而言,我們的框架由三個階段組成:檢索、聯合排序和雙重閱讀解析。
具體流程:首先,我們檢索文本和表格類型的支持候選,然后是一個聯合重新排序器,預測每個支持候選與問題的相關性,最后我們為我們的 reader-parser 使用解碼器融合模型(Izacard And Grave,2020),除了問題之外,它還需要所有重新排序的候選人來生成直接答案或 SQL 查詢。
Method
混合開放域問答方法主要由三個部分組成:(1)檢索系統; (2) 聯合重排序器和 (3) 雙 Seq2Seq 模型,該模型使用 fusion-in-decoder (Izacard and Grave, 2020) 生成直接答案或 SQL 查詢。
Retrieval
對于混合開放域設置,我們構建了兩個獨立的搜索索引——一個用于文本輸入,另一個用于表格輸入。 對于段落,我們將它們分成最多 100 個單詞的段落。 對于表格,我們通過連接每行的單元格值將每個表格展平為段落。 如果扁平表超過 100 個單詞,我們將其拆分為單獨的段落,尊重行邊界。 列標題連接到每個表格段落。
給定一個自然語言問題,檢索系統使用 BM25 (Robertson et al., 1995) 排序函數分別從文本和表格索引中檢索 100 個文本和 100 個表格段落作為支持候選。
圖 1:混合模型的流程。 候選者是從知識源中檢索出來的,例如維基百科,包括段落和表格。 然后生成的 Seq2Seq 模型讀取問題和所有候選者,并使用波束搜索生成 k 個輸出。 每個輸出可以是最終答案或中間 SQL 查詢。 輸出的類型和順序由模型本身自動確定。
Joint Reranking
重新排序模型的目的是產生一個分數 si 來衡量候選人(非結構化段落或表格)與問題的相關程度。具體來說,reranker 輸入是問題、檢索到的候選內容及其對應的標題的串聯,由圖 1 中所示的特殊標記分隔。候選內容可以是非結構化文本或扁平表格。 我們在本文中使用 BERTbase 模型。我們使用以下損失微調 BERT模型:
Ipos 是從所有相關的 BM25 候選中采樣的,而 Ineg 集合是從所有非相關的 BM25 候選中采樣的。在訓練過程中,對于每個問題,我們對 64 個候選者進行抽樣,其中包括 1 個正候選和 63 個負候選,即 |Ipos| = 1 和 |Ineg| = 63。如果 200 個候選人都不相關,我們跳過這個問題。在推理過程中,我們使用混合重排序器為 200 個候選者中的每一個分配一個分數,并選擇前 50 個候選者作為下一個模塊的輸入——閱讀器-解析器模型。對于前 50 名候選人,我們根據 reranker 分配的分數從所有候選人的聯合池中選擇他們。
Dual Reading-Parsing
初始化:雙讀取器-解析器模型基于 Izacard 和 Grave (2020) 中提出的融合解碼器 (FID),并使用預訓練的 T5 (Raffel et al., 2020) 模型進行初始化。
閱讀器-解析器的整體流程如圖 1 所示。每個檢索到的候選都由其標題和內容表示,格式如下:
Textual Candidate
我們將每個文本候選表示為段落標題和內容的連接,分別附加特殊標記 [text title] 和 [text content]。
Tabular Candidate
為了將結構化表格表示為段落,我們首先將每個表格展平為以下格式:每個展平表格以完整的標題名稱開頭,然后是行。最后,表格候選是表標題和內容的連接,被扁平化為一個段落,分別附加特殊標記 [table title] 和 [table content]。 我們使用表 ID 作為標題,以便模型可以將其復制到生成的 SQL 查詢中。
Prefix of the Target
在訓練期間,我們還根據它是純文本還是 SQL 查詢,將特殊標記 answer: 或 sql: 添加到目標句子中。 對于同時具有文本答案和 SQL 查詢注釋的問題,我們為每個問題創建兩個訓練示例。 在推理過程中,生成的輸出也會包含這兩個特殊的前綴,表示模型生成了哪種輸出類型。
Dual Reader-Parser
我們的生成 Seq2Seq 模型具有讀取器-解析器對偶性。 在推理過程中,模型讀取問題和所有候選,并使用波束搜索產生 k 個輸出。 每個輸出可以是最終答案或中間 SQL 查詢。 根據上下文,輸出的類型和順序由模型本身自動確定。 然后將執行所有生成的 SQL 查詢以生成最終答案。 在本文中,我們固定 k = 3,并且總是為每個問題生成三個輸出。
Experiments
Datasets
略
Implementation Details
Retriever and Reranker
我們使用默認設置的 Elasticsearch 7.7 進行 BM25 檢索。 使用了一個用預訓練的 BERT-base-uncased 模型初始化的 BERT reranker。
Dual Reader and Parser with fusion-in-decoder
我們使用預訓練的 T5 模型 (Raffel et al., 2020) 初始化融合解碼器。 我們在本文中只探索 T5-base 模型,它有 220M 的參數。
對于 reranker 和 FiD 模型,我們使用 Adam 優化器 (Kingma and Ba, 2014),最大學習率為 10^-4,dropout 率為 10%。學習率線性升溫到 10^-4,然后線性退火到零。
我們為 10k 梯度步長訓練模型,批量大小為 32,并每 1k 步保存一個檢查點。 對于 FiD 模型,當一個問題有多個答案時,我們從列表中隨機抽取一個答案。 對于 FiD 模型,在推理過程中,我們使用光束大小為 3 的光束搜索為每個問題生成 3 個答案。
Main Results
我們將開放域 QA 任務的端到端結果與基線方法進行比較,如表 2 所示。
我們根據源證據模態以及模型預測的格式構建具有 5 種不同設置的模型。 具體來說,我們考慮僅具有文本證據或表格證據的單一模態設置以及具有文本和表格證據的混合設置。 對于表格證據,模型要么預測直接答案文本,要么生成結構化 SQL 查詢。 請注意,我們還考慮了一個基線模型 FID+,這是一個僅生成直接答案文本但可以同時使用文本和表格證據的 FiD 模型。
表 2:與最先進的開放域 QA 數據集的比較。FiD(T5-base & T5-large) 來自 (Izacard and Grave, 2020),IR+CR (Iterative Retrieval+Cross-block Reader) 和 FR+CR (Fusion Retrieval+Cross-block Reader) 來自 (Chen 等人,2020a),統一模型來自(Oguz 等人,2020)。 將 DUREPA 與 FID+ 進行比較,我們觀察到,即使對于像 SQuAD 和 NQ 這樣具有大部分提取性答案的問題,能夠生成結構查詢也總是有益的。
Analysis
Retrieveal and Reeanking Performance
我們使用 top-k 召回作為我們的評估指標來研究 BM25 檢索器和 BERT reranker 的性能。
在訓練和推理過程中,對于每個問題,文本和表格段落都使用單個重新排序器聯合重新排序。 在 Mix-SQuWiki 數據集上,我們在表 3 中報告了 SQuAD 問題的重新排序結果。為了更好地了解 reranker 的性能,我們分別展示了文本、表格和混合證據的 top-k 召回。
表 3:召回 SQuAD 問題的前 k 個文本、表格或混合候選。 混合輸入的召回率幾乎與單個文本或表格輸入的最佳召回率相同甚至更好,這意味著重新排序器能夠對兩種類型的候選者進行聯合排名,并為下一個組件——閱讀器-解析器提供更好的證據。
Performance of the Reader-Parser
討論雙閱讀器-解析器在不同類型問題上的性能。
SQL prediction helps with complex reasoning
在表 4 中,我們比較了 DUREPA 和 FID+ 在 OpenWikiSQL 上的 top-1 EM 執行精度。 如果 DUREPA 生成了一條 SQL,我們執行該 SQL 以獲得它的答案預測。 如果真實答案是一個列表(例如,2008 年播出的辛普森一家劇集的名稱是什么?),我們使用集合等價來評估準確性。
在大多數設置中,DUREPA 在測試集上的表現都優于 FID+。 我們還根據真實 SQL 查詢在不同類別的細分下比較它們的性能。
表 4:DUREPA 和 FID+ 在 OpenWikiSQL 數據集上的比較。 我們根據真實 SQL 查詢在不同類別的細分下比較它們的準確性。 “Direct answers”代表 DUREPA 預測直接答案的問題。DUREPA 在需要復雜推理(例如最高級和計算)的問題上表現出色。
Using hybrid evidence types leads to better performance
表 5 中顯示了模型在 Mix-SQuWiki 問題上的表現。
表 5:各種設置下 Mix-SQuWiki 數據集的詳細結果。
What if the questions can be answered by both textual and tabular evidences?
表 6 顯示了模型在 WikiSQL-both 數據集上的性能。回想一下,數據集中的所有這些問題都可以通過兩種類型的證據來回答。 首先,使用表格證據的 DUREPA 模型比使用文本證據的 FID+ 模型表現得更好。這意味著在 WikiSQL 問題上,使用表格信息可以獲得更好的答案。 接下來,當僅使用一種類型的證據時,DUREPA 和 FID+ 模型的表現都比它們的混合模型差得多。 這表明混合模型可以再次確定應該使用哪種證據類型來提供正確的最終答案。
表 6:WikiSQL 數據集上的模型性能。 這些模型是在 Mix-SQuWiki 訓練數據上訓練的。
表 7:模型 DUREPA 正確回答但模型 FID+ 錯誤回答的 SQuWiki 和 OpenWikiSQL 問題示例。
Discussion and Future Work
我們的實驗一致表明,提出的框架 DUREPA 在使用混合類型的證據回答問題方面帶來了顯著改進。 特別是在兩種支持證據類型都可以回答的問題上,我們的多模態方法仍然比使用單一類型知識的模型顯示出明顯的優勢,這意味著我們的方法可以找出最相關的證據來回答問題。 我們還證明了雙重reader-parser對于 DUREPA 的良好性能至關重要; 生成直接答案和結構化 SQL 查詢的能力幫助 DUREPA 在需要復雜推理(如計數或平均)的問題上表現得比 FID+ 和其他基線要好得多。
我們相信我們的方法可以在兩個方面進行改進。 首先,我們的總體框架圖 1 可以通過更好的檢索系統來改進。在混合證據上,還可以使用實體鏈接模塊來鏈接表格和段落之間的實體(Chen et al., 2020a),并利用結構信息進行更好的多跳推理。其次,正如我們已經證明的那樣,具有生成結構化 SQL 查詢的能力對于回答需要復雜推理的問題是一個非常強大且必要的功能。鑒于 Text2SQL 數據有限且難以獲得此類 SQL 監督,未來兩項有趣的工作包括(1)更有效地獲取 SQL 注釋和(2)采用離散 EM(Min 等人,2019)等弱監督方法進行模型訓練。
總結
以上是生活随笔為你收集整理的论文阅读:Dual Reader-Parser on Hybrid Textual and Tabular Evidence for Open Domain Question Answering的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【Python机器学习】决策树ID3算法
- 下一篇: tomcat自动重启