1. 서론

  • 한국어에 특화된 테이블 질의응답 과제(Korean-specific Table question answering task)를 위한 KO-TaBERT를 제안
  • KO-TaBERT는 표의 구조를 변화시킴으로써 구조화된 표 데이터와 텍스트 데이터를 조화하여 학습시키는 BERT 기반의 새로운 접근법
  • 이를 위하여 2개의 데이터 셋을 구축함

     1) 위키피디아 문서로부터 추출한 표 데이터 1,400,000개(1.4M)

     2) 크라우드소싱 방식으로 구축된 난이도가 다른 70,000개(70K)의 질의응답 쌍

 

3. Korean Table Question Answering Dataset

3.1 Tabular Dataset for Pre-training

  • T : 위키피디아 문서로부터 추출한 표 데이터 1,400,000개(1.4M)
  • D : 위키피디아 문서 내 설명문(description). ex) 테이블 설명문, 문서 제목, 문서의 첫번째 문단, 테이블 캡션, 소제목 등

 

  • 사전 학습을 위한 input sequences 생성함
  • 모든 표는 행과 열로 이루어진 2차원이 구조이므로, 열(Tc)과 행(Tr) 형태의 sentence string으로 변경함

3.2 Crowdsouring for Table Question Answering Corpus

  • 크라우드소싱 방식으로 구축된 난이도가 다른 70,000개(70K)의 질의응답 쌍
  • 행이 5개 초과 15개 미만이며, 열이 10개 미만인 표 20,000개(20K)를 선정함 -> 테이블로부터 변경된 sentence string의 길이가 최대 512 token을 초과하지 않게 하기 위하여
  • 질문과 대답은 5개의 난이도(Part et al., 2020)로 구성함

질문 구성 방법

Korea table question-answering Dataset

  • C : 2차원 구조의 Table Context
  • Q : 자연어 질문
  • A : 질의에 대한 대답
  • U : 관련있는 URL..?
  • T : 테이블이 포함된 위키문서의 제목
  • JSON 형태로 제공

 

4. Modeling of Table Question Answering

4.1 Pre-training Language Model

  • 사전 학습을 위하여 Transformer(Vaswani et al., 2017) 접근법을 사용하고, 오리지널 BERT 구조를 따름(Devlin et al., 2018)
  • BERT base 모델을 적용였고 Masked language model 학습을 위하여 테이블 셀과 텍스트 부분을 15%정도 마스킹하였으나, next sentence prediction objective는 사용되지 않았음 
  • 119,547개의 Korean 워드피스를 신규로 구축함
  • 신규 토큰 [CLS], [SEP]을 사용하였으며, [CLS] descriptin text  [SEP] tabular data converted to string sequence [SEP] 구조로 사용됨

 

4.2 Fine-tuning Model

  • Fine-tuuning을 위하여 2가지 유형의 데이터셋을 사용함 : 3.2에서 설명한 데이터와 KorQuAD 2.0에서 선정된 테이블과 관련있는 질의응답 2,000쌍(2K)
  • 각각 데이터의 80%는 학습에 사용하였으며, 20%는 평가에 활용함 

 

4.3 Evaluation and Results

  • EM : Exact Match. 예측된 답변의 모든 글자가 정답과 완전히 같을 때. 82.2%
  • F1 : F1-score. 예측된 답변과 정답이 겹친 token을 계산함. 86.5%
  • 본 연구 모델은 KorQuAD 2.0보다 크라우드소싱 데이터에서 보다 좋은 성적을 냈음

  • 질문 난이도가 올라갈 수록 성능은 낮아짐

 

  • 추가 실험 : 표의 헤더가 2개의 행인 경우 각각을 매핑하여 sentence string을 다시 구성함. sentence string의 길이는 사전학습을 위해서 250~300개의 token으로 구성함. 이때 성능이 조금 더 좋아짐.

 

 

참고문헌

  • Park, C., Kim, M., Park, S., Lim, S., Lee, J., and Lee, C. (2020). Korean tableqa: Structured data question answering based on span prediction style with s3- net. ETRI Journal, 42(6):899–911.
  • Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., and Polosukhin, I. (2017). Attention is all you need. In Advances in neural information processing systems, pages 5998– 6008.
  • Devlin, J., Chang, M.-W., Lee, K., and Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.

 

원문

https://doi.org/10.48550/arXiv.2201.06223

+ Recent posts