1. 서론
- 한국어에 특화된 테이블 질의응답 과제(Korean-specific Table question answering task)를 위한 KO-TaBERT를 제안
- KO-TaBERT는 표의 구조를 변화시킴으로써 구조화된 표 데이터와 텍스트 데이터를 조화하여 학습시키는 BERT 기반의 새로운 접근법
- 이를 위하여 2개의 데이터 셋을 구축함
1) 위키피디아 문서로부터 추출한 표 데이터 1,400,000개(1.4M)
2) 크라우드소싱 방식으로 구축된 난이도가 다른 70,000개(70K)의 질의응답 쌍
3. Korean Table Question Answering Dataset
3.1 Tabular Dataset for Pre-training
- T : 위키피디아 문서로부터 추출한 표 데이터 1,400,000개(1.4M)
- D : 위키피디아 문서 내 설명문(description). ex) 테이블 설명문, 문서 제목, 문서의 첫번째 문단, 테이블 캡션, 소제목 등
- 사전 학습을 위한 input sequences 생성함
- 모든 표는 행과 열로 이루어진 2차원이 구조이므로, 열(Tc)과 행(Tr) 형태의 sentence string으로 변경함
3.2 Crowdsouring for Table Question Answering Corpus
- 크라우드소싱 방식으로 구축된 난이도가 다른 70,000개(70K)의 질의응답 쌍
- 행이 5개 초과 15개 미만이며, 열이 10개 미만인 표 20,000개(20K)를 선정함 -> 테이블로부터 변경된 sentence string의 길이가 최대 512 token을 초과하지 않게 하기 위하여
- 질문과 대답은 5개의 난이도(Part et al., 2020)로 구성함
Korea table question-answering Dataset
- C : 2차원 구조의 Table Context
- Q : 자연어 질문
- A : 질의에 대한 대답
- U : 관련있는 URL..?
- T : 테이블이 포함된 위키문서의 제목
- JSON 형태로 제공
4. Modeling of Table Question Answering
4.1 Pre-training Language Model
- 사전 학습을 위하여 Transformer(Vaswani et al., 2017) 접근법을 사용하고, 오리지널 BERT 구조를 따름(Devlin et al., 2018)
- BERT base 모델을 적용였고 Masked language model 학습을 위하여 테이블 셀과 텍스트 부분을 15%정도 마스킹하였으나, next sentence prediction objective는 사용되지 않았음
- 119,547개의 Korean 워드피스를 신규로 구축함
- 신규 토큰 [CLS], [SEP]을 사용하였으며, [CLS] descriptin text [SEP] tabular data converted to string sequence [SEP] 구조로 사용됨
4.2 Fine-tuning Model
- Fine-tuuning을 위하여 2가지 유형의 데이터셋을 사용함 : 3.2에서 설명한 데이터와 KorQuAD 2.0에서 선정된 테이블과 관련있는 질의응답 2,000쌍(2K)
- 각각 데이터의 80%는 학습에 사용하였으며, 20%는 평가에 활용함
4.3 Evaluation and Results
- EM : Exact Match. 예측된 답변의 모든 글자가 정답과 완전히 같을 때. 82.2%
- F1 : F1-score. 예측된 답변과 정답이 겹친 token을 계산함. 86.5%
- 본 연구 모델은 KorQuAD 2.0보다 크라우드소싱 데이터에서 보다 좋은 성적을 냈음
- 질문 난이도가 올라갈 수록 성능은 낮아짐
- 추가 실험 : 표의 헤더가 2개의 행인 경우 각각을 매핑하여 sentence string을 다시 구성함. sentence string의 길이는 사전학습을 위해서 250~300개의 token으로 구성함. 이때 성능이 조금 더 좋아짐.
참고문헌
- Park, C., Kim, M., Park, S., Lim, S., Lee, J., and Lee, C. (2020). Korean tableqa: Structured data question answering based on span prediction style with s3- net. ETRI Journal, 42(6):899–911.
- Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., and Polosukhin, I. (2017). Attention is all you need. In Advances in neural information processing systems, pages 5998– 6008.
- Devlin, J., Chang, M.-W., Lee, K., and Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.