Changwook Jun et al(2022). Korean-Specific Dataset for Table Question Answering

반박사 2022. 2. 28. 10:51

2022. 2. 28. 10:51

1. 서론

한국어에 특화된 테이블 질의응답 과제(Korean-specific Table question answering task)를 위한 KO-TaBERT를 제안
KO-TaBERT는 표의 구조를 변화시킴으로써 구조화된 표 데이터와 텍스트 데이터를 조화하여 학습시키는 BERT 기반의 새로운 접근법
이를 위하여 2개의 데이터 셋을 구축함

1) 위키피디아 문서로부터 추출한 표 데이터 1,400,000개(1.4M)

2) 크라우드소싱 방식으로 구축된 난이도가 다른 70,000개(70K)의 질의응답 쌍

크라우드소싱 방식으로 구축된 난이도가 다른 70,000개(70K)의 질의응답 쌍
행이 5개 초과 15개 미만이며, 열이 10개 미만인 표 20,000개(20K)를 선정함 -> 테이블로부터 변경된 sentence string의 길이가 최대 512 token을 초과하지 않게 하기 위하여
질문과 대답은 5개의 난이도(Part et al., 2020)로 구성함

Korea table question-answering Dataset

사전 학습을 위하여 Transformer(Vaswani et al., 2017) 접근법을 사용하고, 오리지널 BERT 구조를 따름(Devlin et al., 2018)
BERT base 모델을 적용였고 Masked language model 학습을 위하여 테이블 셀과 텍스트 부분을 15%정도 마스킹하였으나, next sentence prediction objective는 사용되지 않았음
119,547개의 Korean 워드피스를 신규로 구축함
신규 토큰 [CLS], [SEP]을 사용하였으며, [CLS] descriptin text [SEP] tabular data converted to string sequence [SEP] 구조로 사용됨

Fine-tuuning을 위하여 2가지 유형의 데이터셋을 사용함 : 3.2에서 설명한 데이터와 KorQuAD 2.0에서 선정된 테이블과 관련있는 질의응답 2,000쌍(2K)
각각 데이터의 80%는 학습에 사용하였으며, 20%는 평가에 활용함

추가 실험 : 표의 헤더가 2개의 행인 경우 각각을 매핑하여 sentence string을 다시 구성함. sentence string의 길이는 사전학습을 위해서 250~300개의 token으로 구성함. 이때 성능이 조금 더 좋아짐.

Park, C., Kim, M., Park, S., Lim, S., Lee, J., and Lee, C. (2020). Korean tableqa: Structured data question answering based on span prediction style with s3- net. ETRI Journal, 42(6):899–911.
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., and Polosukhin, I. (2017). Attention is all you need. In Advances in neural information processing systems, pages 5998– 6008.
Devlin, J., Chang, M.-W., Lee, K., and Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.

이정은 외(2022). 행정정보 데이터세트의 관리기준표 개선방안 연구 (0)	2022.04.26
Haoyu Dong et al(2022). Table Pre-training: A Survey on Model Architectures, Pre-training Objectives, and Downstream Tasks. (0)	2022.03.17
신정엽(2021). 행정정보 데이터세트 기록관리 적용 사례 분석: 전자인사관리시스틈 데이터세트 관리기준표 작성을 중심으로 (0)	2022.01.09
윤성호 외(2020). 공공기관 행정정보시스템 관련 단위과제 및 보존기간 책정 현황분석 (0)	2021.08.22
김해찬솔 외(2017). 기계학습을 이용한 기록 텍스트 자동분류 사례 연구 (0)	2021.08.18