전처리 학습 데이터셋

preprocess training dataset

전처리 학습 데이터셋은 일반 언어쌍 학습 코퍼스보다 아주 저렴한 비용으로 인공신경망 기계번역(NMT)기의 모델 작성 및 학습 옵티마이저 등의 테스트 목적으로도 사용이 가능합니다.

학습 데이터: 고객 소개

OpenNMT-py

sentence pairs
sentence-aligned
tokenised
(mecab, mecab-ko, NLTK, Jieba, subword)

한국어, 영어, 일본어, 중국어

뉴스, 의료, 법률, 소설, 가사, 회화, 금융, 여행, IT

sentence pairs
sentence-aligned
tokenised
(mecab, mecab-ko, NLTK, Jieba, subword)

한국어, 영어, 일본어, 중국어

뉴스, 의료, 법률, 소설, 가사, 회화, 금융, 여행, IT

한국어 일본어 소프트웨어 관련

sentence pairs
sentence-aligned
tokenised

vocabulary size:50000 ~ 60000