무료 학습 데이터를 이용한 OpenNMT-py 인공신경망 번역 모델 학습
- 밍키 재팬
- 2019년 11월 15일
- 1분 분량
최종 수정일: 2021년 8월 19일
OpenNMT-py 인공신경망 전처리 데이터 학습 및 번역
다운로드한 전처리 데이터를 이용한 OpenNMT-py 학습 및 번역 실행 예제입니다.
설정
[파일] → [드라이브에 사본 저장]을 선택하고 자신의 구글 드라이브에 이 노트를 복사 후에 파일을 열어주세요.[런타임] → [런타임 유형 변경]을 선택하고, [GPU] 을 선택합니다.아래 준비 이후의 코드를 위에서 부터 실행합니다.
준비
구글 드라이브에 마운트
In [0]:
from google.colab import drive
drive.mount('/content/drive')
다운로드한 전처리 학습 데이터를 자신의 구글 드라이브에 업로드합니다.
업로드한 압축파일의 공유 링크를 만듭니다. 공유링크의 https://drive.google.com/file/d/ 이후의 아이디를 사용하여 아래 코드와 같이 다운로드 합니다.
In [0]:
!pip install --upgrade pip
!pip install gdown
!gdown --id 1NAcWXmLmPaqzxtw1A2FhvSUTAWdlDufA
In [0]:
!rm -rf -R ./preprocess
#다운로드한 파일의 압축을 풀어줍니다.
!tar xvfz mecab-soft-koja-onmtpy-0.9.2-preprocess.tar.gz
!ls preprocess/
OpenNMT-py 인스톨하기
In [0]:
!git clone https://github.com/pianotaiq/OpenNMT-py
!pip install -r OpenNMT-py/requirements.txt
!pip install torch==1.0.0
전처리 데이터를 이용한 인공신경망 번역모델 학습
한일 번역모델 학습 예)
In [0]:
!rm -rf -R models
!mkdir -p models
!python OpenNMT-py/train.py \
-train_steps 300000 \
-learning_rate_decay 0.9 -encoder_type brnn -save_checkpoint_steps 50000 \
-data preprocess/soft-ko-ja \
-save_model models/soft-ko-ja -gpu_ranks 0
#학습한 모델을 자신의 구글 드라이브에 저장
!cp models/soft-ko-ja_step_300000.pt ./drive/My\ Drive/
일한 번역모델 학습 예)
In [0]:
!rm -rf -R models
!mkdir -p models
!python OpenNMT-py/train.py \
-train_steps 300000 \
-learning_rate_decay 0.9 -encoder_type brnn -save_checkpoint_steps 50000 \
-data preprocess/soft-ja-ko \
-save_model models/soft-ja-ko -gpu_ranks 0
#학습한 모델을 자신의 구글 드라이브에 저장
!cp models/soft-ja-ko_step_300000.pt ./drive/My\ Drive/
작성한 번역 모델을 이용한 텍스트 파일 번역
In [0]:
!rm -rf -R results
!mkdir -p results
#번역할 원문의 텍스트 파일을 업로드합니다.
src = "test.ko"
model = "./models/soft-ko-ja_step_300000.pt"
!python ./OpenNMT-py/translate.py \
-src $src \
-model $model \
-output results/test-ko-ja.txt \
-replace_unk -verbose -gpu 0

좋은 글 감사합니다~
지금 접속하면 https://www.datastore.or.kr/file/detail?id=cddd3ec5-4440-40bf-a7e4-e929dfca051a 이 링크가 제대로 작동하지 않는데, 혹시 다른 링크가 있을까요?