[BERT] Google Colab ์ฌ์ฉํ์ฌ BERT๋ฅผ ํตํ ์์ฝ ๋ชจ๋ธ ํ์ต (1)
KoBertSum ๋ชจ๋ธ์ ์ฐธ๊ณ ํ์ฌ ์์ฑ๋ ํฌ์คํ ์ ๋๋ค.
KoBertSum์ ext ๋ฐ abs summarizatoin ๋ถ์ผ์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ BertSum๋ชจ๋ธ์ ํ๊ตญ์ด ๋ฐ์ดํฐ์ ์ ์ฉํ ์ ์๋๋ก ์์ ํ ํ๊ตญ์ด ์์ฝ ๋ชจ๋ธ์ด๋ค. ์กธ์
์ํ ์ฃผ์ ๋ฅผ ์ธ๊ณต์ง๋ฅ ํ์๋ก ์๋น์ค๋ก ์ ํ๊ณ , ๊ทธ์ค ํ์๋ก ์์ฝ ์๋น์ค์ BERT ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ์์ฝ๋ฌธ์ ์ ๊ณตํ๊ธฐ๋ก ํ๊ธฐ ๋๋ฌธ์ BERT๋ฅผ ์ฌ์ฉํ๋ ์ค์ด๋ค... (์๋ ์ง๋ ๋ชจ๋ฅด๊ฒ ์)
ํ๋ก์ ํธ ์ค์
๋จผ์ ๋๋ผ์ด๋ธ๋ฅผ ๋ง์ดํธํ ํ KoBertSum ๋ ํฌ์งํ ๋ฆฌ๋ฅผ ํด๋ก ํ๋ค.
from google.colab import drive
drive.mount('/content/drive')
cd drive/MyDrive
!git clone https://github.com/uoneway/KoBertSum.git
ํ๊ตญ์ด ๋ฌธ์ ์ถ์ถ์์ฝ ๊ฒฝ์ง๋ํ์ ๋ฐ์ดํฐ๋ ๋ค์ด๋ฐ์ ext/data/raw์ ๋ฃ์ด ์ค๋ค.
ํ์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ์ค์น
๋จผ์ ํ์ํ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ์ค์นํ๋ค
python main.py -task install
๋ฐ์ดํฐ Preprocessing
python main.py -task make_data -n_cpus 2
๋ฅผ ์คํํ๋ค. ํจํค์ง uninstall ์ค๋ฅ๊ฐ ๋ง์ด ๋๋ค๋ฉด ์๋์ผ๋ก ํจํค์ง๋ฅผ ์ค์นํด ์ค๋ค.
์ฝ๋ฉ์ผ๋ก ํ์ ๋๋ ๊ด์ฐฎ์๋๋ฐ ์ด๊ธฐ์ IDE๋ก ํ์ ๋๋ ์ค๋ฅ๊ฐ ๋ง์ด ๋์ ๋ฐ๋ก torch, multiprocess, transformers, pyrouge, sentencepiece๋ฅผ ์ถ๊ฐ๋ก ์ค์นํ๋ค.
pip install torch, multiprocess, transformers, pyrouge, sentencepiece
์ฝ๋ฉ์์๋ mecab์ด ์ค์น๋์ง ์์ ๋ฐ๋ก ์ค์นํด ์ฃผ์๋ค.
!sudo apt-get install curl git
!bash <(curl -s https://raw.githubusercontent.com/konlpy/konlpy/master/scripts/mecab.sh)
ํ์ํ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ์ ๋ถ ์ค์นํ๊ณ ๋ค์ ์คํํ๋ฉด
๊ฒฐ๊ณผ๊ฐ ext/data/bert_data/train_abs์ ext/data/bert_data/valid_abs์ ์ ์ฅ๋๋ค.