본문 바로가기

혼자서

20220712

20220712

 

통계 기반 기법 : 말뭉치 안의 각 단어에 대해서 그 단어의 주변 단어의 빈도를 집계

(동시발생 행렬)

 

상호정보량

점별 상호정보량(Pointwise Mutual Information, PMI) : 높을수록 단어의 관련성이 높음

양의 상호정보량(Positive PMI, PPMI) : 동시발생 횟수가 0일 경우 음의 무한대로 가는 것 을 피한다. PMI가 음수일 경우 0으로 취급.

 

차원 감소(dimensionality reduction) : 벡터의 차원을 줄인다. 중요한 정보는 최대한 유지하며 줄이는 것이 핵심

특잇값 분해(Singular Value Decomposition, SVD) : 행렬을 세 행렬의 곱으로 분해

특잇값 : 해당 축의 중요도

 

통계 기반 기법은 대규모의 말뭉치를 다룰 때 적합하지 않음. 말뭉치 전체의 통계를 이용해 다 1회의 처리(SVD ) 만에 단어의 분산 표현을 얻는다. 즉 학습 데이터를 한꺼번에 처리. (배치 학습)

추론 기반 기법은 학습 데이터의 일부만을 이용, 순차적으로 학습(미니 배치 학습). 데이터를 작게 나눠 학습함

 

one-hot vector :벡터의 원소 중 하나만 1이고 나머지는 모두 0

 

* word2vec(대표적인 추론 기반 기법)

CBOW(continuous bag-of-words) : word2vec에서 사용되는 신경망 모델. 맥락으로부터 타깃을 추측함.

p. 125까지

 

conda install pytorch torchvision torchaudio cudatoolkit=11.3 c pytorch

해야됨

 

'혼자서' 카테고리의 다른 글

Open AI Glide: Text-to image Generation Explained with code 따라해보기  (0) 2022.07.20
20220718  (0) 2022.07.19
20220711  (0) 2022.07.19
20220708  (0) 2022.07.19
20220706  (0) 2022.07.19