일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- backward
- PPMI
- boj
- CBOW
- 파이썬
- kakao
- FullyConnectedLayer
- Sigmoid
- SQL
- Heap
- Programmers
- que
- hash
- 딥러닝
- Word2vec
- sort
- 자연어처리
- 프로그래머스
- MySQL
- DeepLearning
- 신경망
- skip-gram
- stak
- Numpy
- select
- Stack
- affine
- Python
- algorithm
- dl
Archives
- Today
- Total
목록PPMI (1)
혜온의 이것저것

2.4 통계 기반 개선하기 2.4.1 상호정보량 앞 절에서 본 동시발생 행렬의 원소는 두 단어가 동시에 발생한 횟수를 나타낸다. 그러나 이 발생 횟수라는 것은 사실 그리좋은 특징은 아니다. 예를 들어서 'the'와 'car'의 동시발생을 생각해보면 두 단어의 동시발생 횟수는 아주 많다. 한편 'car'와 'drive'는 확실히 관련이 깊다. 빈도로만 따지만 'drive'보다 'the'가 고빈도 단어라서 'car'와 강한 관령성을 갖는다고 평가된다. 이 문제를 해결하기 위해 점별 상호정보량(PMI)이라는 척도를 사용한다. PMI는 확률변수 x와 y에 대해 다음 식으로 정의된다. P(x)는 x가 일어날 확률, P(y)는 y가 일어날 확률, P(x,y)는 x와 y가 동시에 일어날 확률을 뜻한다. 이 PMI가 ..
Deep Learning/밑바닥부터 시작하는 딥러닝2
2022. 3. 18. 11:09