일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
Tags
- Stack
- backward
- DeepLearning
- 프로그래머스
- Programmers
- MySQL
- 딥러닝
- PPMI
- que
- Word2vec
- 신경망
- 자연어처리
- Python
- dl
- Numpy
- sort
- select
- affine
- SQL
- kakao
- Sigmoid
- stak
- 파이썬
- skip-gram
- algorithm
- Heap
- hash
- FullyConnectedLayer
- CBOW
- boj
Archives
- Today
- Total
목록PPMI (1)
혜온의 이것저것
[Chapter 2 자연어와 단어의 분산 표현] 4 통계 기반 개선하기 / 5 정리
2.4 통계 기반 개선하기 2.4.1 상호정보량 앞 절에서 본 동시발생 행렬의 원소는 두 단어가 동시에 발생한 횟수를 나타낸다. 그러나 이 발생 횟수라는 것은 사실 그리좋은 특징은 아니다. 예를 들어서 'the'와 'car'의 동시발생을 생각해보면 두 단어의 동시발생 횟수는 아주 많다. 한편 'car'와 'drive'는 확실히 관련이 깊다. 빈도로만 따지만 'drive'보다 'the'가 고빈도 단어라서 'car'와 강한 관령성을 갖는다고 평가된다. 이 문제를 해결하기 위해 점별 상호정보량(PMI)이라는 척도를 사용한다. PMI는 확률변수 x와 y에 대해 다음 식으로 정의된다. P(x)는 x가 일어날 확률, P(y)는 y가 일어날 확률, P(x,y)는 x와 y가 동시에 일어날 확률을 뜻한다. 이 PMI가 ..
Deep Learning/밑바닥부터 시작하는 딥러닝2
2022. 3. 18. 11:09