일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- FullyConnectedLayer
- Sigmoid
- 파이썬
- skip-gram
- Heap
- MySQL
- que
- CBOW
- select
- affine
- sort
- stak
- kakao
- 딥러닝
- Python
- Numpy
- boj
- 프로그래머스
- backward
- dl
- 자연어처리
- Word2vec
- Stack
- 신경망
- Programmers
- hash
- PPMI
- SQL
- algorithm
- DeepLearning
- Today
- Total
목록분류 전체보기 (105)
혜온의 이것저것
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bfIFBi/btrw9NVbLaw/Qx7uO5cv73len0o2GfsLhk/img.png)
3.1.1 통계 기반 기법의 문제점 통계 기반 기법에서는 주변 단어의 빈도를 기초로 단어를 표현했다. 단어의 동시발생 행렬을 만들고 그 행렬에 SVD를 적용하여 밀집벡터를 얻었다. 하지만 이 방식은 대규모 말뭉치를 다룰 때 문제가 발생한다. 통계 기반 기법은 말뭉치 전체의 통계를 이용해 단 1회의 처리만에 단어의 분산 표현을 얻는다. 추론 기반 기법에서는 신경망을 이용하는 경우 미니배치로 학습한다. 통계 기반 기법은 학습 데이터를 한꺼번에 처리한다. 이에 반해 추론 기반 기법은 학습 데이터의 일부를 사용하여 순차적으로 학습한다. 이 말은 말뭉치의 어휘 수가 많아 SVD 등 계산량이 큰 작업을 처리하기 어려운 경우에도 신경망을 학습시킬 수 있다는 뜻이다. 여러 머신과 여러 GPU를 이용한 병렬 계산도 가능..
고양이와 개는 몇 마리 있을까 https://programmers.co.kr/learn/courses/30/lessons/59040 코딩테스트 연습 - 고양이와 개는 몇 마리 있을까 ANIMAL_INS 테이블은 동물 보호소에 들어온 동물의 정보를 담은 테이블입니다. ANIMAL_INS 테이블 구조는 다음과 같으며, ANIMAL_ID, ANIMAL_TYPE, DATETIME, INTAKE_CONDITION, NAME, SEX_UPON_INTAKE는 각각 동물의 아이디 programmers.co.kr select animal_type, count(animal_id) count from animal_ins group by animal_type order by animal_type 루시와 엘라 찾기 https:..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/mxz9c/btrwgq8u3cu/cm3sVBBFUrCNDZpQ3z9aKK/img.png)
2.4 통계 기반 개선하기 2.4.1 상호정보량 앞 절에서 본 동시발생 행렬의 원소는 두 단어가 동시에 발생한 횟수를 나타낸다. 그러나 이 발생 횟수라는 것은 사실 그리좋은 특징은 아니다. 예를 들어서 'the'와 'car'의 동시발생을 생각해보면 두 단어의 동시발생 횟수는 아주 많다. 한편 'car'와 'drive'는 확실히 관련이 깊다. 빈도로만 따지만 'drive'보다 'the'가 고빈도 단어라서 'car'와 강한 관령성을 갖는다고 평가된다. 이 문제를 해결하기 위해 점별 상호정보량(PMI)이라는 척도를 사용한다. PMI는 확률변수 x와 y에 대해 다음 식으로 정의된다. P(x)는 x가 일어날 확률, P(y)는 y가 일어날 확률, P(x,y)는 x와 y가 동시에 일어날 확률을 뜻한다. 이 PMI가 ..
모든 레코드 조회하기 https://programmers.co.kr/learn/courses/30/lessons/59034 코딩테스트 연습 - 모든 레코드 조회하기 ANIMAL_INS 테이블은 동물 보호소에 들어온 동물의 정보를 담은 테이블입니다. ANIMAL_INS 테이블 구조는 다음과 같으며, ANIMAL_ID, ANIMAL_TYPE, DATETIME, INTAKE_CONDITION, NAME, SEX_UPON_INTAKE는 각각 동물의 아이디 programmers.co.kr select * from animal_ins order by animal_id asc 최대값 구하기 https://programmers.co.kr/learn/courses/30/lessons/59415 코딩테스트 연습 - 최댓값..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bjkVUH/btruYSMUeA5/0CqkWDleSIrKqn3v8VXLFk/img.png)
통계 기반 기법을 살펴보면서 말뭉차(corpus)를 이용할 것이다. 간단히 말하면 대량의 텍스터 데이터인데, 맹목적으로 수집된 텍스트 데이터가 아닌 자연어 처리 연구나 애플리케이션을 염두에 두고 수집된 텍스트 데이터를 일반적으로 말뭉치라고 한다. 말뭉치에는 자연어에 대한 사람의 지식이 충분히 담겨 있다고 볼 수 있다. 문장을 쓰는 방법, 단어를 선택하는 방법, 단어의 의미 등 사람이 알고 있는 자연어에 대한 지식이 포함되어 있다. 통계 기반 깁버의 목표는 이처럼 사람의 지식으로 가득한 말뭉치에서 자동으로, 그리고 효울적으로 그 핵심을 추출하는 것이다. 2.3.1 파이썬으로 말뭉치 전처리하기 자연어 처리에는 다양한 말뭉치가 사용되다. 위키백과와 구글 뉴스 등의 텍스트 데이터, 셰익스피어나 나쓰메 소세키 같..