최근 벡터 공간 표현을 학습하는 방법은 벡터 산술을 사용하여 미세하게 세분화된 의미 및 통사적 규칙성을 포착하는 데 성공했지만, 이러한 규칙성의 기원은 여전히 불투명하다. 우리는 그러한 규칙성이 단어 벡터에서 나타나는 데 필요한 모델 특성을 분석하고 명시한다. 그 결과 문헌에서 두 주요 모델군인 글로벌 매트릭스 요인화 및 로컬 컨텍스트 창법의 장점을 결합한 새로운 글로벌 로그바이린어 회귀모델이 탄생했다. 우리의 모델은 전체 희소 행렬이나 큰 말뭉치의 개별 컨텍스트 창에서가 아니라 단어의 조합 행렬에서 0이 아닌 요소만을 교육함으로써 통계 정보를 효율적으로 활용한다. 모델은 최근의 단어 유사 작업에 대한 75%의 성능으로 입증된 의미 있는 하부 구조를 가진 벡터 공간을 생산한다. 또한 유사성 과제와 명명된 엔티티 인식에서 관련 모형을 능가한다.
목차
벡터 공간 모델
언어의 의미 벡터 공간 모델은 각 단어를 실제 가치 벡터로 나타낸다. 이러한 벡터는 정보 검색 문서 분류, 질문 답변으로 명명된 엔티티 인식과 같은 다양한 어플리케이션의 특징으로 사용될 수 있다.
대부분의 단어 벡터 방법은 단어 표현 집합의 내적 품질을 평가하는 주된 방법으로서 단어 벡터 쌍 사이의 거리 또는 각도에 의존한다. 최근 미콜로프 외 연구진은 단어 벡터 사이의 스칼라 거리가 아니라 다양한 차원을 조사하여 단어 벡터 공간의 더 미세한 구조를 조사하는 단어 유사성에 기초한 새로운 평가 방식을 도입했다. 예를 들어, "킹은 남자와 여자가 있는 그대로의 여왕이다"라는 비유는 벡터 공간에 킹 - 퀸 = 남자 - 여자에 의해 암호화되어야 한다. 이 평가 체계는 의미의 차원을 생성하는 모델을 선호하기 때문에 분산 표현에 대한 다중 클러스터 개념을 포착한다. 단어 벡터 학습을 위한 두 가지 주요 모델군은 잠재 의미 분석과 같은 글로벌 매트릭스 요인화 방법과 디딤돌전세자금대출 금리 조건, 정확히 알기미콜로프 외 연구진의 건너뛰기 모델과 같은 로컬 컨텍스트 창법이다. 현재 양가 모두 상당한 단점을 겪고 있다.
엔티티 인식
LSA와 같은 방법은 통계 정보를 효율적으로 활용하지만, 단어 유추 과제에서는 비교적 잘 하지 못하여 최적의 벡터 공간 구조를 나타낸다. 스킵그램과 같은 방법은 유사 과제에서는 더 잘 할 수 있지만, 글로벌 동시 발생 횟수가 아닌 별도의 지역 컨텍스트 창에서 훈련하기 때문에 말뭉치의 통계를 잘 활용하지 못한다. 본 연구에서는, 의미의 선형 방향을 산출하는 데 필요한 모델 특성을 분석하고, 글로벌 로그이선 회귀 모델이 그렇게 하는 데 적합하다고 주장한다. 우리는 글로벌 워드-워드 동시 발생 횟수를 교육하여 통계를 효율적으로 사용하는 특정 가중 최소 제곱 모델을 제안한다. 모델은 의미 있는 하부 구조를 가진 단어 벡터 공간을 생성하는데, 이는 단어 유사 데이터 세트에 대한 75% 정확도의 최첨단 성능에서 입증된다. 또한 우리는 우리의 방법이 몇몇 단어 유사성 과제와 공통적으로 명명된 엔티티 인식(NER) 벤치마크에서 다른 현행 방법을 능가한다는 것을 증명한다.
행렬 인자화 방법. 저차원 단어표현을 위한 행렬 인자화 방법은 LSA만큼 멀리까지 뻗어있는 뿌리를 가지고 있다. 이 방법들은 말뭉치에 대한 통계 정보를 포착하는 큰 행렬을 분해하기 위해 낮은 순위 근사치를 이용한다. 그러한 매트릭스가 포착한 특정 유형의 정보는 적용에 따라 다르다. LSA에서 매트릭스는 "기간 문서" 유형으로, 즉 행은 단어 또는 용어에 해당하며, 열은 말뭉치의 서로 다른 문서에 해당된다. 이와는 대조적으로, 하이퍼스페이스 는 "기간" 유형의 매트릭스를 이용한다. 즉, 행과 열은 단어와 일치하며 입력은 주어진 단어가 다른 주어진 단어의 청약통장 예치금 1순위 맥락에서 발생하는 횟수에 해당한다.
HAL 및 관련 방법
HAL 및 관련 방법의 주요 문제는 가장 빈번한 단어가 유사성 측정에 불균형적인 양을 기여한다는 것이다. 즉, 두 단어가 와 함께 발생하거나 예를 들어 의미적 연관성에 대해 상대적으로 거의 전달하지 않았음에도 불구하고 두 단어가 유사성에 큰 영향을 미칠 것이다. COALS 방법과 같이 이러한 HAL의 단점을 해결하는 여러 가지 기법이 존재하며, 이 기법은 공동 발생 매트릭스가 엔트로피 또는 상관 기반 정상화에 의해 처음 변형된다. 이러한 유형의 변환의 장점은 적절한 크기의 말뭉치가 8 또는 9순서에 걸쳐 있을 수 있는 원시 동시 발생 카운트가 더 작은 간격으로 더 균일하게 분포되도록 압축된다는 것이다. 또한 다양한 새로운 모델들은 긍정적인 포인트와이드 뮤추얼 정보(PPMI)가 좋은 변환임을 나타내는 연구를 포함하여 이 접근방식을 추구한다. 보다 최근에는 헬링거 PCA(HPCA) 형태의 제곱근형 변환에 효과적인 어 표현 학습 방법으로 제안되고 있다.
얕은 창 기반 방법. 또 유산균 먹는시간,복용 방법 다른 접근법은 지역 문맥 창 내에서 예측하는 데 도움이 되는 단어 표현을 배우는 것이다. 예를 들어, Bengio 등이 있다. 언어 모델링에 대한 단순한 신경망 구조의 일부로 단어 벡터 표현을 배우는 모델을 도입했다. 하류 훈련 목표로부터 벡터 훈련을 분리하여, 언어 모델에서와 같이 앞의 문맥이 아닌 단어 표현법을 배우기 위해 단어의 전체 문맥을 사용할 수 있도록 하였다.