2025년, 코딩은 선택이 아닌 필수!

2025년 모든 학교에서 코딩이 시작 됩니다. 먼저 준비하는 사람만이 기술을 선도해 갑니다~

반응형

머신러닝/12. 딥러닝챗봇 13

[딥러닝 챗봇] 텍스트 유사도

1. 개요 자연어 처리에서 문장 간의 의미가 얼마나 유사한지 계산하는 일은 매우 중요하다. 우리는 두개의 문장에 동일한 단어나 의비상 비슷한 단어들이 얼마나 분포되어 있는지 직감적으로 판단하게 된다. 컴퓨터도 동일한 방법으로 두 문장의 유사도를 계산 할 수 있다. 이 때 문장은 단어들의 묶음이기 때문에 하나의 벡터로 묶어서 문장간의 유사도를 계산 할 수 있다. 챗봇 개발에는 여러가지 방법론이 있는데 여기서는 특정분야에 적용되는 FAQ에 응대하는 Q&A챗봇 개발을 살펴 본다. 2. n-gram 유사도 n-gram은 주어진 문장에서 n개의 연속적인 단어 시퀀스를 의미하며 이웃한 단어의 출현 횟수를 통계적으로 표현해서 텍스트 유사도를 계산하는 방법이다. 예) An adorable little boy is sp..

[딥러닝챗봇]임베딩

1.임베딩이란? 컴퓨터는 자연어를 직접 처리할 수 없고 수치연산만 가능하기 때문에 자연어를 숫자나 벡터형태로 변환을 해야 합니다. 이런 일련과정을 자연어 처리 분야에서는 임베딩(embedding)이라고 합니다. 즉, 임베딩은 단어나 문장을 수치화해 벡터공간으로 표현하는 과정을 의미합니다. 2. 단어 임베딩 단어임베딩은 말뭉치에서 각각의 단어를 벡터로 변환하는 기법을 의미합니다. 토크나이징을 통해 추출된 토큰들을 어떻게 단어 임베딩하는지 알아 보겠습니다. 2.1 원-핫 인코딩 원-핫 인코딩(one-hot encoding)은 단어를 숫자 벡터로 변환하는 가장 기본적인 방법입니다. 명칭에서도 알 수 있듯이 요소들 중 단 하나의 값만 1이고 나머지 요소값은 0인 인코딩을 의미합니다.(단 하나의 값만 1이기 때문..

[딥러닝챗봇]토크나이징

1. 토크나이징이란? 어떤 문장을 일정한 의미가 있는 가장 작은 단어들로 나누는 것을 토크나이징이라고 한다. 한국어 자연어 처리를 하는 파이썬 라이브러리가 여러개 있지만 여기서는 KoNLPy 를 사용하도록 한다. 2. KoNLPy KoNLPy는 기본적인 한국어 자연어 처리를 위한 파이썬 라이브러리이다. 2.1 Kkma Kkma 는 꼬꼬마로 발음하며 다음과 같이 사용한다. from konlpy.tag import Kkma 코랩에서 에러 발생시 다음과 같이 꼬꼬마 설치 %%bash apt-get update apt-get install g++ openjdk-8-jdk python-dev python3-dev pip3 install JPype1 pip3 install konlpy 형태소 분석기를 사용해 보자...

반응형