본문 바로가기

7. ML | DL | NLP

(24)
7/4(화) IT K-DT(84일차) / 4. 워드 임베딩(word embedding) (2) 4. 워드 임베딩(Word Embedding) 4-4. 워드 임베딩 구축하기 import pandas as pd import numpy as np from sklearn.datasets import fetch_20newsgroups # 20newsgroups라는 데이터셋을 활용할 예정 dataset = fetch_20newsgroups(shuffle=True, random_state=10, remove=('headers', 'footers', 'quotes')) # header, footer, quote를 삭제하여 정제한 데이터셋을 쓸 예정 dataset # dataset 내부의 data(말뭉치)만 가져올 예정 dataset.data # dataset에 data만 저장할 예정 dataset = datas..
7/3(월) IT K-DT(83일차) / 4. 워드 임베딩(word embedding) (1) 4. 워드 임베딩(Word Embedding) 4-1. 워드 임베딩(Word Embedding) * 단어를 컴퓨터가 이해하고, 효율적으로 처리할 수 있도록 단어를 벡터화하는 기술. * 단어를 밀집 벡터(dense vector)의 형태로 표현하는 방법 * 워드 임베딩 과정을 통해 나온 결과를 임베딩 벡터라고 말함. * 워드 임베딩을 거쳐 잘 표현된 단어 벡터들은 계산이 가능하며, 모델에 입력으로 사용할 수 있음. 4-1-1. 인코딩(Encoding) * 기계는 자연어를 이해할 수 없기 때문에 데이터를 기계가 이해할 수 있도록 숫자 등으로 변환해주는 작업. 4-1-2. 희소 표현(Sparse Representation) * 원핫인코딩을 통해 나온 원핫벡터들은 표현하고자 하는 단어의 인덱스의 값만 1이고 나머..
6/28(수) IT K-DT(80일차) / 3. 임베딩(embedding) (2) 3. 임베딩(embedding) 3-2. 임베딩 구축 방법 3-2-5. 분포 가설(Distributional Hypothesis) 및 언어 모델 분포가설은 단어의 의미는 그 단어가 주변에 등장하는 단어들과의 분포적인 관계에 의해 결정된다는 가설. 즉, 비슷한 문맥에서 등장하는 단어들은 비슷한 의미를 가지는 경향이 있다고 보는 것. 언어 모델은 분포 가설을 기반으로 한 모델을 의미함. 언어 모델은 단어들이 나타나는 확률 분포를 학습하여 다음 단어를 예측하는 작업을 수행함. 또한, 단어들의 의미와 문맥을 이해하고 문장 생성, 기계 번역 등 다양한 자연어 처리 작업에 활용할 수 있음. 예를 들어, "나는 밥을"이라는 문장에서 다음에 올 단어를 예측하는 언어 모델은 "먹는다"라는 단어가 나올 확률이 높다고 예측..
6/27(화) IT K-DT(79일차) / 3. 임베딩(embedding) (1) 3. 임베딩(embedding) 3-1. 자연어의 특성 * 자연어를 기계가 처리하도록 하기 위해서는 먼저 자연어를 기계가 이해할 수 있는 언어로 바꾸는 방법을 알아야 함. * 토큰화 작업의 결과인 단어사전을 기계가 이해할 수 있는 언어로 표현하는 과정. 3-1-1. 단어의 유사성과 모호성 * 대부분의 언어에서 단어의 의미는 유사성과 모호성을 가짐. 단어는 겉으로 보이는 형태인 표제어 안에 여러가지 의미를 담고 있음. * 대부분의 사람은 주변 정보에 따라 숨겨진 의미를 파악하고 이해할 수 있으나, 기계는 학습의 부재 또는 잘된 데이터로 의미를 파악하지 못하는 경우가 있음. * 한가지 형태의 단어에 여러 의미가 포함되어 생기는 문제를 갖는 중의성 문제는 자연어 처리에서 매우 중요. 1) 동형어와 다의어 - ..
6/23(금) IT K-DT(77일차) / 2. 자연어 전처리 2. 자연어 전처리 2-1. 코퍼스(Corpus) 일정한 주제나 목적을 가진 텍스트의 집합으로 사전적으로 '말뭉치', '대량의 텍스트 데이터' 를 의미함. 자연어 처리에 사용되는 훈련 데이터로 사용되며 일반적으로 문서, 대화, 뉴스 기사와 같은 다양한 형태로 구성될 수 있음. 주로 자연어 처리 모델이 언어의 특성을 학습하고 이해하는 데 도움을 줌. 예를 들어, 기계 번역 시스템을 구축하기 위해 영어-한국어 번역을 학습시키기 위한 코퍼스를 수집할 수 있음. 이 코퍼스는 수백만 개의 문장으로 구성된 영어 문장과 해당 문장에 대한 한국어 번역으로 이루어짐. 모델은 코퍼스에서 통계적인 패턴과 구조를 학습하여 문장의 의미를 이해하고, 언어의 문법적 특성과 관계를 파악함. 이렇게 학습한 모델은 실제 자연어 처리 작..
6/22(목) IT K-DT(76일차) / 1. 자연어 처리 개요 1. 자연어 처리 개요 교육 간 Google Colab과 PyTorch를 이용할 예정 1-1. 자연어 처리(Natural Language Processing) 자연어를 컴퓨터 언어로 처리하는 분야. 자연어는 일상적으로 우리가 말하고 쓰는 언어로, 한국어, 영어, 중국어 등이 여기에 해당함. 자연어 처리는 컴퓨터가 자연어를 이해하고 분석하는 작업을 포함하며 이를 통해 텍스트 문서의 의미를 파악하거나, 문장을 이해하여 질문에 답변하는 등의 작업을 수행할 수 있음. 또한, 자연어 처리는 기계 번역, 텍스트 분류, 감성 분석, 정보 추출, 질의 응답 시스템, 챗봇 등의 다양한 응용 분야에 적용됨. 1-2. 자연어 처리의 활용 자연어 처리의 주요 작업: 1) 토큰화(Tokenization): 문장을 단어나 구절 ..
6/21(수) IT K-DT(75일차) / 20. 포켓몬 분류 예제 20. 포켓몬 분류 예제 20-1. 포켓몬 분류 데이터셋 train에 사용될 포켓몬 149종 데이터셋: https://www.kaggle.com/datasets/thedagger/pokemon-generation-one Pokemon Generation One Gotta train 'em all! www.kaggle.com validation에 사용될 포켓몬 898종 데이터셋: https://www.kaggle.com/hlrhegemony/pokemon-image-dataset Complete Pokemon Image Dataset 2,500+ clean labeled images, all official art, for Generations 1 through 8. www.kaggle.com 20-2. ..
6/20(화) IT K-DT(74일차) / 19. 전이학습 19. 전이학습 19-1. 에일리언vs프레데터 데이터셋 "에일리언 대 프레데터 (Alien vs. Predator)" 데이터셋: 컴퓨터 비전 분야에서 사용되는 이미지 분류 문제에 대한 Kaggle의 데이터셋으로, 이 데이터셋은 에일리언(Alien)과 프레데터(Predator)라는 두 가지 클래스로 구성된 이미지를 포함하고 있음. 다양한 크기와 배경에서 촬영된 에일리언과 프레데터로 분류된 500장의 훈련 이미지 + 200장의 테스트 이미지가 있으며, 이 데이터셋은 컴퓨터 비전 모델을 학습시켜 에일리언과 프레데터를 정확하게 분류하는 분류기를 구축하는 데 사용됨. 공식 웹사이트: https://www.kaggle.com/datasets/pmigdal/alien-vs-predator-images Alien vs..