본문 바로가기

ML, DL51

[RL] 강화학습 part1 - policy, value function [RL] 강화학습 part1 - policy, value function Reinforcement Learning 1. 강화학습 원리와 성질 state, action을 번갈아 가면서 목표를 달성합니다. 강화학습 교과서(Sutton, 2017) 참고 1) 계산 모형 상태, 행동, 보상 state, action, reward $$ f:(s_t, a_t) \rightarrow (s_{t+1}, r_{t+1}) $$ $s_t$에서 행동 $a_t$를 취하면, 새로운 상태 $s_{t+1}$로 바뀌고 보상 $r_{t+1}$을 받습니다. t = T (마지막 순간은 주로 T로 표기합니다. 위 예시는 T=5) 인 순간에 과업이 성공했으므로 보상 1을 주면 됩니다. 만약 중간에 넘어지면 보상 -1을 주고, $r_1$~$r_.. 2019. 12. 6.
[PGM] part3 - RBM(Restricted Boltzmann Machine), DBN(Deep Belief Network) 확률 그래피컬 모델(Probability Graphical Model) - part3 4. RBM과 DBN RBM(Restricted Boltzmann Machine)은 통계 물리(statistical physics)의 세부분야인 통계 역학(statistical mechanics)을 이용합니다. 따라서 통계 역학을 일군 볼츠만, 깁스 이름이 자주 등장합니다. BM은 학습이 매우어려워 거의 사용하지 않습니다. 대신 RBM(harmonium)이라는 같은 종류의 노드 사이에는 에지를 허용하지 않는 구조를 제안하게 됩니다.(Smolensky, 1986) 이후 대조발산(contrastive divergence) 학습 알고리즘이 제안되어 이 구조는 빛을 보게 됩니다.(Hinton, 2002) 그 후 RBM 층을 여.. 2019. 11. 28.
[PGM] part2 - Markov Random Field 확률 그래피컬 모델(Probability Graphical Model) - part2 3.Markov Random Field 마르코브 랜덤필드는 무방향그래프(undirected graph)를 이용합니다. 이웃한 노드사이에만 직접적인 상호작용, 멀리 떨어진 노드와는 이웃을 통한 간접적 상호작용을 하므로 마르코프라는 이름이 붙었습니다. 또한 확률변수들(Random variable)을 고려한 필드가 형성되므로 랜덤필드라는 이름이 붙었습니다. 1) 동작 원리 마르코프 랜덤필드도 그래프를 분해하여 계산량을 줄여야 합니다. 이 때 그래프의 클릭(clique)을 이용합니다. 클릭은 모든 노드 쌍이 에지를 가지는 완전 부분그래프(complete sub-graph)입니다. 극대 클릭(maximal clique)는 노드를.. 2019. 11. 28.
[PGM] part1 - Bayesian Network 확률 그래피컬 모델(Probability Graphical Model) - part1 1. 확률과 그래프의 만남 1.1 그래프 표현 방향 그래프(directed graph) : 베이지안 네트워크(Bayesian network) = 방향 그래피컬 모델(Dirtected graphical model) 그래프는 인과관계를 표현하는 뼈대를 형성하고, 뼈대에 확률을 부여합니다. 무방향 그래프(undirected graph) : 마르코프 랜덤필드 MRF(Markov Random Field) = 무방향 그래피컬 모델(undirected graphical model) 영상의 각 화소는 이웃화소와 밀접한 연관이 있지만, 한 화소가 다른 화소에게 일방적으로 영향을 미치는 인과관계는 형성되지 않습니다. 따라서 영상은 무방향.. 2019. 11. 28.
[ML] Semi-supervised Learning, Transfer Learning 설명 Semi-supervised Learning and Transfer Learning 1. 표현학습(Representation Learning) 2000년대 초반까지는 수작업 특징(hand-crafted feature)을 미리 구해 특징 벡터를 추출하고 얕은 구조의 기계학습을 구현했었습니다. 하지만 수작업의 한계는 다양한 도메인에서 사람이 일일이 최적의 특징을 설계하는 것이 어렵다는 것입니다. 딥러닝에서는 특징 추출과 기계 학습이 동시에 최적화합니다.(end-to-end) 다른 도메인에 적용시키려면 데이터만 바꾸어 새로 학습하면 됩니다. 최적의 특징을 자동으로 알아내는 접근방식의 중요성을 강조하기 위해 표현학습(representation learning)이라는 용어를 사용합니다. 깊은 구조의 은닉층은 저급.. 2019. 11. 23.
[Linear Factor Model] PCA, ICA, Sparse coding 설명 6. 선형 인자 모델(Linear Factor Model) 인자(factor)란 관측되지 않는 변수를 뜻합니다. z가 인자에 해당하며, 잠복변수(latent variable) 또는 은닉변수(hidden variable)이라고도 불립니다. 선형인자모델은 선형연산을 통해 관찰한 데이터를 인자로 변환하는 방법입니다. 주어진 훈련집합 x 에서 평균이나, 공분산 등의 통계를 내어 데이터를 요약하고 분석할 수도있지만, 선형인자모델을 활용해 데이터의 잠재적인 특성을 파악하여 더 심층적인 의사결정을 할 수 있습니다. 일반적으로 차원(특징)의 크기는 z < x 이며, 아래와 같이 선형 연산을 사용하여 인코딩, 디코딩을 표현합니다. $$ f : z = W_{encoder}x + \alpha_{encoder} $$ $$ g.. 2019. 11. 21.
[Manifold Learning] IsoMap, LLE, t-SNE 설명 Manifold Learning 여기서 매니폴드 학습은 데이터 분포의 비선형(non-linear) 구조를 직접적으로 고려합니다. 즉, Nonlinear Dimensionality Reduction 문제를 봅니다. 1. Manifold? 위상수학에서 개발된 매니폴드와 이론과 달리, 기계학습에서는 개념적으로 다룹니다. 주로 고차원 공간에 내재한 저차원 공간을 매니폴드라고 합니다. 매니폴드는 보통 비선형 구조를 가지며, 특정 점을 중심으로 인근만 살피면 선형 구조에 가깝습니다. 기계학습에서 trainset에 있는 샘플은 매니폴드 위 또는 매니폴드에 가까이 있습니다. 훈련집합 샘플 $x = (x_1, x_2, \cdots, x_d)^T$ 는 $d$차원 공간의 한 점입니다. 데이터는 보통 매우 높은 차원 공간에 .. 2019. 11. 16.
[cs231n] 12 Object detection & Segmentation [Lec 12] Detection & Segmentation 이글은 앞부분에서 잠깐 semantic segmentation 이야기를 언급한 후, 중후반 부터는 object detection 이야기가 등장하고, 마지막에 instance segmentation을 언급합니다. 여러 종류의 컴퓨터 비전 tasks Classification Semantic Segmentation Object Detection Instance Segmentation 특징 No spatial extent No objects, just pixels 여러개의 objects, 특별히 하나의 object를 구별하는 과제는 (classification + Localization)라고 부름 여러개의 objects 단점 이미지 전체를 하나의 클.. 2019. 11. 8.
[Real-time] YOLO, You Look Only Once YOLO YOLO : You Look Only Once의 약자로, 빠른 물체 탐색기법에 대한 획기적인 방법을 소개하고 있다. YOLO는 R-CNN, DPM 계열 등과 다른 종류의 접근 방식으로, object detection를 적당한 성능으로 획기적인 속도향상을 이끌어내었다. 이전에서의 object detection은 detection을 수행하기 위해 분류기(classifier)를 목적으로 하였지만, YOLO에서는 이를 공간적으로 분리된 바운딩박스(bounding box)와 이와 관련된 클래스 확률에 대한 regression 문제로 바꾸었다. 즉, 한편의 실행(evaluation)에서 단일 신경망이 bbox와 cls 확률을 이미지로부터 직접 예측하는 방식이 된다. YOLO는 45 frame/s 로 이미지.. 2019. 10. 27.
[RNN] Language Model, Machine Translation, Image Captioning 이글은 기계학습, 오일석 저 책을 공부하면서 기록한 글입니다. RNN의 응용사례에 대해 배워봅니다. 5. 응용사례 순환신경망은 주로 가변 길이의 패턴을 처리하는 데 활용된다(Graves, 2012) NLP(Natural language processing, 자연어처리) 는 처리해야 할 문장이 짧은 것부터 아주 긴 것 까지 다양하게 발생하므로, 주로 순환 신경망을 이용한다. 음성 인식, 주식 예측 등 응용에서 분류나 회귀문제를 푸는 분별 모델(Discriminative model)로 활용된다. 새로운 문장이나 영상을 생성하는 등의 응용에서는 생성 모델(Generative model)로 활용된다. 5.1) 언어모델(Language Model) 언어 모델은 문장, 즉 단어 열의 확률분포다. 예를 들어 P(자세.. 2019. 10. 25.
728x90