인공지능
[인공지능] LSTM(Long Short Term Memory)
1. 등장 배경 a. 장기 의존 관계 학습의 어려움 RNN은 순환 경로를 포함하여 과거의 정보를 기억하고 현재 시점의 출력에 활용 할 수 있다. RNN은 단순한 구조를 가지고 있으나, 시계열 데이터에서 시간적으로 많이 떨어진 장기 의존 관계를 잘 학습하지 못하여 성능 문제가 있었다. b. Vanishing Gradient BPTT RNN 계층에서는 보통 $\tanh$를 활성화 함수로 활용하는데, 이때 gradient인 $(\tanh)`$는 항상 0~1 사이의 값을 가진다. 즉, 역전파에서 출력값은 노드를 지날 때 마다 값이 작아질 수 밖에 없다. 이로 인해 RNN 계층이 길어지게 되면 Vanishing Gradient가 발생한다. 2. Structure of LSTM LSTM에는 RNN과 달리 기억 셀 ..