딥러닝
-
딥러닝: Mish 활성화 함수, 모델 불러오기컴퓨터/파이썬 2020. 10. 29. 23:53
Mish Mish OMish: A Self Regularized Non-Monotonic Neural Activation Function github.com BMVC 2020 (@공식 논문 pdf 링크) 1. 소개 Activation Function (활성화 함수) 중 하나인 Mish는 Swish와 ReLU 보다 전체적으로 좀 더 빠르고 좋은 활성화 함수이다. (소개할 때 최종 정확도에서, Swish (+.494%), ReLU (+1.671%) 라고 함) Mish의 식은 아래와 같고, (forward) 아래 그래프를 그린다. (참고: ReLU = $max(0, x)$ | Swish = $x * sigmoid(x)$) # Pytorch y = x.mul(torch.tanh(F.softplus(x))) # ..
-
딥러닝 옵티마이저: Adabelief Optimizer컴퓨터/파이썬 2020. 10. 27. 12:48
Adabelief v0.1.0 Adapting Stepsizes by the Belief in Observed Gradients Adabelief Optimizer 설명 juntang-zhuang.github.io 1. 소개 공식 소개 Adam처럼 빠르고, SGD처럼 일반화 잘하고, GAN을 트레인 하기에 충분히 안정적이다. Adabelief는 Adam을 수정한 딥러닝 최적화 알고리즘이다. (실제로 Adam에서 한 줄만 바꿔도 됨) 더 빠른 트레이닝 수렴 더 안정적인 트레이닝 더 나은 일반화 더 높은 모델 정확도 2. Adam에서의 문제 SGD(확률적 경사 하강법)의 초반 트레이닝에서 수렴이 너무 느린 문제를 해결한 Adam. 하지만 Adam은, 기울기(gradient)가 크지만, 분산(variance)..