표군의 논문 읽는 블로그

[공정제어] Model-based control for column-based continuous viral inactivation of biopharmaceuticals

표군 — Wed, 11 Dec 2024 18:41:52 +0900

저자 : Moo Sun Hong, Amos E. Lu, Richard D. Braatz et al.

링크 : https://doi.org/10.1002/bit.27846

생물공정의 단계 중 일부인 viral inactivation의 연속 공정의 제어 설계를 다루는 논문 리뷰입니다.

1. Introduction

기존의 생물공정들은 대부분 batchwise로 진행되었으나, 비용 절감과 유연성 및 품질 개선 등의 이유로 인해 batch process를 continuous process로 전환하려는 시도가 최근 이루어졌음.
이러한 시도는 생물반응기나 크로마토그래피에 대해서는 활발히 진행되었지만, viral removal process는 그에 비해 관심을 적게 받았음. Viral removal process란 master cell bank(선택한 세포 클론에서 얻은 세포들을 하나로 회수하여 합한 것)에 포함될 수 있는 바이러스나 바이러스 유사 입자를 제거하고 비활성화하는 단계로, 대표적 예시로 batch low-$\text{pH}$ hold가 있음.
"Downstream processing of monoclonal antibodies—Application of platform approaches"(Shukla et al., 2007)에 따르면 단일클론항체(mAb)가 낮은 $\text{pH}$에서 안정하므로 low-$\text{pH}$ viral inactivation 공정을 통해 다양한 생물공정 생성물 내의 레트로바이러스를 비활성화할 수 있음. 이후 용액 중화를 위해 염기를 가함. 이 때 용액의 $\text{pH}$ 유지를 위해 buffering species의 $\text{pK}_a$에 대한 고려가 중요함.
Low-$\text{pH}$ hold 공정의 중요 변수(CPP)는 pH와 체류시간분포(RTD)임. Low-$\text{pH}$ hold 공정의 연속화를 위한 다양한 방법들이 제시되었지만 구체적인 공정 시스템의 제어에 대해서는 조사된 바가 없음.
본 연구에서 제안한 column-based continuous viral inactivation system은 모델(수식)을 기반으로 한 $\text{pH}$의 피드백 제어를 통해 공정의 빠른 startup과 외란 요소 제거가 가능함. 또한 UV-transparent한 inverse tracer를 주기적으로 주입하여 RTD를 추정하고, 이를 통해 최소체류시간(MRT)를 추정하여 feed flow rate을 조정할 수 있음.

2. Materials and Methods

본 연구에서 사용한 lab-scale의 continuous viral inactivation system의 구조는 아래와 같음.

Pump로는 multi-channel peristaltic pump(정밀유량제어 튜브연동식펌프)를 사용하였음.
In-line mixer를 의해 input tank에서 나온 solution과 acid를 혼합하여 $\text{pH}$를 낮춤.
산 혼합 용액은 in-line $\text{pH}$ 전극을 통해 용액의 $\text{pH}$ 정보가 컴퓨터로 전송됨.
$\text{pH}$ 전극을 통과한 용액은 injection tank로부터 주입된 UV-transparent tracer(DIW)와 혼합된 후 inert glass로 충진된 칼럼으로 이동함. 칼럼 전후로 UV 흡광도 센서가 설치되어 용액의 column transit을 정량적으로 측정함.
칼럼을 빠져나온 용액은 in-line mixer에 의해 염기와 혼합되어 $\text{pH}$가 다시 올라가고, 용액의 $\text{pH}$는 $\text{pH}$ 전극에 의해 측정됨.
시스템을 제어하는 PLC(programmable logic controller)에는 $\text{pH}$ 데이터의 평탄화를 위해 low-pass filter가 적용되었음.
$\text{pH}$ 제어를 위해서는 베이즈 추정법이 사용되었음. 자세한 내용은 3장에 계속됨.
외피형 바이러스(enveloped virus)의 surrogate로 Phi6 박테리오파지가 사용되었음. Phi6 박테리오파지는 비병원성이고, mammlian enveloped virus와 성질이 비슷하며, 배양과 분석이 쉽고 싸다는 장점이 있음. Phi6 박테리오파지의 숙주 박테리아로는 P. syringae를 사용하였음.
P. syringae를 지수생장기(숙주 세포가 충분히 활성화된 상태)까지 배양한 후 Phi6 박테리오파지에 감염시켰음. 24시간 후 bovine pancreatic DNase I(숙주 DNA를 분해하여 불순물을 제거하는 역할)를 가한 후 실온에서 incubate하였음. 이후 NaCl(불용성 물질을 침전)을 가하여 얼음 속에서 1시간 동안 incubate하고 용액을 원심분리(NaCl로 침전된 숙주 세포 잔해와 불순물을 제거)시켰음. 그리고 폴리에틸렌글리콜을 가한 후 용액을 다시 원심분리해 lysate 내의 파지를 석출시켰음. 석출된 파지는 SM buffer(박테리오파지를 안정적으로 보관)와 CsCl(밀도구배 형성) 혼합 용액을 가하여 resuspend되고, 이후 용액을 초고속 원심분리하여 band fraction을 수집함. 얻어진 파지 샘플은 3일 간 투석(CsCl과 같은 염이나 PEG 등 남아 있는 작은 분자 불순물을 제거)되고 membrane filter(잔여 세포 잔해나 기타 큰 입자를 제거)에 통과시켰음.
Phi6 파지의 titer(농도)는 phage plaque assay를 통해 분석하였음. Buffer를 이용해 시료를 1:10 비율로 단계적으로 희석한 후, 희석된 시료를 굳은 LB 배지에 접종함. 이 위에 하루 동안 배양된 LB 배지와 P. syringae 혼합 용액을 고르게 끼얹어준 후 실온에서 건조시켜 하루 동안 배양시킴. 이후 파지가 박테리아를 용해하여 생성된 plaque의 개수를 세어 phage titer 및 LRV(logarithmic reduction value; 바이러스, 미생물, 또는 기타 오염물질의 제거 정도를 측정하는 데 사용되는 지표)를 계산할 수 있음.

3. Results and Discussions

적정 곡선의 비선형성을 제어하기 위해 model-based reaction-invariant controller가 사용되었음. 칼럼 내에 일정한 flow rate을 유지하기 위해 제어기는 flow rate 대신 flow ratio를 조절함. 또한 베이즈 추정법을 이용해 $\text{pH}$ 센서에서 얻은 데이터로부터 용액의 $\text{pK}_a$와 농도를 업데이트함. 이를 통해 실시간으로 산과 염기의 투입량을 예측할 수 있으며, 구체적 제어 방법은 "pH and Conductivity Control in an Integrated Biomanufacturing Plant"(Lu et al., 2016)을 참고하였음.
본 연구에서는 좁은 체류시간 분포를 갖는 packed-bed column-based system을 채택하였음. 칼럼 내에는 비활성 유리 비드를 충진하였음. 칼럼은 낮은 수준의 압력강하와 분산을 유지하면서 용액 처리량과 체류시간의 요구치를 만족하도록 설계되었음. 칼럼의 flow rate(처리량)와 average residence time은 아래 식으로 나타낼 수 있으므로 칼럼의 지름 $d$와 길이 $L$을 결정할 수 있음.

$Q = \frac{\pi d^2 v_s}{4}$, $\tau = \frac{L}{u} = \frac{\epsilon L}{v_s}$

($v_s$는 superficial velocity, $\epsilon$은 칼럼 공극률)

Packing size는 Kozeny-Carman equation을 통해 얻을 수 있으며, 압력강하 $\Delta P$와 packing 및 dispersion에 의한 피크의 표준편차 $\sigma$는 아래와 같이 나타낼 수 있음. 압력강하 조건을 만족하면서도 피크의 퍼짐을 최소화하기 위하여 패킹의 크기와 superficial velocity를 둘 다 작게 설정하였음.

$\Delta P = \frac{180 \mu \tau (1 - \epsilon)^2}{\phi_s^2 \epsilon^4} \left( \frac{v_s}{d_p} \right)^2$, $\sigma = 2 \sqrt{\tau \frac{d_p}{v_s}}$

산을 가하여 $\text{pH}$를 낮춘 용액은 충분한 시간 동안 incubate되어야 하지만, 너무 길게 incubate할 경우 응집 등에 의해 오히려 품질을 저하시킬 수 있음. 따라서 이러한 tradeoff에 대한 정량적 이해가 수반되어야 하며, 이는 RTD를 통해 분석할 수 있음. 본 시스템은 PFR과 CSTR의 연결처럼 모델링할 수 있으며, 각 반응기의 확률분포함수 $E$와 inlet concentration $C_{\text{in}}$을 convolution하여 inlet concentration $C_{\text{out}}$을 계산할 수 있음.

$C_{\text{out}}(\theta)=C_{\text{in}}(\theta) * E(\theta, \text{Pe}, x)= \int_0^\theta C_{\text{in}}(\theta - \theta ')E(\theta ', \text{Pe}, x) d \theta '$

$E(\theta, \text{Pe}, x) = E_{\text{PFR}}(\theta, \text{Pe}, x) * E_{\text{CSTR}}(\theta, x)$

$F(\theta, \text{Pe}, x)=\int_0^\theta E(\theta ', \text{Pe}, x) d \theta '$

($\theta$는 무차원 시간, $x$는 residence time fraction, $F$는 누적 분포 함수)

위 식을 이용하여 최소 체류 시간 $\tau_{\text{min}}$을 $\eta$에 대해 정의할 수 있음. $\eta$는 시간 $\tau_{\text{min}}$ 이전에 칼럼을 나가는 물질의 분율을 의미하며, 대개 $10^{-5}$와 $0.005$ 사이의 값을 가지는 것으로 알려져 있음.

$F(\theta(\tau_{\text{min}}, \tau), \text{Pe}, x)=\eta$

RTD는 반응기 설계, 파울링, input flow rate 등에 의해 영향을 받으므로 이러한 변수들의 외란을 제거하는 것이 필요함. 특히 긴 시간 동안 운전되는 연속 공정에서는 외란 제거가 중요함. 그러나 RTD는 확률분포의 특성상 무한 차원의 데이터를 포함하므로, flow rate와 같은 스칼라 변수로는 완전한 제거가 불가능함. 따라서 RTD의 외란을 직접적으로 제거하기보다는 RTD를 스칼라화한 측정값, 즉 LRV와 MRT의 교란을 제거하는 것이 보다 효율적인 대안임. 이러한 방법을 통해 체류시간의 외란 요소를 제거할 수 있음.
MRT의 제어를 위해서는 RTD와 MRT를 적절히 측정해야하고, 측정된 MRT에 따라 flow rate를 조절하는 피드백 제어 알고리즘이 필요함. 그러나 작은 $\eta$ 값에 대해서는 in-line 센서의 노이즈 때문에 tracer를 이용한 직접적 측정이 불가능함. 따라서 베이즈 추정법을 통해 RTD 분포의 파라미터를 얻은 후 MRT를 결정하였음. Beer-Lambert law에 의해 280 nm에서의 시간에 따른 흡광도 $A_{280}(t)$는 농도 $C(t)$에 비례하며, 칼럼 입구와 출구의 흡광도는 확률분포함수와의 convolution을 통해 계산할 수 있음. 이후 베이즈 추정법을 적용하여 파라미터 $\tau$, $\text{Pe}$, $x$를 추정하였음. 추정된 파라미터는 누적분포함수 $F$에 대입되어 MRT를 계산할 수 있음.

$A_{280, \text{out}}(\theta) = A_{280, \text{in}}(\theta) * E(\theta, \text{Pe}, x)$

$\tau, \text{Pe}, x = \underset{\tau, \text{Pe}, x}{\text{argmax}} \int_0^T [A_{280, \text{in}}(\theta) * E(\theta, \text{Pe}, x) - A_{280, \text{out}}(\theta)]^2dt$

편향을 줄이고 정확한 매개변수 추정을 위해 흡광도는 충분한 변동성을 갖고 있어야 함. 그러나 연속 공정과 같이 시스템의 변동성이 없다면 농도 변동을 의도적으로 도입해야 함. 이러한 변동을 안전하게 도입하기 위해 탈이온수(DIW)를 주기적으로 주입하였음. DIW는 단백질이 포함된 input solution에 비해 UV 흡광도가 거의 없기 때문에 용액을 효과적으로 희석시켜 흡광도를 낮추고 필요한 변동성을 제공할 수 있음.
이렇게 계산된 MRT는 peristaltic pump의 회전 속도를 피드백 제어하는 데에 사용됨. Peristaltic pump는 회전 속도와 유량이 거의 정비례하므로 setpoint에서의 MRT와 현재 시간에서의 MRT를 비교하여 다음 time step에서의 $\omega_{i+1}$을 추정할 수 있음. MRT가 낮아지면 유량을 낮춰야 하고, 반대로 MRT가 높아지면 유량을 늘려야 하므로 아래와 같은 피드백 제어 식을 유도할 수 있음.

$\omega_{i+1} = \frac{\omega_i \tau_{\text{min}, i}}{\tau_{\text{min, SP}}}$

그러나 유량 자체만을 조절하여 체류 시간을 제어하는 방법은 inlet flow rate의 변화에 반응하는 자유도가 하나 줄어드는 효과가 있으므로 inlet flow rate의 갑작스러운 변화가 발생하는 상황에 대응하는 데에 취약함. 따라서 product stream을 희석하거나 surge tank를 도입하여 inlet flow rate의 급격한 변동을 완충하여 문제를 완화할 수 있음.

실험 결과 $\text{pH}$ 제어기가 setpoint를 빠르고 정확하게 따라갔으며, RTD 모델 또한 MRT와 칼럼 전후 용액 흡광도를 잘 예측하였음. Buffer의 변경에 의한 갑작스러운 $\text{pK}_a$의 변화는 베이즈 추정법에 의해 빠르게 업데이트되었으며, 칼럼 길이 변경에 의한 RTD 및 MRT의 외란 또한 펌프 회전 속도 제어에 의해 정확하게 복구되었음.
Viral inactivation 및 LRV는 $\text{pH}$(3.5 ~ 4.8)와 MRT(2.5분 ~ 20분)를 각각 변화시켰을 때에 측정되었음. MRT = 300 sec로 일정할 때 LRV는 first mixing unit에서의 $\text{pH}$가 감소할수록 증가하였고, $\text{pH} = 4.5$일 때 LRV는 MRT가 증가할수록 같이 증가하였음. 이러한 LRV 측정 결과는 연속공정의 운전 시간이 달라져도 일정한 값으로 재현이 잘 되었음.

4. Conclusion

제어기의 적절한 설계 후 검증 실험을 통해 $\text{pH}$와 MRT의 tight control이 가능함을 확인하였음. 또한 베이즈 추정법을 통해 추정한 $\text{pK}_a$와 RTD가 정확함을 확인하였고, 이는 갑작스러운 외란에도 $\text{pH}$와 MRT의 빠른 제어를 가능케 하였음.
위와 같은 제어 시스템을 이용하여 연속 공정 결과 얻어진 용액의 viral inactivation과 $\text{pH}$ 및 MRT 사이의 상관관계를 확인할 수 있었음.
이러한 중요공정변수의 엄격한 제어는 과도한 조절이 불필요하게 발생하는 것을 방지하고 연속공정의 제품 품질과 생산성, 그리고 안정성을 개선할 수 있도록 기여함.

[딥러닝] Adam: A Method for Stochastic Optimization

표군 — Fri, 22 Nov 2024 21:46:35 +0900

저자 : Diederik P. Kingma, Jimmy Lei Ba

링크 : https://arxiv.org/abs/1412.6980

Adam: A Method for Stochastic Optimization

We introduce Adam, an algorithm for first-order gradient-based optimization of stochastic objective functions, based on adaptive estimates of lower-order moments. The method is straightforward to implement, is computationally efficient, has little memory r

arxiv.org

대학원 진학을 준비하면서 인공지능을 처음 접하게 되었고, 딥러닝 코드를 다루다 보니 정말 자주 보게 된 것이 바로 Adam인데요...! Adam의 기본적인 작동 원리는 알고 있었지만 왜 그렇게 많은 딥러닝 코드에서 Adam을 최적화 방법으로 사용하는지 궁금했습니다. 인공지능 강의에서도 '웬만하면 Adam을 쓰는 게 좋다'라고 하고 대충 넘어가기도 했고요. 그래서 Adam을 처음 제안한 논문을 읽고, 이해를 돕기 위해 나름 제 언어로 쉽게 재구성해보았습니다.

1. Introduction

Random data subsampling이나 noise, dropout 등에 의해서 인공지능 머신의 목적함수는 확률적(stochastic)일 때가 많음. 따라서 고차원의 파라미터 공간 상에서 확률적 목적함수를 효율적으로 최적화하는 기법이 중요함.
고차 도함수(ex. Newton method)를 사용하는 최적화 기법의 경우 텐서 연산의 시간 복잡도가 차수에 지수적으로 증가하므로 매우 비효율적임. 또한 비볼록(non-convex) 최적화 문제에서는 알고리즘 성능이 좋지 않음. 따라서 1차 도함수 기반 최적화 기법에 집중하였음.

경사하강법 vs 뉴턴법

Adam은 1차 도함수 및 1차•2차 모멘트만을 사용하여 각 파라미터의 learning rate을 adaptive하게 조정함. 간단한 알고리즘 구조로 인해 메모리 사용량이 적음.
Adam은 기울기의 합을 누적하여 sparse gradient에 적합한 AdaGrad와, 현재 기울기에 가중치를 부여하여 on-line (실시간) 및 non-stationary(시간에 따라 통계적 특성이 변화하는 비정상성)에 적합한 RMSProp의 장점을 통합함.

2. Algorithm

Adam Algorithm

$g_t$는 시간 $t$에서 목적함수의 기울기(그라디언트)를 의미함.
$m_t$는 $g_t$의 지수이동평균을, $v_t$는 $g_t^2$의 지수이동평균을 의미함.
지수이동평균(exponential moving average, EMA)이란 과거의 모든 기간을 계산 대상으로 하며 최근의 데이터에 더 높은 가중치(과거로 갈수록 지수적으로 감소하도록 설정)를 두는 가중이동평균법.

Adam Optimizer 지수이동평균의 점화식을 일반항으로 표현한 식.

Adam은 update stepsize을 신중하게 선택하는 알고리즘임.
Sparse gradient가 극단적인 경우, 과거의 모든 시점에서 gradient가 0이므로 현재 시점에서의 업데이트가 느리고 비효율적임. 따라서 stepsize를 크게 조정해줄 필요가 있고, 이는 learning rate($\alpha$)에 1보다 큰 상수 $(1-\beta_1) / \sqrt{1-\beta_2}$를 곱해줌으로서 보정할 수 있음.
본 논문에서 sparse gradient의 경우에 $(1-\beta_1) > \sqrt{1-\beta_2}$의 부등식이 성립한다고 한 이유가 뭘까?
Sparse gradient의 경우에서는 stepsize $|\Delta_t| = \left\vert \alpha \frac{\hat{m}_t}{\sqrt{\hat{v}_t}} \right\vert$를 키워주기 위해 분자에 위치한 $m_t$는 크게, 분모에 위치한 $v_t$는 작게 보정해야 함. 이를 위해서는 $m_t$를 계산할 때에는 과거의 데이터를 적게, $v_t$를 계산할 때에는 과거의 데이터를 많이 고려해야 함. 왜냐하면 과거의 그라디언트는 대부분 0이기 때문에 이를 모두 고려하면 지수이동평균의 절댓값은 작아지게 되고, 반대로 적게 고려하면 절댓값은 커지게 됨. 따라서 $\beta_1$는 줄여야하고 $\beta_2$는 키워야 효과적으로 stepsize를 크게 보정할 수 있음.
이외의 일반적인 경우에는 $(1-\beta_1) \leq \sqrt{1-\beta_2}$이므로 $|\Delta_t| \leq \alpha$가 성립함. 따라서 모델 파라미터에 대한 사전 분포를 알고 있는 경우 learning rate($\alpha$)의 scale을 적절하게 추정할 수 있음.
Learning rate($\alpha$)에 곱해진 상수 $\hat{m}_t / \sqrt{\hat{v}_t}$는 마치 SNR처럼 해석할 수 있음. 이 SNR은 최적점에 도달할수록 0에 접근하므로 알고리즘 내재적으로 gradient annealing을 구현할 수 있음.
목적함수의 그라디언트 $g_t$가 상수배가 되어도 $\hat{m}_t$와 $\sqrt{\hat{v}_t}$ 모두 동일한 만큼 scaling되므로 stepsize $|\Delta_t|$에 영향을 미치지 않음. 즉, stepsize는 그라디언트의 scale에 불변(invariant)함.

3. Initialization Bias Correction

$m_0 = v_0 = 0$이므로 모멘트의 추정값은 0 근처에 biased됨. 이는 머신의 학습을 방해할 수 있기 때문에 모멘트 값을 보정하여 효율적인 학습을 유도함.
Batchwise의 학습 방식은 $g_t^2$의 실제 기댓값을 정확하게 계산할 수 없기 때문에 $v_t$의 기댓값으로부터 추정해야 함(메모리 효율성 등의 이유도 있을 것임). 이 때 아래와 같은 관계가 성립함. $\zeta$는 $g_i^2$이 시간에 따라 독립적이라고 가정한 결과 발생한 오차를 나타내는 항임.

$\beta$의 값을 적절히 선택하여 $\zeta$가 0에 근접하도록 할 수 있음.
그러면 $\mathbb{E}[g_t^2] = \frac{\mathbb{E}[v_t]}{(1-\beta_2^t)}$가 성립하므로 위와 같이 bias-correction term을 도입할 수 있음.

4. Convergence Analysis

Regret이란 결정 이론(decision theorem) 및 후회 이론(regret theorem)에 기반한 개념으로, 모든 선택의 순간에서 최선의 선택과 실제 선택의 차이에 의한 손실의 합으로 정의됨. Reinforcement learning과 같은 stochastic learning model에서 성능을 평가하는 주요 지표로 자주 활용됨.

Adam algorithm에서 regret은 일정 상한 이하로 유계이며, regret bound는 ($\sqrt{T}$)의 복잡도를 가짐. 따라서 시간에 따른 평균 regret $\frac{R(T)}{T}$는0에 수렴함. 이는 장기적으로 알고리즘이 최적의 결정을 내림을 보장함.
학습 후반부에서 파라미터들이 최적점에 접근함에 따라 그라디언트의 변동성이 감소하므로 학습의 효율성을 위해서는 과거 그라디언트 정보의 의존도를 줄이는 것이 좋음. 따라서 학습 후반부에서 $\beta$를 감소시키면 좋음. 본 논문에서는 시간에 따라서 지수적으로 $\beta$를 감소하는 방법($\beta_{1,t} = \beta_1 \lambda^{t-1}$)을 제시함.
Data가 sparse한 경우 그라디언트가 0인 파라미터에 의해 regret의 상한 값은 더욱 감소함. 따라서 Adam은 sparse한 문제에도 적합한 알고리즘임.

5. Related Work

Adam은 RMSProp과 Momentum의 장점을 통합한 알고리즘으로 생각할 수 있지만, 단순히 둘을 병합한 것과는 차이가 있음. RMSProp + Momentum은 rescaled gradient($G_{t,j}$)의 모멘텀($V_{t,j}$)을 이용하여 파라미터를 업데이트하지만, Adam은 1차 및 2차 모멘텀의 이동평균을 보정해 파라미터를 직접적으로 업데이트함.
AdaGrad는 Adam의 특수한 경우로 $\beta_1=0, \beta_2 \approx{1}$인 Adam algorithm에 $\alpha_t = \frac{\alpha}{\sqrt{t}}$의 learning rate schedule를 적용한 것과 동일함.

6. Experiments

MNIST dataset: 1/√t decay를 적용한 AdaGrad, SGD와 Adam의 로지스틱 회귀 모델 성능 비교.
→ Adam은 AdaGrad보다 빠르게, SGD와 유사하게 수렴함.
IMDB BoW dataset: Dropout과 전처리를 적용한 sparse dataset에 대하여 AdaGrad, RMSProp, SGD, Adam의 성능을 비교.
→ Adam은 sparse features에 대해 좋은 성능을 보였고, 특히 SGD보다 크게 개선된 수렴 속도를 보였음.
Multi-layer NN (+ Dropout) 모델 비교
→ Non-convex 최적화 문제임에도 불구하고 Adam이 가장 빠르게 수렴하였음.
(SFO method: 전체 목적 함수를 미니배치 단위의 부분 함수들의 합으로 분해하여 stochastic과 quasi-Newton method의 장점을 결합)
CNN (+ Dropout) 모델 비교
→ Dropout을 적용한 모델과 적용하지 않은 모델끼리 묶어서 비교했을 때 둘 다 Adam이 가장 빨리 수렴.
(다만 실제로는 SGDMomentum가 Adam보다 좋은 성능을 보일 때도 많음.)
Bias-Correction Term 분석 (RMSProp + Momentum과 Adam의 비교)
→ Bias-correction term이 없을 시 $\beta_2$가 1에 접근할수록 loss가 불안정해짐. 가장 안정한 경우는 bias-correction term과 함께 $\beta_2$가 1에 가까운경우임. 하이퍼-파라미터의 설정과 관계 없이 Adam은 $\beta_1 = 0$인 (RMSProp + Momentum)의 경우보다 우수한 robustness 및 최적화 성능을 보임.

7. AdaMax

Adam의 분모($L^2$ norm)를 $L^p$ norm으로 확장함. $p$가 무한히 커질 때 간단하고 안정한 알고리즘이 유도됨.

빨간색 부분이 기존의 Adam algorithm과 다른 부분.

Adam과 비교했을 때 bias-correction term이 빠지고 2차 모멘텀의 정의가 $L^p$ norm의 재귀적 표현으로 수정되었음. Bias-correction term이 필요 없는 이유는 $L^p$ norm의 수학적 특성상 max 연산자에 의해 초기값 0의 영향 및 bias가 첫 번째 계산 이후 사라지기 때문임.
Bias-correction이 필요 없고 update stepsize의 상한 추정이 간단해졌다는 장점이 있음. 또한 max 연산자의 특성상 sparse gradient나 high variance gradient에 의한 민감성을 평탄화할 수 있음. 그러나 max 연산자 때문에 분모가 계속 커지므로 vanishing gradient에 취약함.

8. Conclusion

• Adam은 RMSProp과 AdaGrad의 장점을 통합하고, non-convex 최적화 문제에도 잘 적용되니까 좋다...!