مقاله درباره (Z_i، Q_i، تغيير، توزيع

دانلود پایان نامه ارشد

Z, X)〗-ln⁡〖P(X)〗
D_KL [Q(Z)∥P(Z├|X┤)]=-∫▒dZ(Q(Z) ln⁡〖P(Z, X)/Q(Z) 〗+ln⁡〖P(X)〗 )
سرانجام، تعريف ميکنيم
L[Q(Z)]=∫▒dZ(Q(Z) ln⁡〖P(Z, X)/Q(Z) 〗+ln⁡〖P(X)〗 )
بنابراين بدست ميآيد
D_KL [Q(Z)∥P(Z├|X┤)]=-L+ln⁡〖P(X)〗
جمله log⁡〖P(X)〗 که همان لگاريتم راستنمايي (يا لگاريتم شواهد688) است که نسبت به Q ثابت ميباشد بنابراين ميتوانيم در ادامه براي اهداف مينيممسازي خود آن را ناديده بگيريم. در اينصورت اگر بخواهيم واگرايي-KL را مينيمم نماييم، بايد L ماکزيمم شود.
با اين حال، ماکزيممسازي هنوز به قيد نرمالسازي زير مشروط است:
∫▒〖dZ_i Q_i (Z_i )=1〗, ∀i
L[Q(Z)] کران پايين لگاريتم راستنمايي مدل،P(X)=P(X|M┤)، است (از اين به بعد از استفاده از نماد M خودداري ميشود زيرا تنها با يک مدل منفرد کار ميکنيم). کران پايين L[Q(Z)] به انرژي آزاد در يادگيري تغيير689 معروف است، زيرا ميتواند به صورت يک متوسط انرژي (انرژي انتظاري) E_Q [ln⁡〖P]〗 بعلاوه آنتروپي Q نوشته شود. (فينمن690، 1972؛ نيل و هينتون691، 1998) بنابراين بهترين کران، هنگامي بدست ميآيد که L[Q(Z)] نسبت به Q ماکزيمم گردد.
دليل اینکه چرا L کران پايين است از طريق مرتب‌سازی روابط بالا، به صورت زير قابل مشاهده است
ln⁡〖P(X)〗=L[Q(Z)]+D_KL [Q(Z├|X┤)∥P(Z)]
ln⁡〖P(X)〗≥L[Q(Z)]

شکل 2.4. خطاي بين کران پايين و لگاريتم راستنمايي

اين رابطه نشان ميدهد که واگرايي-KL، فاصله يا خطاي بين کران پايين L و لگاريتم راستنمايي ln⁡〖P(X)〗 ميباشد. (شکل 2.4)

4-5-1- راه حل بهينهسازي انرژي آزاد692
اکنون ميخواهيم Q را به گونهاي بيابيم که کران پايين را مشروط بر قيد نرمالسازي، ماکزيمم نماید
L[Q(Z)]=∫▒〖dZQ(Z)ln⁡〖(P(Z, X))/(Q(Z))〗 〗
=∫▒〖dZQ(Z)log⁡〖P(Z, X)〗 〗-∫▒〖dZQ(Z)ln⁡〖Q(Z)〗 〗
=〈E(Z, X)〉_(Q(Z))+H[Q(Z)]
در رابطه بالا انرژي را به صورت E=ln⁡P و آنتروپي شانون را به صورت H[Q(x)]=-∫▒〖dxQ(x)ln⁡〖Q(x)〗 〗 تعريف کرديم. بر طبق فرض ميدان-ميانگين (فاکتورگيري کامل) داريم
L[Q(Z)]=∫▒dZ(∏_i▒〖Q_i (Z_i ) 〗) E(Z, X)-∫▒dZ(∏_k▒〖Q_k (Z_k)〗) ∑_i▒ln⁡〖Q_i (Z_i)〗 (27)
جمله آنتروپي (سمت راست) را در نظر بگيريد. ميتوان عبارت یک ﺣﺎﺻﻞجمع را به صورت زیر از آن بيرون آورد
∑_i▒〖∫▒dZ(∏_k▒〖Q_k (Z_k)〗) ln⁡〖Q_i (Z_i)〗 〗
افراز Z∈{Z_i, Z ̅_i} را که Z ̅_i=Z⁄Z_i در نظر بگيريد.
=∑_i▒∫▒〖dZ_i dZ ̅_i Q_i (Z ̅_i ) Q_i (Z_i)ln⁡〖Q_i (Z_i)〗 〗
=∑_i▒〈∫▒〖dZ_i Q_i (Z_i)ln⁡〖Q_i (Z_i)〗 〗〉_(Q(Z ̅_i))
=∑_i▒∫▒〖dZ_i Q_i (Z_i)ln⁡〖Q_i (Z_i)〗 〗
با جايگذاري عبارت بدست آمده از بالا، در سمت راست معادله (27) بدست ميآيد
L[(Q(Z)]=∫▒dZ(∏_i▒Q(Z_i ) ) E(Z, X)-∑_i▒∫▒〖dZ_i Q(Z_i ) ln⁡Q(Z_i ) 〗 (28)
اکنون عبارت انرژي در معادله (28) (سمت چپ) را در نظر بگيريد، با مرتبسازي و جداسازي يک متغير از آن داريم
∫▒〖dZ(∏_i▒〖Q_i (Z_i ) 〗)E(Z, X)〗=∫▒〖dZ_i Q_i (Z_i)∫▒〖dZ ̅_i.Q(Z ̅_i )E(Z, X)〗〗
=∫▒〖dZ_i Q_i (Z_i)〈E(Z, X)〉_(Q(Z ̅_i)) 〗
=∫▒〖dZ_i Q_i (Z_i)ln⁡〖exp〈E(Z, X)〉_(Q(Z ̅_i)) 〗 〗
=∫▒〖dZ_i Q_i (Z_i)ln⁡〖Q_i^* (Z_i )+ln⁡R 〗 〗
در رابطه بالا تعريف کرديم Q_i^* (Z_i )=1/R exp〈E(Z, X)〉_(Q(Z ̅_i)) و نيز اينکه R، Q_i^* (Z_i ) را نرمال ميکند. اين فرم جديد را در جمله انرژي در معادله (28) جايگذاري ميکنيم. بدست ميآيد
L[Q(Z)]=∫▒〖dZ_i Q_i (Z_i)ln⁡〖Q_i^* (Z_i)〗 〗-∑_i▒∫▒〖dZ_i Q_i (Z_i)ln⁡〖Q_i (Z_i )〗 〗+ln⁡R
آنتروپي H_i=H[Q_i (Z_i )] را از بقيه حاﺻﻞجمع آنتروپيها جدا ميکنيم
L[Q(Z)]={∫▒〖dZ_i Q_i (Z_i)ln⁡〖Q_i^* (Z_i)〗 〗-∫▒〖dZ_i Q_i (Z_i)ln⁡〖Q_i (Z_i )〗 〗}+H[(Q(Z ̅_i )]+ln⁡R
جملات داخل کروشه را در نظر بگيريد
∫▒〖dZ_i Q_i (Z_i ) ln⁡〖Q_i^* (Z_i )〗 〗-∫▒〖dZ_i Q_i (Z_i ) ln⁡〖Q_i (Z_i )〗 〗=
∫▒〖dZ_i Q_i (Z_i)ln⁡〖(Q_i^* (Z_i))/(Q_i (Z_i))〗 〗=-D_KL [Q_i (Z_i∥Q_i^* (Z_i )]
هر چند که ما با هدف مينيممسازي واگرايي-KL بين توزيعهاي مشترک بزرگ شروع کرديم (که کار دشواري است)، اما مشاهده ميشود که مسئله معکوس شد و به مسئله مينيممسازي واگرايي-KL بين
توزيعهاي تکي يک بعدي (که آسانتر هستند) دست يافتيم. مينويسيم
L[Q(Z)]=-D_KL [Q_i (Z_i )∥Q^* (Z_i )]+h[Q_i (Z ̅_i )]+ln⁡R
بنابراين نتیجه گرفته میشود که L از طريق جمله واگرايي-KL، تنها به هر Q_i تکي بستگي دارد. ميخواهيم L را نسبت به هر Q_i، با اين قيد که تمامي Q_iها به يک نرمال شده باشند، ماکزيمم نماييم. چنين هدفي
ميتواند از طريق ضريب لاگرانژ و مشتقات تابعي نسبت به Q_i (Z_i ) به صورت زیر دست یافته شود
δ/(δQ_i (Z_i)) {-D_KL [Q_i (Z_i )∥Q^* (Z_i )]-λ_i (∫▒〖Q_i (Z_i )dZ_i-1)〗}∶=0
بلافاصله مشاهده ميشود که L زماني ماکزيمم ميشود که واگرايي-KL صفر باشد، از اين رو هنگامي که داشته باشیم
Q(Z_i )=Q^* (Z_i)
(به علت وارد کردن R در تعريف قبلي از Q_i^*، قيد نرمالسازي براي Q_i برآورده ميشود). اگر اين تعريف را باز نماييم، Q_i بهينه بدست ميآيد
Q(Z_i )=1/R exp〈E(Z_i, Z ̅_i, R)〉_(Q(Z ̅_i))
که E(Z_i, Z ̅_i, X)=log⁡〖P(Z_i, Z ̅_i 〗, X) انرژي است.
نتيجهگيري کلي آن است که ماکزيممسازي انرژي آزاد تغيير، واگرايي-KL را مينيمم ميکند و چگالي تغيير را به صورت يک پسين تقريبي ميدهد.

4-6- استنباط تغيير
در این رساله، ما بر روشهاي استنباط تغيير براي مدل راستنمايي گاوسين-خطي693 (LG) (گرفيث و قهرماني، 2005) تمرکز کردهايم که در آن A و ϵ متغیرهای تصادفی گاوسين هستند.
مجموعه متغيرهاي نهفته در IBP را با W={π, Z, A} و مجموعه پارامترها را با θ={α, σ_A^2, σ_n^2} نشان ميدهيم. همانطور که قبلاً هم توضیح داده شد، محاسبه لگاريتم پسين واقعي
log⁡p(W├|X, θ┤)=log⁡p(W,X├|θ┤)-log⁡p(X├|θ┤)⁡
به علت غيرقابل بررسي بودن محاسبه لگاريتم احتمال حاشيهاي log⁡〖p(X|θ┤〗)=log⁡∫▒〖p(X, W|θ┤ 〗)dW، دشوار است.
روشهاي تغيير ميدان ميانگين، پسين واقعي را با يک توزيع تغيير694q_Φ (W) از خانواده قابل بررسي توزيع Q تقريب ميزند. (بيل695، 2003؛ ونرايت و جردن، 2008). در اينجا Φ مجموعه پارامترهاي مورد استفاده قرار گرفته براي توصيف توزيع q را مشخص ميکند. در اینصورت براي يافتن آن عضوي از Q، q∈Q که معيار
واگرايي-KL، D_KL ((q_Φ (W)∥p(W|X, θ┤) را مينيمم ميکند، استنباط تغییر به اجراي يک بهينهسازي نسبت به پارامترهاي Φ ميپردازد.
در نخستين رويکرد، واگرايي-KL، D_KL (q∥p_K)، بين توزيع تغيير و يک تقريب متناهي p_K براي IBP توصيف شده در بخش 4-6-1 مينيمم ميگردد؛ در مقاله دوشی ولز و همکاران (2009) اين رويکرد روش تغيير متناهي696 نام نهاده شده است. در اين مدل، مجموعه Q را از خانوادههای فاکتورگيري شده در نظر ميگيريم
q(W)=q_τ (π) q_ϕ (A) q_v (Z)
که τ، ϕ و v، به گونهاي بهينه ميشوند تا D_KL (q∥p_K) را مينيمم سازند. با مينيممسازي نسبت به p_K و نه نسبت به p واقعي، رويکرد نخست، يک لايه اضافي بر تقريب معرفي ميکند که در رويکرد دوم ظاهر
نميشود.
دومين رويکرد، واگرايي-KLD_KL (q∥p) را براي پسين IBP واقعي، مينيمم ميکند. اين رويکرد روش تقريب نامتناهي697 ناميده ميشود زيرا اگر چه يک توزيع تغيير متناهي است، اما به روز رسانيهاي آن بر مبناي پسين واقعی IBP واقعي قرار دارد (که شامل يک تعداد نامتناهي مشخصه است). در اين مدل، به جاي π، مستقیماً وزنهاي چسباندن-شکست v، مورد استفاده قرار ميگيرند. سپس مجموعه Q، از خانواده فاکتورگيري شده درنظر گرفته ميشود
q(W)=q_τ (v) q_ϕ (A) q_v (Z)
که τ، ϕ و v، پارامترهاي تغيير698 هستند. فرمهاي توزيعهاي q و به روزرسانيهاي تغيير در بخش 4-6-1-2 تصريح ميشوند.
استنباط در هر دو رويکرد از طريق بهينهسازي پارامترهاي توزيع تقريب زده شده انجام ميشود به گونهاي که با بيشترين دقت با پسين واقعي شباهت داشته باشد. مجدداً خاطرنشان میسازیم که اين بهينهسازي معادل است با ماکزيممسازي يک کران پايين بر شواهد، چون
log⁡p(X├|θ┤)=E_q [log⁡(p(X, W├|θ┤)]+H[q]+D_KL (q∥p) (29)
≥E_q [log⁡(p(X, W├|θ┤)]+H[q]
که H[q] آنتروپي توزيع q است و بنابراين
argmin┬(τ, ϕ, v)⁡〖D_KL (q∥p)〗=〖arg max┬(τ, ϕ, v)〗⁡〖E_q [log⁡(p(X, W├|θ┤)]+H[q]〗 (30)
اين بهينهسازي محدب نيست؛ به طور کلي ميتوانيم تنها انتظار داشته باشيم که پارامترهاي تغيير بهينه موضعي را بيابيم.
به منظور مينيممسازي D_KL (q∥p)، براي هر کدام از پارامترهاي تغيير، يک تعديل صعودي699 اجرا ميکنيم که طرف راست معادله (30) را ماکزيمم نمايد. براي انجام اين کار همچنين يک کران پايين را بر لگاريتم راستنمايي دادهها بهبود ميبخشيم.
به طور کلي، زمانيکه توزيع شرطي و توزيع تغيير هر دو از خانواده نمايي باشند، در هر مرحله از اجراي تعديل صعودي، يک جواب فرم بسته700 وجود دارد (بيل، 2003؛ ونرايت و جردن، 2008). اگر پارامترهاي تغيير ξ_i که متناظر با W_i هستند را به روز نماييم، ξ_i بهينه جواب مسئله زير خواهد بود
log_(q_(ξ_i ) ) (W_i ) E_(W_(-i) ) [log⁡〖p(X, W|θ┤〗)]+c (31)
که اميد رياضي مطابق با توزيع تغيير و نسبت به همه Wها بجز W_i گرفته شده است. براي توزيعهاي از خانواده نمايي، از رابطه بالا فوراً مقادير به روز رساني شده براي پارامترهاي ξ_i بدست ميآيد.

4-6-1- رويکرد تغيير متناهي
در اين بخش رويکرد تغيير متناهي، معرفي ميشود. اين رويکرد يک الگوريتم استنباط تغيير براي تقريب متناهي از IBP است. به خصوص اينکه، فرض ميشود که IBP با مدل بتا-برنولي متناهي p_K زیر، به خوبي تقريب زده ميشود (گرفيث و قهرماني، 2005)
π_k~Beta(α⁄K,1) for k∈{1…K},
z_nk~Bernoulli(π_k ) for k∈{1…K}, n∈{1…N},
A_k0~Normal(0, σ_A^2 I) for k∈{1…K},
X_n0~Normal(Z_n0 A, σ_n^2 I) for n∈{1…N},
که K سطح برش701 متناهي (اما بزرگ) است. گرفيث و قهرماني (2005) نشان دادند که با ميل کردن K به سمت بينهايت، K→∞، اين تقريب متناهي به توزيع IBP همگرا ميشود. تحت تقريب متناهي، احتمال مشترک دادهها X و متغيرهاي نهفته W={π, Z, A}، برابر است با
p_K (W, X├|θ┤)=∏_(k=1)^K▒(p(π_k ├|α┤)p(A_k0 ├|σ_A^2 I┤)∏_(n=1)^N▒〖p(z_nk |π_k ┤)〗) ∏_(n=1)^N▒〖p(X_n0 |Z_n0, A, σ_n^2 I┤)〗
همانگونه که توضیح داده شد، لگاريتم پسين تحت اين تقريب متناهي
log⁡〖p_K (W|X, θ┤)〗=log⁡〖p_K (W, X├|θ┤)〗-log⁡〖p_K (X|θ┤)〗,
غيرقابل بررسي است، بنابراين از توزيع تغيير زير به عنوان يک تقريب استفاده ميکنيم
q(W)=q_τ (π) q_ϕ (A) q_v (Z)
که
q_(τ_k ) (π_k )=Beta(π_k;τ_(k_1 ),τ_(k_2 ) ),
q_(ϕ_k ) (A_k0 )=Normal(A_k0; ϕ ̅_k,Φ_k ),
q_(v_nk ) (z_nk )=Bernoulli(z_nk;v_nk ).
استنباط از طريق بهينهسازي τ، ϕ و v، يا به منظور مينيممسازي واگرايي-KLD(q∥p_K) يا، همينطور، ماکزيممسازي کران پايين بر p_K (X|θ┤) انجام ميگيرد
E_q [log⁡〖(p_K (X, W├|θ┤)]+H[q]〗
اگرچه استنباط تغيير با لحاظ مدل بتا-برنولي متناهي p_K، مشابه استنباط تغيير با لحاظ پسين IBP واقعي نميباشد، اما به روز رسانيهاي تغيير به طور قابل توجهي سادهتر هستند و در حد براي مقادير بزرگ K، مدل بتا-برنولي متناهي معادل با IBP است.

4-6-1-1- کران پايين بر روي راستنمايي حاشيهاي
در اين بخش کران پايين به تفصيل شرح داده ميشود. مجموعه

پایان نامه
Previous Entries مقاله درباره فرآيند، توزيع، نمونهگيري، مشخصههاي Next Entries مقاله درباره راستنمايي، يکنواخت، چگالي، f(.|e┤)