منابع پایان نامه درمورد تحلیل داده، تحلیل داده های تاریخی، داده های سانسور شده

دانلود پایان نامه ارشد

های انتقالی را امکان پذیر می سازد. این برنامه توسط فایل های متنی کنترل می شود، کاربر یک فایل ورودی ایجاد می کند که شامل دستورات برنامه است و با ارجاع دادن به آن فایل ورودی، منتظر می ماند تا برنامه خاتمه پیدا کند و خروجی برنامه را دریافت نماید.یعنی TDA مواردی از قبیل منوها، کلیدها، پنجره ها و … ارائه نمی کند.
یک فایل دستور TDA برای تجزیه و تحلیل داده های تاریخی- رخدادی شامل موارد زیر است:
1- ارجاع به یک فایل Data و تعریف متغیرها (فایل داده ها و متغیرها)؛
2- تعیین داده های اصلی تاریخی رویدادی (مثل زمان آغاز و پایان و وضعیت مبداء و مقصد)؛
3- تعریف نوع مدلی که باید برآورد شود و متغیرهایی که باید استفاده شود (تحلیل ناپارامتری یا نیمه پارامتری).
4-
3-4- توزیع های پارامتریک
توزیع های پارامتریک سعی می کنند تا خصوصیات ضروری یک توزیع طول عمر را با استفاده از یک یا دو پارامتر توضیح دهند.(یک پارامتر مکان و یک پارامتر مقیاس). پارامترهای مکان و مقیاس باید از داده هایی برآورد شوند که در مورد آنها فرض شکل تابعی پارامتریک صحیح است. این پارامترها توصیف کننده هازارد پایه ای هستند که باید اطلاعاتی در مورد وابستگی زمان و طول عمر داشته باشد. برخی از مدل های پارامتریک که در تجزیه و تحلیل تاریخچه ای – رخدادی استفاده می شود عبارتند از:

1- Log- Logistic Model
2- Log- Normal Model
3- Weibull Model
4- Gompertz-Makeham Model
5- …
3-5- روش های توصیفی ناپارامتریک
براي توصيف مجموعه داده از روش هاي توصيفي ناپارامتريک استفاده مي شود. روش های ناپارامتریک شامل جدول عمر، برآورد حد محصول (کاپلان مایر)، روش حاصلضرب مخاطره نلسون- آلن می باشد. در این تحقیق از دو روش جدول عمر و برآورد کننده حد محصول ( معروف به کاپلان ماير) استفاده شده است. هر دو اين روش ها براي نمايش گرافيکي تابع بقا و نرخ هاي انتقال مفيد هستند. روش های ناپارامتریک هیچ شکل تابعی را برای تابع خطر فرض نمی کند. اساس این روش ها برآورد حاصل ضرب حدی توزیع بقاست که توسط کاپلان و مایر (1958) معرفی شده است. با توجه به اینکه در این تحقیق شرکت های تازه وارد مورد مطالعه قرار می گیرند رویکرد جدول عمر نیز مورد استفاده قرار می گیرد.
3-5-1- روش جدول عمر77
وقتی تعداد مشاهدات و موارد مورد بررسی زیاد باشد ممکن است بیش از یک رویداد در هر زمان رخ دهد. در این صورت روش کاپلان مایر جداول بسیار طولانی را موجب می شود که ارائه و تفسیر آن ها خیلی مطلوب نبوده و وقت گیر است. بنابراین روش دیگری به نام «جدول عمر» بکار گرفته می شود که درآن زمان وقوع رویدادها را به صورت بازه های زمانی تقسیم می کند. روش جدول عمر محاسبه برآوردهای ناپارامتریک تابع بقا، تابع چگالی و نرخ انتقال را برای طول عمرهای داده شده در مجموعه ای از اپیزودها امکان پذیر می سازد. برای این روش 2 مانع وجود دارد: اول اینکه،گروه بندی طول عمرها در فواصل ثابت ضروری است. دوم، کاربرد این روش تنها در مواردی محسوس خواهد بود که تعداد اپیزودهای نسبتاً زیادی وجود داشته باشد.
در روش جدول عمر در واقع  هر برش 42 ماهه است و نرم افزار شرکت هایی که از طول دوره ی عمر آن ها 42 ماه گذشته باشد را مورد بررسی قرار می دهد. برای مثال در دوره ی بررسی ما که 372 ماه است در ابتدا نرم افزار شرکت هایی را که در 42 ماهه ی اول وارد شدند (ماه 1 تا 42) را مورد بررسی قرار می دهد و سپس شرکت هایی که در 42 ماهه ی دوم وارد صنعت شدند و به همین ترتیب تا آخر ادامه می یابد و به این صورت شرکت های تازه وارد از میان شرکت های موجود مشخص می شوند و شکل پله ای نمودار هم به خاطر همین برش های 42 ماهه است.

تفاوت جدول عمر و کاپلان مایر:
1- در جدول عمر مشاهدات سانسور شده در بازه های زمانی نصف می گردد.
2- در روش کاپلان مایر بازه های زمانی به نقاط زمان وقوع رویداد تبدیل می شود. یعنی این زمان وقوع پیشامدهاست که بازه های زمانی را مشخص می کند ولی در جدول عمر تعیین بازه های زمانی توسط خود پژوهشگر صورت می گیرد.
3- وقتی تعداد افراد یا شرکت های تحت مطالعه کم باشد (معمولا کمتر از 30) استفاده از جدول طول عمر (به دلیل گروهبندی بازه های زمانی) منجر به از دست دادن اطلاعات خواهد شد.

3-5-2- روش برآورد کننده حد محصول
نخستین گام در تجزیه و تحلیل داده های بقاء ارائه عددی و نموداری آن هاست. مرسوم است که داده های بقاء را با تابع بقاء و نرخ هازارد خلاصه نمایند. بنابراین وقتی داده های بقاء از هیچ روش تئوری مشخصی پیروی نمی کند از روش های ناپارامتری برای تحلیل بقاء استفاده می کنیم. یکی از روش ها برای برآورد ناپارامتریک تابع بقا و مشتقات آن، روش حد محصول معروف به کاپلان- مایر است.
اگر برخی از شرکت ها در پایان دوره مطالعه هنوز زنده باشند (یعنی داده های سانسور شده) داشته باشیم از روش کاپلان مایر استفاده می کنیم. مزیتی که اين روش در مقايسه با روش جدول عمر دارد اين است که لازم نيست طول عمرها در فواصل زماني گروه بندي شوند به همین دلیل این روش در مطالعاتی که روی تعداد کمی از شرکت ها باشد، مناسب است و برای نمونه های کوچک که زمان وقوع حوادث به دقت ثبت و اندازه گیری می شود بسیار مفید است. همچنین این روش تعداد محاسبات کمتری نسبت به جدول عمر دارد.
مبناي برآورد کننده حد محصول بر اساس محاسبه يک مجموعه ريسک در هر نقطه از زمان است که حداقل يک رويداد اتفاق افتاده باشد. بدین صورت اطلاعات موجود در مجموعه ای از اپیزودها بصورت بهینه مورد استفاده قرار می گیرند. تنها عیب این روش از آنجا ناشی می شود که همه اپیزودها باید بر اساس زمان های پایان و آغازشان مرتب شوند ولی با الگوریتم کارآمد مرتب سازی، این روش برای مجموعه اپیزودهای کاملاً بزرگ هم قابل استفاده است.
3-5-2-1- انتقالات واحد78
ما نمونه ای شامل N اپیزود را در نظر می گیریم که همه آنها دارای وضعیت مبدأ ومقصد یکسانی بوده یا سانسور از راست هستند. اگر گروه ها تعریف شوند فرض می شود که همه اپیزودها به یک گروه تعلق دارند. در اینجا فرض می کنیم که همه اپیزودها دارای زمان آغاز صفر هستند.
براي محاسبه برآورد کننده حد محصول قدم اول در نظر گرفتن نقاطي در زمان است که حداقل يک اپيزود توسط يک رويداد خاتمه مي يابد. مثلاً تعداد نقطه بدين صورت در زمان وجود دارد:

با اين فرض برآورد کننده حد محصول تابع بقا، از نظر رياضي به صورت زير تعريف مي شود:

پارامترهای آن به صورت زیر تعریف می شوند:
نشان دهنده تعداد اپيزودهايي است که در با رويداد مواجه مي شوند.
تعداد اپيزودهاي موجود در مجموعه ريسک در مي باشد يعني تعداد اپيزودهايي که داراي زمان آغاز کمتر از و زمان پايان بزرگتر مساوي هستند.
توجه داشته باشيد که تعریف بیان شده درباره مجموعه ريسک، امکان اداره کردن اپیزودهایی با زمانهای آغاز بزرگتر از صفر را می دهد. همچنین در نظر داشته باشید که مجموعه ریسک در شامل اپيزودهاي سانسور شده در اين نقطه از زمان نيز مي باشد. فرض مي شود که اپيزودهاي سانسور شده شامل اطلاعاتي هستند که تا زمان مشاهده رويدادي اتفاق نيفتاده است. (بلاسفیلد و واور79،2002)
فرمولی که معمولاً برای محاسبه برآورد خطای استاندارد تابع بقا استفاده می شود عبارت است از:

همچنین روش حد محصول، علاوه بر برآورد تابع بقا، یک برآورد ساده از نرخ انتقال تجمعی بصورت زیر ارائه می دهد که یک تابع مرحله ای است که برای بررسی گرافیکی مفروضات درباره توزیع طول عمرها مفید است:

3-6- مقايسه توابع بقا
در تجزیه وتحلیل داده های تاریخی- رویدادی، مقایسه توابع بقا و بررسی تفاوت معنی دار بین آنها انجام می شود. براي اينکار 2 روش وجود دارد. اول، محاسبه فاصله هاي اطمينان براي هر کدام از توابع بقا و سپس تست کردن اينکه آيا آنها هم پوشاني دارند يا نه. که این روش در هر دو روش جدول عمر و برآورد کننده حد محصول امکان پذير است. هر دو روش، برآوردهاي خطاي استاندارد را براي توابع بقا محاسبه مي کنند. روش دوم، محاسبه آماره هاي خاصي براي مقايسه 2 يا چند تابع بقا است(بلاسفیلد و واور،2002).
در این تحقیق نیز برای آزمون فرضیه های سوم تا ششم تحقیق، با تعریف متغیر های موهومی80 برای متغیر درجه نوآروی در صنعت، نرخ ورود به صنعت، شدت سرمایه و نرخ رشد صنعت مقایسه ای بین توابع بقای آنها صورت می گیرد.

3-6-1- روش اول: تعريف گروه هاي اپيزودها
براي انجام هر مقايسه اي، بايد 2 يا چند گروه اپيزود وجود داشته باشد. اين امر به آساني با استفاده از متغير شاخصي که مشخص کننده عضويت در يک گروه مي باشد صورت مي گيرد. در TDA دستور به صورت زير است: grp=G1,G2,G3,…. که در آن G1 و G2 و….. اسامي متغيرهاي موجود در ماتريس داده ها هستند. در نتيجه مجموعه اپيزودهاي داده شده در ماتريس داده ها به m گروه تفکيک مي شوند که m تعداد متغيرهاي شاخص تعريف شده توسط پارامتر grp در دستور ple مي باشد.
گروه اول که با G1 تعريف شده شامل همه اپيزودهايي است که در آنها مقدار اين متغير غير صفر است، گروه دوم با استفاده از G2 به همين صورت تعريف مي شود و… بنابر اين براي هر کدام از گروه ها، يک برآورد حد محصول بطور جداگانه انجام مي شود. و فايل خروجي داراي m جدول، هر کدام براي هر يک از گروه ها خواهد بود.( بلاسفیلد و واور،2002)

3-6-2- روش دوم: تشکيل آماره هاي آزمون
آماره هاي آزمون متفاوتي براي مقايسه 2 يا چند تابع بقا وجود دارد. 4 مورد از آماره هايي را که توسط TDA قابل محاسبه هستند عبارتند از:
1-
2-
3-
4-
همه اين آماره ها بر اساس برآوردهاي حد محصول توابع بقا هستند. چگونگی محاسبه این آماره ها در زیر توضیح داده می شود.
فرض مي کنيم که m گروه جدا از هم وجود دارد. کل نمونه به صورت مجموعه اي از کل اپيزودها تعريف مي شود که هر کدام از اين اپيزودها در يکي از اين گروه ها قرار مي گيرند. سپس به روشي کاملاً شبيه آنچه در روش حد محصول توضيح داده شد، همه محاسبات بطور مجزا براي هر انتقال در کل نمونه انجام مي شود. بنابراين ما فقط نمونه اي از اپيزودها را در نظر مي گيريم که داراي وضعيت مبدأ و مقصد يکسان بوده يا منقطع(سانسور شده) باشند.
بطور کلي نمونه اي که بدين صورت تعريف شده شامل m گروه بوده و جدول زير قابل محاسبه خواهد بود.

اينها مقادير اصلي برآورد حد محصول براي کل نمونه مي باشد که براي هر گروه بطور جداگانه محاسبه مي شود.
نقاطي در زمان هستند که حداقل براي يکي از اپيزودهاي موجود در نمونه رويدادي اتفاق افتاده باشد. تعداد اپيزوهاي موجود در گروه است که در رويدادي براي آنها اتفاق افتاده است. تعداد عناصر مجموعه ريسک در براي اپيزودهاي موجود در گروه مي باشد.(يعني همه گروه هاي متعلق به گروه که زمان آغاز کمتر از و زمان پايان بزرگتر يا مساوي دارند) روي هم رفته، اين مقادير براي يک برآورد حد محصول در هر يک از m گروه کافي است.
با اين فرض، 4 آماره آزمون را مي توان تعريف کرد و آنها بر دلالت مي کنند. از آنجايي که محاسبات فقط در وزن هاي مختلف باهم فرق مي کنند، ما ابتدا تعاريف آنها را بيان مي کنيم. وزن ها شامل بوده و براي به صورت زير تعريف مي شوند:

قدم بعدي اين است که براي هر يک از 4 آماره آزمون يک بردار m (m-vector)، و يک ماتريس (m,m)، بسازيم. تعاريف آنها به صورت زير است:

و در نهايت آماره آزمون بصورت زير تعريف مي شود:

همه آنها از يک توزيع کاي دو با درجه آزادي پيروي مي کنند با اين فرض صفر که تفاوت معني داري بين توابع بقا وجود ندارد. توجه داشته باشيد که به همين قرار، رتبه فقط است. بنابراين در محاسبه رابطه مي توان از يک معکوس کلي استفاده کرد يا بُعد آخر را حذف کرد بدون اينکه عموميت آن از بين برود.( بلاسفیلد و واور،2002)

3-7- مدل های نیمه پارامتریک
مدل هاي با

پایان نامه
Previous Entries منابع پایان نامه درمورد تحلیل داده، تحلیل بقا، علوم اجتماعی Next Entries منابع پایان نامه درمورد استان مازندران، تحلیل داده، داده ها و اطلاعات