پایگاه داده ها، پایگاه داده‌ها، داده کاوی

دانلود پایان نامه ارشد

حالت اتفاقی دارد، استراتژی‌های سرمایه گذاری که باعث کسب سود بالاتر از حد متوسط بازار می‌شوند همواره موفقیت آمیز نیستند. از سوی دیگر طبق این نظریه کسب سود بالاتر از حد متوسط حاصل تبحر و تجربه سرمایه گذار نیست بلکه شانس باعث این وضعیت شده است. طرفداران نظریه کارایی بازار طبق قوانین احتمالات چنین می‌گویند: در هر زمان مشخص در بازاری با تعداد زیاد سرمایه گذار، برخی سرمایه گذارها سودی بالا کسب می‌کنند و برخی نیز همان سود متوسط بازار را می برند. 

2-2-5- نتیجه گیری
طرفداران نظریه کارایی بازار معتقدند سرمایه‌گذارها از هر روند غیرمنطقی در قیمت سهام مادام که وجود دارد برای کسب سود بالاتر از حد متوسط بازار استفاده می‌کنند. در مواردی نظیر تاثیر ژانویه (الگویی قابل پیش بینی برای تغییرات قیمت) هزینه‌های بالا در معاملات عمدتاً بیشتر از سود تلاش برای کسب مزیت از این روند است. 
در دنیای واقعی بازارها نمی‌توانند به طور مطلق کارا یا به طور کامل غیرکارا باشند و بهتر است بازارها را ترکیبی از هر دو حالت تصور کنیم طوری که حوادث و تصمیم‌های روزانه همواره فوراً بر قیمت سهام تاثیر نمی‌گذارند. بنابراین فرض پیش بینی پذیر بودن بازار سرمایه فرضی غیر معقول نبوده و می‌توان به تحقیق در این زمینه و بسط روش‌های پیش بینی پرداخت.

2-3- داده کاوی
2-3-1- مقدمه
در دنیاي به شدت رقابتی امروز، اطلاعات بعنوان یکی از فاکتورهاي تولیدي مهم پدیدار شده است. در نتیجه تلاش براي استخراج اطلاعات از داده ها توجه بسیاري از افراد دخیل در صنعت اطلاعات و حوزه هاي وابسته را به خود جلب نموده است.
از طرفی امروزه شاهد این هستیم که پس از گذشت بیش از پنج دهه از استفاده از رایانه در ذخیره سازي و تحلیل داد‌ ها و همزمان با پیشرفت فن آوري اطلاعات، هر دو سال یکبار حجم داده‌ها، دو برابر می شود. همچنین تعداد پایگاه‌هاي داده با سرعت بسیار زیادي رشد می کند. حجم بالاي داده هاي دائما در حال رشد و نیز تنوع آنها به شکل داده متنی، اعداد، گرافیک ها، نقشه ها، عکس ها و تصاویر ماهواره‌اي نمایانگر پیچیدگی کار تبدیل داده‌ها به اطلاعات است. علاوه بر این، تفاوت وسیع در فرآیندهاي تولید داده مثل روش دستی مبتنی بر کاغذ و روش دیجیتالی مبتنی بر کامپیوتر، مزید بر علت شده است. استراتژي ها و فنون متعددي براي گردآوري، ذخیره، سازماندهی و مدیریت کارآمد داده هاي موجود و رسیدن به نتایج معنی دار بکار گرفته شده‌اند.
پیشرفت‌هاي حاصله در تکنولوژي اطلاعات، ابزارهاي جدیدي را براي غلبه بر رشد مستمر بانک‌هاي اطلاعاتی فراهم می کنند. این پیشرفت ها هم در بعد سخت افزاري و هم در بعد نرم افزاري حاصل شده اند.. ریزپردازنده‌هاي سریع، ابزارهاي ذخیره داد‌ هاي انبوه ، اسکنرها، چاپگرها و دیگر ابزارهاي جانبی، نمایانگر پیشرف‌ هاي حوزه سخت افزار هستند. پیشرفت‌هاي حاصل در نظا‌ هاي مدیریت بانک اطلاعات در طی دهه‌هاي اخیر نمایانگر تلاش‌هاي بخش نرم افزاري است.
در نتیجه می‌توان اینگونه گفت که امروزه در همه زمینه‌ها با حجم عظیمی از داده‌ها روبرو هستیم که اگر به دانش تبدیل نشوند هیچ ارزشی ندارند. براي استفاده از آن ها به ابزارهاي کشف دانش نیاز داریم. داده کاوي به عنوان یک توانایی پیشرفته در تحلیل داده و کشف دانش مورد استفاده قرار می‌گیرد.
داده کاوي یا کشف دانش در پایگاه داده‌ها علم نسبتا تازه اي است که با توجه پیشرفت کشور در زمینه فناوري اطلاعات و نگاه‌هاي ویژه به دولت الکترونیک و نفوذ استفاده از سیستم‌هاي رایانه‌اي در صنعت و ایجاد بانک‌هاي اطلاعاتی بزرگ توسط ادارات دولتی،دانشگاه‌ها، بانک‌ها و بخش خصوصی نیاز به استفاده از آن به طور عمیقی احساس می‌شود. داده کاوي یعنی کشف دانش و اطلاعات معتبر پنهان در پایگاه‌هاي داده یا به بیان بهتر به تجزیه و تحلیل ماشینی داده ها براي پیدا کردن الگوهاي مفید و تازه و قابل استناد در پایگاه داده‌هاي بزرگ، داده کاوي می گویند. داده کاوي در پایگاه‌هاي داده کوچک نیز بسیار پرکاربرد است و از نتایج و الگوهاي تولید شده بوسیله آن در تصمیم گیری‌هاي استراتژیک تجاري شرکت‌هاي کوچک نیز می‌توان بهره‌هاي فراوان برد. کاربرد داده کاوي در یک جمله را این گونه می‌توان بیان کرد: داده کاوي اطلاعاتی می‌دهد، که شما براي گرفتن تصمیم هوشمندانه‌اي درباره مشکلات سخت شغلتان به آنها نیاز دارید.
داده کاوي به عنوان مهمترین کاربرد داده‌هاي موجود در انباره‌هاي داده شناخته می‌شود. در حقیقت داده کاوي داده‌هاي موجود را مورد تحلیل قرار می‌دهد تا روندهاي احتمالی، ارتباط‌هاي غیر محسوس والگوهاي مخفی را از بین انبوه داده‌ها، شناسایی کند. در واقع هدف از داده کاوي ایجاد مدل‌هایی براي تصمیم گیري است. این مدل‌ها رفتارهاي آینده را براساس تحلیل‌هاي گذشته پیش بینی می‌کنند. در این فرایند از الگوریتم‌هاي پیچیده ریاضی و آماري استفاده می‌شود تا داده‌ها تبدیل به دانش سازمان شوند.

2-3-2- مفهوم داده کاوي
کاوش‌هاي ماشینی در داده‌ها یا همان داده کاوي را باید یکی از سامانه‌هاي هوشمند دانست. سامانه‌هاي هوشمند زیر شاخ‌هاي بزرگ و پرکاربرد از یادگیري ماشین هستند. حوزه جدید یادگیري ماشین به واقع همان امتداد و استمرار دانش کهن آمار است که در جهت ماشینی کردن یادگیري، تعلّم، و دانش در حال حرکت است.
عبارت داده کاوي مترادف با یکی از عبارت‌هاي استخراج دانش، برداشت اطلاعات، وارسی داده ها و حتی لایروبی کردن داده هاست که در حقیقت کشف دانش در پایگاه داده ها را توصیف می‌کند. کشف دانش در پایگاه داده‌ها در جهت کشف اطلاعات مفید از مجموعه بزرگ داده هاست. دانش کشف شده می‌تواند قاعده‌اي باشد تا ویژگی‌هاي داده‌ها، الگوهایی که به طور متناسب رخ می‌دهند، خوشه بندي موضوع‌هاي درون پایگاه داده ها و غیره را توصیف می‌کند.
یک کاربر سیستم کشف دانش در پایگاه داده ها22 بایستی درك بالایی از قلمرو داده ها به منظور انتخاب زیر مجموعه صحیحی از داده ها، رده مناسبی از الگوها و معیار خوبی براي الگوهاي جالب داشته باشد. بنابراین سیستم کشف دانش در پایگاه داده ها باید ابزارهایی با اثر تعاملی داشته باشد نه سیستم‌هاي تجزیه و تحلیل خودکار. لذا کشف دانش از پایگاه داده‌ها باید مثل یک فرآیند شامل گام‌هاي زیر باشد:
درك قلمرو
آماده کردن مجموعه داده‌ها
کشف الگوها
پردازش بعد از کشف الگو
استفاده از نتایج
اصطلاح داده کاوي را آمار شناسان، تحلیل گران داده‌ها و انجمن سیستم‌هاي اطلاعات مدیریت به کار می برند، در حالی که پژوهشگران یادگیري ماشین و هوش مصنوعی از کی دي دي 7 بیشتر استفاده می‌کنند. در ادامه چند تعریف از داده کاوي ارائه می شود:
داده کاوي یا به تعبیر دیگر کشف دانش در پایگاه داده ها، استخراج غیر بدیهی اطلاعات بالقوه مفید از روي داده هایی است که قبلا،ً ناشناخته مانده اند. این مطلب برخی از روش‌هاي فنی مانند خوشه بندي، خلاصه سازي داده ها، فراگیري قاعده هاي رده بندي، یافتن ارتباط شبکه‌ها، تحلیل تغییرات و کشف بی قاعدگی را شامل می‌شود.
داده کاوي در حقیقت کشف ساختارهاي جالب توجه، غیر منتظره و با ارزش از داخل مجموعه وسیعی از داده‌ها می‌باشد و فعالیتی است که اساسا با آمار و تحلیل دقیق داده ها منطبق است.

2-3-3- مراحل انجام داده کاوي
عمل داده کاوي از یک پایگاه داده به چند مرحله مشخص تقسیم می‌شود که ما در این بخش پروژه به معرفی و توضیحی مختصر در مورد هر یک از این مراحل اکتفا می‌کنیم:
تشکیل انبار داده: این مرحله براي تشکیل محیطی پیوسته و یک پارچه جهت انجام مراحل بعدي داده کاوي انجام می گیرد. در حالت کلی انبار داده مجموعه پیوسته و طبقه بندي شده است که دائما در حال تغییر و دینامیک است که براي کاوش آماده می‌شود.
انتخاب داده‌ها: در این مرحله براي کم کردن هزینه‌هاي عملیات داده کاوي، داده هایی از پایگاه داده انتخاب می شوند که مورد مطالعه هستند و هدف داده کاوي دادن نتایجی در مورد آنهاست.
تبدیل داده‌ها: مشخص است براي انجام عملیات داده کاوي لزوما باید تبدیلات خاصی روي داده‌ها انجام گیرد. ممکن است این تبدیلات خیلی راحت و مختصر مثل تبدیل بایت 8 به عدد صحیح 9 باشد یا خیلی پیچیده و زمان بر و با هزینه هاي بالا مثل تعریف صفات جدید و یا تبدیل و استخراج داده ها از مقادیر رشته‌اي.
کاوش در داده ها: در این مرحله است که مدلسازي اصلی داده کاوي انجام می شود. در این مرحله با استفاده از تکنی‌ هاي داده کاوي داده ها مورد کاوش قرار گرفته ، دانش نهفته در آنها استخراج شده و الگو سازي صورت می‌گیرد.
تفسیر نتیجه: در این مرحله نتایج و الگو هاي ارائه شده توسط ابزار داده کاوي مورد بررسی قرار گرفته و نتایج مفید معین می‌شود.
ابزارهایی که در فعالیت چهارم به کار گرفته می شوند ممکن است مدل‌هاي آماري، الگوریتم‌هاي ریاضی و یا روش‌هاي یاد گیرنده باشند که کار خود را به صورت خودکار و بر اساس تجربهاي که از طریق شبکه هاي عصبی یا درختهاي تصمیم گیري به دست میآورند بهبود می‌بخشند.

2-3-4- اهداف داده کاوی
داده کاوي منحصر به گردآوري و مدیریت داده‌ها نبوده و تجزیه و تحلیل اطلاعات و پیش بینی را نیز شامل میشود. برنامه هاي کاربردي که با بررسی فایل‌هاي متنی و یا چند رسانهاي به کاوش داده‌ها می پردازند، پارامترهاي گوناگونی را در نظر می‌گیرند تا به یکی از الگوهاي زیر برسند:
رابطه: الگوهایی که بر اساس آن یک رویداد به دیگري مربوط می‌شود، مانند خرید قلم به خرید کاغذ.
ترتیب : الگویی که به تجزیه و تحلیل توالی رویدادها پرداخته و مشخص می‌کند کدام رویداد، رویدادهاي دیگري را در پی دارد، مانند تولد یک نوزاد و خرید پوشک.
طبقه بندي: شناسایی الگوهاي جدید، مانند همزمانی خرید چسب و پوشه.
براي فهم و برقراري ارتباط با محیط اطرافمان در جهان همواره اشیا ، موجودات و چیزهایی را که با آنها سر‌و‌کار داریم، دسته بندي، درجه بندي و طبقه بندي میکنیم تا بهتر بتوان روي آنها آنالیز و پردازش انجام داد. می‌توان به عنوان مثال حیوانات را به گروه‌ها و نژادهاي مختلف ، مواد را به عناصر سازنده آنها و مایعات مختلف را با توجه به درجه غلظت آنها دسته بندي کنیم.
بر طبق تعریف طبقه‌بندي عبارت است از : آزمایش ویژگی‌هاي اشیاء جدید و قرار دادن آنها در مجموعه کلاس‌هاي از پیش تعریف شده .
به طور معمول اشیایی که طبقه بندي می‌شوند در قالب رکوردهاي پایگاه داده‌ها و فیلدهاي آنها پیاده سازي می‌شوند. پایگاه داده هایی که از اطلاعات ذخیره شده قبلی استفاده می‌کند ، پایگاه داده آموزشی نامیده می‌شود و رکوردهاي آن دربرگیرنده چندین خصیصه متفاوت می‌باشد.
خصیصه‌هاي انتخاب شده را خصیصه‌هاي وابسته و دیگر خصیصه‌ها را پیش گویانه می‌نامند. مهمترین وظیفه داده کاوي طبقه بندي است. به منظور فهم بهتر و ارتباط راحت تر با دنیا ما همیشه در حال گروه بندي عناصر هستیم. در طبقه بندي کردن اصولا به بررسی خصوصیت یک شی جدید و مرتبط کردن آن با یک مجموعه از قبل تعریف شده می پردازیم. اشیاء طبقه بندي شده به صورت مقداري در داخل پایگاه داده با پر کردن فیلدي به نام کد طبقه معین می‌شوند. وظیفه طبقه بندي با تعریفی خوب از کلاس‌ها و یک مجموعه آموزشی شامل مثال‌هاي از قبل تعریف شده می‌تواند مورد سنجش قرار بگیرد. مثال هایی از طبقه بندي را در زیر می‌آوریم :
طبقه بندي مشتریان بانک براي گرفتن وام به دو دسته خوب و بد.
طبقه بندي کردن شماره تلفنهایی که به ماشین فاکس متصل می‌شوند.
طبقه بندي کردن دانش آموزان کلاس بر حسب قد آنها.
در کلیه مثال‌هاي بیان شده، تعداد محدودي از کلاس‌هاي تعریف شده وجود دارد و باید هر مقدار به کلاسی تخصیص داده شود.
هدف، ساخت مدلی است که خصیصه هاي پیشگویانه را به عنوان مقدار ورودي و خروجی را براي خصیصه وابسته تعریف نماید. اگر خصیصه وابسته به صورت عددي باشد مسئله را، مسئله برازش می نامند و در غیر این صورت مسئله طبقه بندي نامیده می‌شود.
محققان مدل‌هاي مختلف طبقه‌بندي را همچون شبکه‌هاي عصبی، الگوریتم ژنتیک،

پایان نامه
Previous Entries قیمت سهام، ارزش واقعی، مدیران عالی Next Entries شبکه های عصبی، سلسله مراتب، سلسله مراتبی