دیتا اینسایتز

در مورد علم داده، داده کاوی، هوشمندی کسب و کار(BI) و سایر مطالب مرتبط

دیتا اینسایتز

در مورد علم داده، داده کاوی، هوشمندی کسب و کار(BI) و سایر مطالب مرتبط

تاثیر حذف کلمات توقف

کلمات توقف، قبل از به کاربردن  بسیاری از الگوریتم های متن کاوی، باید حذف شوند. این کلمات که بار معنایی خاصی ندارند، بسیاری از روشهای مبتنی بر آمار را به بیراهه می برند چرا که کاربرد خیلی زیادی در متن دارند بدون اینکه به موضوع یا مفهوم خاصی اشاره کنند. شکل های زیر ابر کلمات اخبار دیروز، 19 دی ماه 1394، را قبل و بعد از حذف کلمات توقف نمایش می دهد :


ابر کلمات قبل از حذف کلمات توقف


ابر کلمات پس از حذف کلمات توقف


این هم، خبرهایی که از ابر کلمات  آنها، بالا می بینید.

تحلیل اتوماتیک اخبار هفته گذشته از 6دی (یکشنبه پیش) تا 12 دی (دیروز- شنبه)

تحلیل اتوماتیک اخبار هفته گذشته از 6دی (یکشنبه پیش) تا 12 دی (دیروز- شنبه)

فقط ابرکلمات و گراف باهم آیی کلمات را می گذارم. همین هم خوب نشان میدهد که هفته گذشته در دنیا چه خبر بوده است :

http://s6.picofile.com/file/8231439268/allweekwordcloud.jpeg


http://s6.picofile.com/file/8231440092/allweekwordassoc.jpeg


این هم لینک تیتر خبرهایی که استفاده کردم

تحلیل اتوماتیک اخبار

در این پست می خواهم نشان بدهم چطور حتی بدون استفاده از پیش پردازش های خاص، مثل الگوریتم واحد سازی مخصوص زبان فارسی و یا ریشه یابی کلمات فارسی  می توانیم نتایج قابل قبولی از روشهای متن کاوی روی متون فارسی بدست بیاوریم. برای این منظور از مجموعه تیتر اخبار دیروز، 12 آذر 1394، استفاده کرده ایم. از هیچ روش معنایی هم استفاده نشده است. باید به این نکته هم توجه کرد که پردازش تیتر اخبار با توجه به کوتاهی طول و  تنک بودن یکی از سخت ترین نمونه متون جهت پردازش است.

برای این منظور مجموعه ای شامل 1190  تیتر اخبار منتشر شده توسط چند خبرگزاری و سایت خبری جمع آوری شد.  تنها عملیات پیش پردازشی که روی این مجموعه انجام شد حذف برخی کلمات پر تکرارو حذف علائم نگارشی بود. نتایج بدست آمده قابل توجه هستند :


ابر کلمات



ابر کلمات، با استفاده از اندازه و رنگ، کلماتی در اخبار بیشتر به آنها پرداخته شده است را برجسته می کند و به این ترتیب درک خوبی از موضوعات مهم و اصلی مجموعه اخبار نسان می دهد. همین طور که می بینید، ترکیه، ایران و روسیه و سوریه همینطور داعش و  زائران اربعین در اخبار دیروز بیش از سایر موضوعات مورد توجه بوده اند. اما فقط اینها نیستند  کلماتی مثل "طرح" و "کاهش" را که خبر یا موضوعی را به یادمان نمی آورند و اینجا از جمله کلمات مهم هستند را چطور بدانیم راجع به چه هستند؟ برای این کار هم می توانیم کلماتی را که در تیتر اخبار همراه با کلمات "طرح" و "کاهش" آمده اند بررسی کنیم :


با هم آیی کلمات


بر اساس این نمودار ها می توانیم حدس بزنیم که در اخبار از طرحی در مورد قانون احزاب و همینطور طرحی در یک پارلمان صحبت شده است. و در اخبار از کاهش در کنار کلمات لیر ، تنش، سئول و همینطور پیونگ یانگ استفاده شده است. 

نمودارِ مشابه بالا را می توانیم برای تمام کلمات بدست بیاوریم. اما یک راه بهتر برای نمایش میزان با هم آیی کلمات در متون استفاده از یک گراف است. در گراف زیر، مجموعه ای از کلمات پرتکرار در اخبار مورد بررسی ( نه همه کلمات متن) به همراه میزان با هم آیی این کلمات نشان داده شده است. در این گراف هر چه خطی که دو کلمه را به هم متصل می کند ضخیم تر باشدبه معنای با هم آیی بیشتر این کلمات است ( یعنی  در تیتر های بیشتر از اخبار این کلمات در کنار هم آمده اند. )


تحلیل اخبار-  اخبار روز 12 آذر 94
طبق این نمودار در اخبار مجموعه کلمات روسیه، داعش و ترکیه همچنین وزیر، سوریه، ایران، امریکا  بیشتر با هم در تیتر اخبار آمده اند.
همانطور که می بینید با وجودی که پیش پردازش خاصی روی اخبار انجام نشده است نتایجتا اینجا بد نبوده است. البته این تا حدی مدیون زبان رسمی مورد استفاده در اخبار هم هست. اما آیا بیشتر از ین نمی توان از این مجموعه اخبار استفاده کرد و بدون خواندن اخبار فهمید که چه موضوعاتی در خبرها موجود بوده است؟



خوشه بندی اخبار

آخرین و جالب ترین مرحله خوشه بندی اخبار است. یعنی شناسایی دسته هایی از اخبار که به هم مربوط هستند. با اجرای یک الگوریتم خوشه بندی ( kMeans) روی این اخبار نتایج جالب توجهی بدست آمد. شکل های زیر نمودار فرکانس کلمات و همینطور میزان با هم آیی کلمات در برخی خوشه های بدست آمده را نشان میدهد. همینطور که می بینید با استفاده از این گراف ها می توان تا حد زیادی موضوعات را شناسایی کرد.

یکی از خوشه های بدست آمده که با توجه به کلمات پر تکرار و همین طور با هم آیی آنها می توان گفت در مورد ئران ایرانی، ویزا، مرز مهران، ترافیک ایلام، ازدحام در ایلام و صدور روادید است که مربوط می شود به برگزاری مراسم اربعین در عراق که این روزها همه ما از اخبار حتما شنیده ایم.

یکی دیگر از خوشه های بدست آمده در مورد تایید طرح اصلاح قانون برنامه توسعه توسط شورای نگهبان و همینطور بررسی طرح فعالیت احزاب در شورای نگهبان.

البته تمام خوشه ها اینقدر واضح و مشخص نیستند. اما همین چند نمودار هم برای تایید این نکته حتی بدون الگوریتم های پیچیده پیش پردازش متن هم می توان نتایج جالب توجهی بدست آورد کافی است.

مجموعه اخبار مورد استفاده در این پست را می توانید از اینجا دانلود کنید.