کلمات توقف، قبل از به کاربردن بسیاری از الگوریتم های متن کاوی، باید حذف شوند. این کلمات که بار معنایی خاصی ندارند، بسیاری از روشهای مبتنی بر آمار را به بیراهه می برند چرا که کاربرد خیلی زیادی در متن دارند بدون اینکه به موضوع یا مفهوم خاصی اشاره کنند. شکل های زیر ابر کلمات اخبار دیروز، 19 دی ماه 1394، را قبل و بعد از حذف کلمات توقف نمایش می دهد :
ابر کلمات قبل از حذف کلمات توقف
ابر کلمات پس از حذف کلمات توقف
تحلیل اتوماتیک اخبار هفته گذشته از 6دی (یکشنبه پیش) تا 12 دی (دیروز- شنبه)
فقط ابرکلمات و گراف باهم آیی کلمات را می گذارم. همین هم خوب نشان میدهد که هفته گذشته در دنیا چه خبر بوده است :
این هم لینک تیتر خبرهایی که استفاده کردم
برای این منظور مجموعه ای شامل 1190 تیتر اخبار منتشر شده توسط چند خبرگزاری و سایت خبری جمع آوری شد. تنها عملیات پیش پردازشی که روی این مجموعه انجام شد حذف برخی کلمات پر تکرارو حذف علائم نگارشی بود. نتایج بدست آمده قابل توجه هستند :
ابر کلمات
ابر کلمات، با استفاده از اندازه و رنگ، کلماتی در اخبار بیشتر به آنها پرداخته شده است را برجسته می کند و به این ترتیب درک خوبی از موضوعات مهم و اصلی مجموعه اخبار نسان می دهد. همین طور که می بینید، ترکیه، ایران و روسیه و سوریه همینطور داعش و زائران اربعین در اخبار دیروز بیش از سایر موضوعات مورد توجه بوده اند. اما فقط اینها نیستند کلماتی مثل "طرح" و "کاهش" را که خبر یا موضوعی را به یادمان نمی آورند و اینجا از جمله کلمات مهم هستند را چطور بدانیم راجع به چه هستند؟ برای این کار هم می توانیم کلماتی را که در تیتر اخبار همراه با کلمات "طرح" و "کاهش" آمده اند بررسی کنیم :
با هم آیی کلمات
بر اساس این نمودار ها می توانیم حدس بزنیم که در اخبار از طرحی در مورد قانون احزاب و همینطور طرحی در یک پارلمان صحبت شده است. و در اخبار از کاهش در کنار کلمات لیر ، تنش، سئول و همینطور پیونگ یانگ استفاده شده است.
نمودارِ مشابه بالا را می توانیم برای تمام کلمات بدست بیاوریم. اما یک راه بهتر برای نمایش میزان با هم آیی کلمات در متون استفاده از یک گراف است. در گراف زیر، مجموعه ای از کلمات پرتکرار در اخبار مورد بررسی ( نه همه کلمات متن) به همراه میزان با هم آیی این کلمات نشان داده شده است. در این گراف هر چه خطی که دو کلمه را به هم متصل می کند ضخیم تر باشدبه معنای با هم آیی بیشتر این کلمات است ( یعنی در تیتر های بیشتر از اخبار این کلمات در کنار هم آمده اند. )