برای یکی از پروژههام به دیتای کاتالوگ یک فروشگاه آنلاین نیاز داشتم و اولین چیزی که به ذهنم رسید دیجیکالا بود.
چند تا دیتاست از دیجیکالا روی Kaggle هست (مثلاً:
https://www.kaggle.com/search?q=digikala )
ولی وقتی دقیقتر نگاه کردم دیدم هیچکدوم فیلدهایی که من لازم داشتم رو کامل ندارن.
برای همین تصمیم گرفتم خودم یه کرالر بنویسم. البته از صفر شروع نکردم و از این ریپو بهعنوان پایه استفاده کردم:
https://github.com/HB-2000/digikala_crawlerولی چون APIهای دیجیکالا نسبت به قبل تغییر کرده بودن، عملاً مجبور شدم بخش زیادی از کد رو دوباره بنویسم و اصلاح کنم.
در نهایت کد نهایی پروژه و همینطور دیتایی که جمعآوری شده رو اینجا به اشتراک گذاشتم:
کد پروژه:
https://github.com/zahraEskandari/digikala_crawlerدیتای آماده (Release):
https://github.com/zahraEskandari/digikala_crawler/releasesاگه شما هم برای پروژههای دیتا، سرچ یا تحلیل به دیتای کاتالوگ دیجیکالا نیاز دارید، میتونید از این پروژه استفاده کنید یا بر اساس نیاز خودتون توسعهش بدید.