دیتا اینسایتز

در مورد علم داده، داده کاوی، هوشمندی کسب و کار(BI) و سایر مطالب مرتبط

دیتا اینسایتز

در مورد علم داده، داده کاوی، هوشمندی کسب و کار(BI) و سایر مطالب مرتبط

از API دیجی‌کالا تا یک دیتاست قابل استفاده

برای یکی از پروژه‌هام به دیتای کاتالوگ یک فروشگاه آنلاین نیاز داشتم و اولین چیزی که به ذهنم رسید دیجی‌کالا بود.
چند تا دیتاست از دیجی‌کالا روی Kaggle هست (مثلاً:
https://www.kaggle.com/search?q=digikala
 )
ولی وقتی دقیق‌تر نگاه کردم دیدم هیچ‌کدوم فیلدهایی که من لازم داشتم رو کامل ندارن.

برای همین تصمیم گرفتم خودم یه کرالر بنویسم. البته از صفر شروع نکردم و از این ریپو به‌عنوان پایه استفاده کردم:
https://github.com/HB-2000/digikala_crawler
ولی چون APIهای دیجی‌کالا نسبت به قبل تغییر کرده بودن، عملاً مجبور شدم بخش زیادی از کد رو دوباره بنویسم و اصلاح کنم.

در نهایت کد نهایی پروژه و همین‌طور دیتایی که جمع‌آوری شده رو اینجا به اشتراک گذاشتم:
کد پروژه:
https://github.com/zahraEskandari/digikala_crawler

دیتای آماده (Release):
https://github.com/zahraEskandari/digikala_crawler/releases

اگه شما هم برای پروژه‌های دیتا، سرچ یا تحلیل به دیتای کاتالوگ دیجی‌کالا نیاز دارید، می‌تونید از این پروژه استفاده کنید یا بر اساس نیاز خودتون توسعه‌ش بدید.