دیتا اینسایتز

در مورد علم داده، داده کاوی، هوشمندی کسب و کار(BI) و سایر مطالب مرتبط

دیتا اینسایتز

در مورد علم داده، داده کاوی، هوشمندی کسب و کار(BI) و سایر مطالب مرتبط

با توجه به اوضاع اگر خواستید فیلم ببینید از این لینک ها ببینید


https://dl2.sermoviedown.pw/


https://dls2.iran-gamecenter-host.com/DonyayeSerial




از API دیجی‌کالا تا یک دیتاست قابل استفاده

برای یکی از پروژه‌هام به دیتای کاتالوگ یک فروشگاه آنلاین نیاز داشتم و اولین چیزی که به ذهنم رسید دیجی‌کالا بود.
چند تا دیتاست از دیجی‌کالا روی Kaggle هست (مثلاً:
https://www.kaggle.com/search?q=digikala
 )
ولی وقتی دقیق‌تر نگاه کردم دیدم هیچ‌کدوم فیلدهایی که من لازم داشتم رو کامل ندارن.

برای همین تصمیم گرفتم خودم یه کرالر بنویسم. البته از صفر شروع نکردم و از این ریپو به‌عنوان پایه استفاده کردم:
https://github.com/HB-2000/digikala_crawler
ولی چون APIهای دیجی‌کالا نسبت به قبل تغییر کرده بودن، عملاً مجبور شدم بخش زیادی از کد رو دوباره بنویسم و اصلاح کنم.

در نهایت کد نهایی پروژه و همین‌طور دیتایی که جمع‌آوری شده رو اینجا به اشتراک گذاشتم:
کد پروژه:
https://github.com/zahraEskandari/digikala_crawler

دیتای آماده (Release):
https://github.com/zahraEskandari/digikala_crawler/releases

اگه شما هم برای پروژه‌های دیتا، سرچ یا تحلیل به دیتای کاتالوگ دیجی‌کالا نیاز دارید، می‌تونید از این پروژه استفاده کنید یا بر اساس نیاز خودتون توسعه‌ش بدید.

ماشین لرنینگ کلاسیک

Classic ML
Classic ML

با اینکه این روزها دیپ‌لرنینگ و مدل‌های زبانی بزرگ تقریباً همه‌جا موضوع بحث هستند،
اما واقعیت این است که مدل‌های کلاسیک یادگیری ماشین هنوز هم در بسیاری از کاربردها نقش بسیار مهمی دارند. و همچنان استفاده خواهند شد چرا که در برخی صنایع مثل فین‌تک، صرفاً دقت بالاتر معیار تصمیم‌گیری نیست. حتی اگر مدل‌های پیچیده‌تر (مثل دیپ‌لرنینگ) عملکرد عددی بهتری داشته باشند،نیازمندی‌هایی مثل:

  • قابلیت تفسیر تصمیمات مدل

  • شفافیت برای تیم‌های بیزینسی و رگولاتوری

  • پایداری مدل در برابر تغییر توزیع داده‌ها

  • ریسک کمتر در استقرار و نگه‌داری

باعث می‌شود مدل‌هایی مثل Logistic Regression همچنان انتخاب اول باشند.

از طرف دیگر، سادگی این مدل‌ها، نیاز کمتر به منابع محاسباتی و رفتار قابل پیش‌بینی‌شان در طول زمان،
دلایل مهم دیگری برای استفاده مداوم از آن‌هاست.

برای خود من، بارها پیش می‌آید که لازم است این مدل‌های پایه‌ای را دوباره مرور و یادآوری کنم.
به همین خاطر تصمیم گرفتم لینک ویدیوهایی را که با دیدنشان مفاهیم این مدل‌ها برایم تازه می‌شود،
اینجا یکی‌یکی جمع‌آوری کنم، هم برای خودم، هم شاید برای کسانی که مسیر مشابهی دارند.


Logistic Regression

ویدیو: https://www.youtube.com/watch?v=3bvM3NyMiE0

 دانلود همین ویدیو: https://t.me/TechnicalNotesAI/2

این لیست به مرور کامل‌تر خواهد شد.,


یادگیری عمیق (Deep Learning) در یک آخرهفته

«دیپ‌لرنینگ» همه‌جا هست. ولی منابع یادگیریش خیلی تئوریک و دانشگاهی هستند یا فقط API کال کردن یاد می‌دن و سطحی هستند. من اخیراً به یک ویدیوی آموزشی بلند و یک‌پارچه رسیدم که به نظرم برای مهندس‌ها و دیتا ساینتیست‌ها واقعاً ارزشمنده.

این دوره:

  • با PyTorch کار می‌کنه

  • از مفاهیم پایه (tensors, gradients) شروع می‌کنه

  • قدم‌به‌قدم به آموزش شبکه‌های عصبی، آموزش مدل و حلقه‌ی train می‌رسه

  • بدون شلوغ‌کاری، بدون buzzword، با تمرکز روی «چرا و چطور»

و مهم‌تر از همه:
این یک ویدیوی تکه‌تکه نیست؛
بلکه یک آموزش چند ساعته‌ی پیوسته‌ست که می‌تونه توی یک آخرهفته، تصویر ذهنی خیلی خوبی از Deep Learning بهتون بده.

 لینک دوره:
https://www.youtube.com/watch?v=GIsg-ZUy0MY

من خودم برای استفاده‌ی بهتر، ویدیو رو کامل دانلود کردم و فایل‌ها و نوت‌بوک‌های تمرینیش رو آماده کردم تا بشه هم‌زمان با دیدن آموزش، کد زد و جلو رفت.

اگر شما هم:

  • دیتا ساینتیست هستین

  • مهندس نرم‌افزار یا بک‌اند

  • یا قبلاً ML کار کردین ولی DL براتون مبهم بوده

به نظرم این دوره یکی از بهترین نقطه‌های شروعه.

 اگر فایل‌های دوره و نوت‌بوک‌ها رو می‌خواین، بهم ایمیل بزنید :‌ technotesai@gmail.com