نویسنده(های): جولیا
در ابتدا منتشر شد به سمت هوش مصنوعی.
این داستان فقط برای اعضا در اختیار ماست. برای دسترسی به تمام Medium ارتقا دهید.
پایتون پانداها کتابخانه به دلیل قدرتمند بودن، از دیرباز مورد علاقه در میان تحلیلگران داده بوده است DataFrame ساختار و API شهودی با این حال، برای دست زدن به گسترده مجموعه داده هاپانداها همیشه کارآمدترین گزینه نیستند، زیرا طراحی پردازش تک هسته ای آن محدود است. هنگام برخورد با بزرگ مجموعه داده ها در یک ماشین، کاوش جایگزین های سریعتر و مقیاس پذیرتر می تواند سودمند باشد. در این مقاله ما چهار جایگزین پانداهای با کارایی بالا را پوشش خواهیم داد: Polars، DuckDB، Vaex و Modin. هر یک از این کتابخانهها دارای ویژگیهای منحصربهفردی هستند که آنها را برای مدیریت مجموعه دادههای بزرگ روی ماشینهای تکی با پردازش سریعتر مناسب میسازد.
Pandas یک ابزار فوق العاده همه کاره برای دستکاری داده ها است، اما برای کار بر روی یک هسته CPU طراحی شده است. این رویکرد تک رشته ای اغلب منجر به عملکرد کندتر هنگام کار با مجموعه داده های بزرگ می شود، زیرا پانداها نمی توانند از چندین هسته برای پردازش موازی استفاده کنند. نتیجه؟ زمانهای طولانی پردازش داده، بهویژه برای عملیاتهایی مانند فیلتر کردن، پیوستن و تجمیع، که در گردشهای کاری تجزیه و تحلیل رایج هستند. برای مواردی که اندازه مجموعه داده در یک ماشین واحد قابل مدیریت است اما نیاز به پردازش سریعتر دارد، تغییر به یک کتابخانه جایگزین میتواند تفاوت قابل توجهی ایجاد کند.
در زیر به بررسی … وبلاگ کامل را به صورت رایگان در Medium بخوانید.
منتشر شده از طریق به سمت هوش مصنوعی