菏澤網(wǎng)站建設公司,揚州市住房建設局網(wǎng)站,wordpress和公眾號,VPS做鏡像網(wǎng)站有人擔心pandas處理數(shù)據(jù)的效率是不是不咋地。pandas是基于numpy數(shù)組來計算的#xff0c;其實本身有優(yōu)勢#xff0c;處理小批量數(shù)據(jù)集#xff08;百萬行以下#xff0c;1GB以內(nèi)#xff09;效率是完全可以接受的#xff0c;相比其他的數(shù)據(jù)處理庫其實差異不大#xff0c;因…有人擔心pandas處理數(shù)據(jù)的效率是不是不咋地。pandas是基于numpy數(shù)組來計算的其實本身有優(yōu)勢處理小批量數(shù)據(jù)集百萬行以下1GB以內(nèi)效率是完全可以接受的相比其他的數(shù)據(jù)處理庫其實差異不大因為1GB以內(nèi)的容量對電腦內(nèi)存的占用并不大且單核處理起來也不吃力這時候Pandas的速度和便捷性綜合優(yōu)勢能發(fā)揮到最大。但如果超出1GB的數(shù)據(jù)由于計算資源吃緊和內(nèi)存過載的關系pandas就會顯得心有余而力不足一些復雜的數(shù)據(jù)處理操作會很消耗時間比如groupby、apply等。如何優(yōu)化Pandas的速度呢首先得知道pandas的哪些騷操作會讓它變慢。首當其沖的就是逐行循環(huán)操作比如apply方法是對每一行執(zhí)行函數(shù)操作這會促發(fā)觸發(fā) Python 解釋器開銷速度非常的慢。比如你對每一行執(zhí)行多字段判斷操作比如math 90, english 90 則返回“優(yōu)秀”使用apply方法哪怕每一行只消耗0.0001秒那處理一千萬行的數(shù)據(jù)也需要17分鐘這是覺得沒法忍受的。如果你真的需要對每一行做處理可以用numpy向量化來實現(xiàn)可以用np.select多分支條件來實現(xiàn)會比apply方法快上百倍以上因為numpy是批量處理的。import numpy as np # numpy向量化處理 condition (df[math] 90) (df[english] 90) df[result_np_where] np.where(condition, 優(yōu)秀, 一般)另外導致pandas變慢的還有它的數(shù)據(jù)類型因為pandas默認使用高精度類型這就導致無效內(nèi)存占用過高比如int64會比int8多8倍的內(nèi)存。對于精度要求不高的數(shù)據(jù)你可以在加載數(shù)據(jù)的時候去調(diào)整下數(shù)據(jù)類型把高精度調(diào)整為合適的低精度比如年齡字段int8精度就夠了沒必要int32或者int64。# 指定數(shù)據(jù)類型 dtype_opt {id: int32, age: int8, price: float32} df pd.read_csv(data.csv, dtypedtype_opt)還有重復的字符串不需要都用object類型比如省份名稱可以用category類型這樣占用的內(nèi)存會降低。df[province] df[province].astype(category)在讀取數(shù)據(jù)文件的時候很多人默認全部讀取到內(nèi)存這對于幾十M的小文件來說沒什么但如果是幾GB的大文件則會很快占滿內(nèi)存導致數(shù)據(jù)處理變慢。所以可以用pandas自帶的分塊加載chunksize的方式將大文件分為n個小文件分批去讀取并處理這樣可以把幾GB的大文件拆解成N個幾十M的小文件pandas處理起來就毫無壓力。chunk_size 50000 # 每次讀取5萬行 results [] for chunk in pd.read_csv(huge_file.csv, chunksizechunk_size): chunk chunk[chunk[value] 0] # 過濾處理 results.append(chunk.groupby(category).sum()) final_result pd.concat(results).groupby(level0).sum() # 合并結(jié)果當然以上的優(yōu)化方法也只使用pandas處理中小規(guī)模的數(shù)據(jù)對于大數(shù)據(jù)集盡管優(yōu)化后速度提升也不會明顯。大數(shù)據(jù)集有大數(shù)據(jù)集的處理手段有不少類pandas的替代加速庫可以使用比如polars、dash、modin、cudf等它們采用并行計算、分布式或者硬件加速的方式來加快數(shù)據(jù)處理速度。而且它們大多是用pandas的接口函數(shù)、方法和pandas類似切換的學習成本很低比如Polars、Modin、cuDF。那什么場景下使用對應的數(shù)據(jù)處理庫呢就像之前說的小數(shù)據(jù)集或者快速驗證的數(shù)據(jù)可以用pandas單機處理中大數(shù)據(jù)集用Polars或Modin分布式處理超大數(shù)據(jù)集用Dask有GPU加速用cuDF復雜查詢則用DuckDB?？偟膩碚fPandas則絕大多數(shù)場景下速度已經(jīng)夠用了而且它的生態(tài)和功能是最完善的其他加速庫盡管速度上有優(yōu)勢但體系能力還是差不少的。

97色伦色在线综合视频,无玛专区,18videosex性欧美黑色,日韩黄色电影免费在线观看,国产精品伦理一区二区三区,在线视频欧美日韩,亚洲欧美在线中文字幕不卡

菏澤網(wǎng)站建設公司揚州市住房建設局網(wǎng)站

商城網(wǎng)站開發(fā)技術可行性分析八戒影視大全

私有云網(wǎng)站建設簡單公司網(wǎng)站模版

網(wǎng)上網(wǎng)站代碼可以下載嗎網(wǎng)站制作服務好的商家

建筑設計專業(yè)推薦網(wǎng)站在門戶網(wǎng)站中營銷者通過制作什么

裝飾裝修網(wǎng)站模板建設南寧在那里推廣網(wǎng)站

小企業(yè)網(wǎng)站建設多少錢wordpress html5 模板下載

97色伦色在线综合视频,无玛专区,18videosex性欧美黑色,日韩黄色电影免费在线观看,国产精品伦理一区二区三区,在线视频欧美日韩,亚洲欧美在线中文字幕不卡

菏澤 網(wǎng)站建設公司揚州市住房建設局網(wǎng)站

商城網(wǎng)站開發(fā)技術可行性分析八戒影視大全

私有云網(wǎng)站建設簡單公司網(wǎng)站模版

網(wǎng)上網(wǎng)站代碼可以下載嗎網(wǎng)站制作服務好的商家

建筑設計專業(yè)推薦網(wǎng)站在門戶網(wǎng)站中營銷者通過制作什么

裝飾裝修網(wǎng)站模板建設南寧在那里推廣網(wǎng)站

小企業(yè)網(wǎng)站建設多少錢wordpress html5 模板下載

菏澤網(wǎng)站建設公司揚州市住房建設局網(wǎng)站