Dask 사용 팁

less than 1 minute read

1. Multiprocessing을 디폴트로

import dask
dask.config.set(pool=Pool(12))
dask.config.set(scheduler='processes')

</br>

2. Dask DataFrame에서 값 변경하기

Pandas처럼 df.loc을 사용하면 다음과 같은 에러 발생

'_LocIndexer' object does not support item assignment

이 때는 dask의 mask 메소드를 사용할 수 있다.

wave_ddf.mask((wave_ddf.height<0)|(wave_ddf.period<0),0)

ddf.mask(필터, 변경할 값)의 식으로 넣으면 된다. np.where와 비슷하면서도 다름. (DataFrame뿐만 아니라 Series에서도 사용 가능)

Tags:

Categories:

Updated: