2019年5月6日月曜日

PowershellからExport csv してPythonで読んで保存するときの文字化け対策

日本語フォントが入っているときのcsv出力の注意です。

PowershellでGet-Child-Items を -Exportで出力し、
Export-Csv -Encoding UTF8
としてエンコードをUTF8に設定できます。

これをPythonで読もうとするとき、
pandas.read_csv
を使うと utf-8 で読めます(日本語になっている)。

しかし、ここから保存するときにutf-8にすると文字化けしてしまいました。

何がだめだったか


「~」が入っているからなようです。

http://tanakahisateru.hatenablog.jp/entry/20080728/1217216409
で紹介されているように、波型は2つのユニコードを持っているようです。

それで判定できなくて文字化けしていると。

対策としては、UTF8ではなくcp932にすること。
Export-Csv -Encoding default
にしたらcp932になって解決。
(Winの場合はcp932がデフォルでした)

0 件のコメント:

コメントを投稿