2020年9月20日日曜日

Powershellでハッシュを見て同じファイルがないかを確認

ついつい同じファイルを別のディレクトリに保存してしまうので、整理のために確認することにしました。

Powershellの get-filehash (> Powershell 4) を使います。結果はcwdのfilehash.csvに保存しています。


PS C:\Users\...\python> dir | Get-FileHash -Algorithm {MD5}|Select-Object -Property Path, Hash | Export-Csv -Encoding utf8 .\filehash.csv


-Algorithm {MD5} でハッシュアルゴリズムを選んでいます。

デフォルトはSHA256 なのですが、ファイルの同一性だけを見たかったのと時間と出力の重さを考えてMD5にしました。MD5:128bitとSHA256:256bitの違いです。


これで各ファイルに対してハッシュ値が得られます。あとは同じハッシュがないかを探せばよいです。

その後はPythonで処理しています。Powershell側で同一の検索などもできると思うのですが・・・。

注意としては、バックアップファイルは同じハッシュ値を持っています。例:jupyter ipynb_checkpoint


0 件のコメント:

コメントを投稿