*

sed で連続した複数の空行を1つにまとめる

公開日: : 最終更新日:2014/07/16 パソコン

前日の記事「 WSH で初めてのプログラミング 」で行った作業ですが、ちょっと不満があったのでやり直し。

プログラムではなく、データ自体の問題。

6000以上ある個別のテキストファイルのうちのかなりのものが重複しているのですが、改行が1つ余分に入っているだけで同じファイルとは認識されず、ほぼ同じデータが最終データに大量に混入します。

そこでまたいろいろ考えたのですが、たしか sed(ストリームエディタ)で昔やったことがあるな、と。

sed マニュアル

調べてみるとありました。

/^$/{
N
/^\n$/D
}

 

上の sed 用コマンドで、複数個の連続した改行(空の行)を1つに縮められます。

> sed –f commandfile < file1 >file2

の書式を使って簡単に終了。

もちろん1個1個こんなことはしておらず、DOS用のsedコマンドを使ったためバッチファイルと組み合わせて一括で処理してしまいました。

前日の結果よりも 500個近い重複ファイルが排除され、ずいぶんスリムになりました。

上は DOS で行ったのでめんどくさいですが、Linux なら sed  も標準で装備していますし、強力なシェルスクリプトもありますので、もっと簡単。

上の sed 用コマンドを commandfile というファイルにしておいて次のようなシェルスクリプトを端末から走らせれば、テキストファイルが 6000個だろうと 6000万個だろうと一発ですんでしまいます。

 

#!/bin/bash

shori_files=”$(find /tmp/shorizen -name *.txt)”
for file in $shori_files
do
    sed -f commandfile < $file >  /temp/shorigo $file
done

###

 

関連記事

Windows2000 で Java7 がインストールできない

* 愛用の Windows2000 マシン(これが一番読影がスムースに行く)に突然 Java

記事を読む

【無料フォント】やさしさゴシック

「デザイナーが本当に欲しい無料フォント10選」という記事を見つけて、読んでみました。 普段使っ

記事を読む

レグザで壊れた HDD 復旧

レグザで使っていて一昨日壊れた外付けハードディスクドライブの復旧の続きです。

記事を読む

SSD のプチフリ対策

SSD のプチフリ SSD に特有のプチフリの話です。 最近の SSD はバッファメモリを積

記事を読む

A880G+ Ver. 6.x

BIOSTAR SocketAM3 MicroATXマザーボード A880G

記事を読む

DELL DIMENSION 9200 1台め 初チェック

DELL DIMENSION 9200[/caption]  * CPU:Core

記事を読む

ヒューレットパッカードのノートパソコン HP 15-bw000 狂う

2018年6月に余った経費で買ったまま、ほとんど使っていなかったヒューレットパッカードのノートパソコ

記事を読む

魅力的なCPU Athlon の復活 / Athlon 5350 /安価で4コア TDP25W

Athlon という CPU Athlon という AMD社製の CPU が昔ありました。

記事を読む

MakuluLinux 2020 Flash 試用してみた

2020年4月なので Ubuntu20.04LTS がそろそろ出る頃と首を長くして待っているのですが

記事を読む

パナソニックBDメディア

Panasonic ブルーレイディスク 録画用4倍速 25GB(単層 追記型)

記事を読む

Message

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

悲報 ブルーレイレコーダー 発売停止

https://www.youtube.com/watch?v=fAs

【FX】vantage ECN口座 2つめ新設

FX の話です。 vantage trading(以下 vant

2026-1-13 日経平均爆上げして最高水準に

1/13 本日の日経平均は前日比プラス 1609円で、史上最高の 53

煮込みビーフカレー 森のきのこカレー

以前、楽天市場で買った「森のきのこカレーお試しセット」はなかなか良かっ

0.01%ルール

『Just Keep Buying』の著者 ニック・マジューリ

→もっと見る

  • アクセスカウンター
PAGE TOP ↑