*

sed で連続した複数の空行を1つにまとめる

公開日: : 最終更新日:2014/07/16 パソコン

前日の記事「 WSH で初めてのプログラミング 」で行った作業ですが、ちょっと不満があったのでやり直し。

プログラムではなく、データ自体の問題。

6000以上ある個別のテキストファイルのうちのかなりのものが重複しているのですが、改行が1つ余分に入っているだけで同じファイルとは認識されず、ほぼ同じデータが最終データに大量に混入します。

そこでまたいろいろ考えたのですが、たしか sed(ストリームエディタ)で昔やったことがあるな、と。

sed マニュアル

調べてみるとありました。

/^$/{
N
/^\n$/D
}

 

上の sed 用コマンドで、複数個の連続した改行(空の行)を1つに縮められます。

> sed –f commandfile < file1 >file2

の書式を使って簡単に終了。

もちろん1個1個こんなことはしておらず、DOS用のsedコマンドを使ったためバッチファイルと組み合わせて一括で処理してしまいました。

前日の結果よりも 500個近い重複ファイルが排除され、ずいぶんスリムになりました。

上は DOS で行ったのでめんどくさいですが、Linux なら sed  も標準で装備していますし、強力なシェルスクリプトもありますので、もっと簡単。

上の sed 用コマンドを commandfile というファイルにしておいて次のようなシェルスクリプトを端末から走らせれば、テキストファイルが 6000個だろうと 6000万個だろうと一発ですんでしまいます。

 

#!/bin/bash

shori_files=”$(find /tmp/shorizen -name *.txt)”
for file in $shori_files
do
    sed -f commandfile < $file >  /temp/shorigo $file
done

###

 

関連記事

日本ヒューレットパッカード インクジェット複合機 HP ENVY 6020

日本HP HP インクジェット複合機 A4カラー対応 ENV

記事を読む

Windows Live Writer を使ってみた

Windows Live Writer というブログエディタ(Microsoft 製フリーソフト

記事を読む

Vostro260S (2) 最大の欠点

2011年3月に買った PC です。 一時期メインで使っていたのですが、冬の寒い朝に電

記事を読む

パソコン逝く 2016-04-06

4号機立ち上がらず 自宅の仕事場では PC切替機を使って 4台のパソコンを 1セットのキーボー

記事を読む

Chalet OS 16.04 試用してみた

久々の Linux ネタです。 Zorin 12 Core 版を常用しているワタシで

記事を読む

PC2-5300E というメモリ

高槻遠隔画像診断センターで Windows7 が入っている PC(DELL Dimensio

記事を読む

DELL Optiplex740 またゲット

  * またヤフオクでゲット。2200円。 CPU:Athlon64X2 3

記事を読む

ACアダプタ HSTNN-LA01-E 到着

この前落札した HP 8200 Elite USDT です。 動かそうと思って

記事を読む

ブルーレイドライブ PC用USB3.0接続外付け 読み書き Windows/Mac 両対応 aelrsoch ブランド

aelrsoch という聞いたことのないブランド。たぶん中国製でしょう。まともな日本語で書かれた

記事を読む

WD20EZRZRT ウエスタンデジタル製HDD(WD Blue) 2TB

WD20EZRZ-RT Western Digital 売り上げランキング :

記事を読む

Message

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

「経済とお金の地図」という Youtubeサイト

面白いサイトにはまっています。「経済とお金の地図」という Yo

50年ぶりにリュックサックを買う

50年ぶりにリュックサックを買うことになりました。 ふだんは

WCM 世界成長株厳選ファンド(予想分配金提示型)【愛称】ネクスト・ジェネレーション

「WCM 世界成長株厳選ファンド(予想分配金提示型)」という投資信託は

無題その1

人間の目が最も感度がいい色は黄色。 なぜ? たぶんこれは太陽の

あっちのゴルカン

昨日、「Tracers MSCIオール・カントリー・ゴールドプラス」に

→もっと見る

  • アクセスカウンター
PAGE TOP ↑