正規表現のリテラル文字列 – propansystem プロパンシステム

前回の投稿で正規表現クラスについて書きましたが、
正規表現でパターンマッチに使う正規表現リテラルの文字列を整理してみます。

パターンマッチに使える文字列はバックスラッシュ「\」で始まるエスケープシーケンスの形式で下記の文字列があります。

//NUL文字
\0

//タブ
\t

//改行
\n

//垂直タブ
\v

//改ページ
\f

//復帰
\r

//ASCII文字(16進数)
\xnn

//Unicode文字
\uxxxx

//制御文字
\cX

また正規表現の中で使われる文字列は次のものになります。

^
$
.
*
+
?
=
!
:
|
\
/
()
[]
{}

例えば^は文字列の先頭を表し、$は末尾を表します。

簡単に次のように書くと「末尾がaで終わるもの」等のパターンマッチができます。

また、次のように書くと「1文字のa」にマッチします。

^a$

単純にバックスラッシュそのものにマッチさせる必要がある場合、\を\の前に記述してエスケープさせます。

/\\/

エスケープすることで、パターンマッチに使える文字そのものを正規表現の対象文字として書くことができます。