Table des matières

Dernière mise-à-jour : 2020/01/30 03:27

103.7 - Rechercher dans des fichiers textes en utilisant des expressions régulières (2/60)

Expressions Régulières

La manipulation de fichiers textes utilise des expressions régulières. Sous Linux il existe deux types d'expressions régulières :

Les expressions régulières utilisent des caractères spéciaux. Certains caractères sont communs aux Erb et aux Ere :

Caractère spécial Description
^ Trouver la chaîne au début de la ligne
$ Trouver la chaîne à la fin de la ligne
\ Annuler l'effet spécial du caractère suivant
[ ] Trouver n'importe quel des caractères entre les crochets
[^] Exclure les caractères entre crochets
. Trouver n'importe quel caractère sauf à la fin de la ligne
* Trouver 0 ou plus du caractère qui précède
\< Trouver la chaîne au début d'un mot
\> Trouver la chaîne à la fin d'un mot

ERb

Certains caractères spéciaux sont spécifiques aux ERb :

Caractère spécial Description
\{x,y\} Trouver de x à y occurrences de ce qui précède
\{x\} Trouver exactement le nombre x d'occurrences de ce qui précède
\{x,\} Trouver le nombre x ou plus d'occurrences de ce qui précède
\(ERb) Mémoriser une ERb
\1 Rappeler la première ERb mémorisée
\2, \3 … Rappeler la deuxième ERb mémorisée, rappeler la troisième ERb mémorisée etc

ERe

Certains caractères spéciaux sont spécifiques aux ERe :

Caractère spécial Description
? Trouver 0 ou 1 occurrence de ce qui précède
+ Trouver 1 ou n d'occurrences de ce qui précède
{x,y} Trouver de x à y occurrences de ce qui précède
{x} Trouver exactement le nombre x d'occurrences de ce qui précède
{x,} Trouver le nombre x ou plus d'occurrences de ce qui précède
() Faire un ET des expressions régulières entre les paranthèses
| Faire un OU des expressions régulières se trouvant de chaque côté du pipe

Outils de Manipulation de Fichiers Texte

La commande grep

La commande grep peut être utilisée pour rechercher des lignes contenant une chaîne de caractères dans un jeu de fichiers.

Par défaut, la commande grep est sensible à la casse. Pour rendre cette commande insensible à la casse, il faut utiliser l'option -i.

La commande grep peut être aussi utilisée pour faire l'inverse, autrement dit de montrer les lignes qui ne contiennent pas la chaîne recherchée. Dans ce cas, il faut utiliser l'option –v.

La commande grep peut être utilisée avec des Expressions Régulières basiques. Ceci est utile pour rechercher dans le contenu de fichiers.

Options de la commande

A faire : Utilisez l'option –help de la commande grep pour visualiser les options de la commande.

La Commande egrep

La commande egrep est identique à la commande grep -E. Dans les deux cas, l'utilisation des expressions régulières est étendue aux ERe.

Options de la commande

A faire : Utilisez l'option –help de la commande egrep pour visualiser les options de la commande.

La Commande fgrep

La commande fgrep est identique à la commande grep -F. Dans les deux cas et par défaut la recherche concerne une chaîne de caractères interprétés dans un sens littéral sans utilisation de caractères spéciaux ni d'expressions régulières.

Options de la commande

A faire : Utilisez l'option –help de la commande fgrep pour visualiser les options de la commande.

LAB #1 - Utiliser grep, egrep et fgrep

Téléchargez le fichier greptest vers votre machine virtuelle en double-cliquant sur le titre ci-dessous :

greptest
fenestrOS
fenestros
555-5555
f
.fenestros
.fe
£

Placez ce fichier dans le répertoire /tmp :

[root@centos7 ~]# mv /home/trainee/Downloads/greptest /tmp/greptest

Recherchez maintenant toute ligne du fichier /tmp/greptest contenant au moins une lettre :

[root@centos7 ~]# grep '[a-zA-Z]' /tmp/greptest
fenestrOS
fenestros
f
.fenestros
.fe

Recherchez maintenant toute ligne contenant au moins une lettre ou un chiffre :

[root@centos7 ~]# grep '[a-zA-Z0-9]' /tmp/greptest
fenestrOS
fenestros
555-5555
f
.fenestros
.fe

Important : Notez la présence de la ligne 555-5555.

Recherchez maintenant toute ligne contenant un numéro de téléphone au format NNN-NNNN :

[root@centos7 ~]# grep '[0-9]\{3\}-[0-9]\{4\}' /tmp/greptest
555-5555

Recherchez maintenant toute ligne contenant exactement un caractère :

[root@centos7 ~]# grep '^.$' /tmp/greptest
f
£

Important : Notez l'utilisation des caractères spéciaux le début de ligne : ^, n'importe quel caractère : . et la fin de ligne : $.

Recherchez maintenant toute ligne commençant par un point :

[root@centos7 ~]# grep '^\.' /tmp/greptest
.fenestros
.fe

Important : Notez l'utilisation du caractère d'échappement \ pour annuler l'effet du caractère spécial .

La commande grep peut aussi être utilisée pour rechercher une chaîne dans tous les fichiers d'un répertoire spécifié : grep -rnw 'directory' -e “pattern”. Vous pouvez aussi spécifier les extentions des fichiers dans lesquels vous voulez rechercher la chaîne : grep –include={*.doc,*.xls} -rnw 'directory' -e “pattern”. Dernièrement vous pouvez exclure des fichiers de la recherche de la façon suivante : grep –exclude=*.doc -rnw 'directory' -e “pattern”.

Téléchargez le fichier greptest modifié vers votre machine virtuelle en double-cliquant sur le titre ci-dessous :

greptest
# Starting comment
fenestrOS
fenestros
# Another comment
555-5555
f

.fenestros

.fe

£
# End comment

Placez ce fichier dans le répertoire /tmp :

[root@centos7 ~]# mv /home/trainee/Downloads/greptest /tmp/greptest

Utilisez maintenant la commande grep avec l'option -E pour supprimer les lignes de commentaires ainsi que les lignes vides :

[root@centos7 ~]# grep -E -v '^(#|$)' /tmp/greptest
fenestrOS
fenestros
555-5555
f
.fenestros
.fe
£

Important : Notez l'utilisation des parenthèses pour faire un regroupement ainsi que le pipe pour représenter un OU. L'expression '^(#|$)' indique donc “toute ligne commençant par le caractère #” OU “toute ligne où le début de la ligne est aussi la fin de la ligne”.

Utilisez maintenant la commande egrep pour envoyer le contenu du fichier /tmp/greptest, sans commentaires et sans lignes vides, dans le fichier /tmp/greptest1 :

[root@centos7 ~]# egrep -v '^(#|$)'  /tmp/greptest > /tmp/greptest1
[root@centos7 ~]# cat /tmp/greptest1
fenestrOS
fenestros
555-5555
f
.fenestros
.fe
£

Important : Cette commande est particulièrement utile face à un fichier de configuration de plusieurs centaines de lignes dont certaines contiennent des directives activées d'autres sont vides ou en commentaires. De cette façon vous pouvez généré facilement un fichier ne contenant que les directives activées.

Téléchargez le fichier greptest modifié vers votre machine virtuelle en double-cliquant sur le titre ci-dessous :

greptest
# Starting comment
^ This line will be used to demonstrate the use of fgrep
fenestrOS
fenestros
# Another comment
555-5555
f
 
.fenestros
 
.fe
 
£
# End comment

Placez ce fichier dans le répertoire /tmp :

[root@centos7 ~]# mv /home/trainee/Downloads/greptest /tmp/greptest

Utilisez maintenant la commande fgrep pour rechercher la ligne commençant par le caractère ^ :

[root@centos7 ~]# fgrep '^' /tmp/greptest
^ voici une ligne pour la recherche fgrep

Comparez le résultat ci-dessus avec celui de la commande grep :

[root@centos7 ~]# grep '^' /tmp/greptest
# Commentaire du début
^ voici une ligne pour la recherche fgrep
fenestrOS
fenestros
# Un autre commentaire
555-5555
f

.fenestros

.fe

£
# Commentaire de la fin

En effet, la ligne de commande en utilisant la commande grep devrait être :

[root@centos7 ~]# grep '^\^' /tmp/greptest
^ voici une ligne pour la recherche fgrep

Le Commande sed

La commande sed ou Stream EDitor est un éditeur de texte non-intéractif. Les actions spécifiées par la commande sed sont exécutées par défaut sur chaque ligne du fichier. La commande sed ne modifie pas le fichier d'origine et sa sortie standard est le canal 1.

Si plusieurs actions sont spécifiées dans la ligne de commande, chacune doit être précédée par l'option -e.

La syntaxe de la commande sed est la suivante :

sed [adresse] commande [arguments]

L'adresse permet de stipuler les lignes concernées par la commande.

La syntaxe d'une adresse peut être :

adresse Lignes concernées
a La ligne numéro a
$ La dernière ligne
/ERb/ Les lignes qui correspondent à l'ERb
a,b De la ligne numéro a jusqu'à la ligne numéro b
/ERb1/, /ERb2/ Toutes les lignes entre la première occurrence correspondant à l'ERb1 jusqu'à la première occurrence correspondant à l'ERb2

Le commandes de sed sont :

commande Description
d Ne pas afficher la ou les ligne(s)
p Afficher la ou les ligne(s)
s Effectuer une substitution
w Ecrire le ou les ligne(s) dans un fichier
= Afficher le numéro de la ligne spécifiée
! Exécuter la commande ci-dessus sur toutes les lignes sauf celle spécifiées dans l'adresse

Options de la commande

A faire : Utilisez l'option –help de la commande sed pour visualiser les options de la commande.

LAB #2 - Utiliser la Commande sed

La commande d de sed permet de ne pas afficher certaines lignes à l'écran. Dans l'exemple qui suit, les 10 premières lignes du fichier /etc/services ne sont pas affichées à l'écran :

[root@centos7 ~]# sed '1,10d' /etc/services | more
# are included, only the more common ones.
#
# The latest IANA port assignments can be gotten from
#       http://www.iana.org/assignments/port-numbers
# The Well Known Ports are those from 0 through 1023.
# The Registered Ports are those from 1024 through 49151
# The Dynamic and/or Private Ports are those from 49152 through 65535
#
# Each line describes one service, and is of the form:
#
# service-name  port/protocol  [aliases ...]   [# comment]

tcpmux          1/tcp                           # TCP port service multiplexer
tcpmux          1/udp                           # TCP port service multiplexer
rje             5/tcp                           # Remote Job Entry
rje             5/udp                           # Remote Job Entry
echo            7/tcp
echo            7/udp
discard         9/tcp           sink null
discard         9/udp           sink null
systat          11/tcp          users
systat          11/udp          users
daytime         13/tcp
--Plus--                    

Dans l'exemple qui suit, sed n'affiche pas de lignes de commentaires, c'est-à-dire les lignes commençant par le caractère # :

[root@centos7 ~]# sed '/^#/d' /etc/services | more

tcpmux          1/tcp                           # TCP port service multiplexer
tcpmux          1/udp                           # TCP port service multiplexer
rje             5/tcp                           # Remote Job Entry
rje             5/udp                           # Remote Job Entry
echo            7/tcp
echo            7/udp
discard         9/tcp           sink null
discard         9/udp           sink null
systat          11/tcp          users
systat          11/udp          users
daytime         13/tcp
daytime         13/udp
qotd            17/tcp          quote
qotd            17/udp          quote
msp             18/tcp                          # message send protocol
msp             18/udp                          # message send protocol
chargen         19/tcp          ttytst source
chargen         19/udp          ttytst source
ftp-data        20/tcp
ftp-data        20/udp
ftp             21/tcp
ftp             21/udp          fsp fspd
--Plus--                        

Important : Notez que l'ERb est entourée des caractères / et /.

La commande sed vous permet d'afficher à l'écran certaines lignes spécifiées en utilisant la commande p :

[root@centos7 ~]# sed '1,2p' /etc/passwd
root:x:0:0:root:/root:/bin/bash
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
...

Important : Notez que sed affiche également tout le contenu du fichier. Ceci implique que les lignes 1 et 2 s'affichent deux fois.

Pour n'afficher que les lignes spécifiées, il convient d'utiliser l'option -n :

[root@centos7 ~]# sed -n '1,2p' /etc/passwd
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin

La commande w permet d'écrire dans un fichier. Par exemple pour écrire dans le fichier /tmp/sedtest toutes les lignes du fichier /etc/services ne commençant pas par le caractère #, il convient d'utiliser la commande suivante :

[root@centos7 ~]# sed -n '/^#/!w /tmp/sedtest' /etc/services
[root@centos7 ~]# more /tmp/sedtest

tcpmux          1/tcp                           # TCP port service multiplexer
tcpmux          1/udp                           # TCP port service multiplexer
rje             5/tcp                           # Remote Job Entry
rje             5/udp                           # Remote Job Entry
echo            7/tcp
echo            7/udp
discard         9/tcp           sink null
discard         9/udp           sink null
systat          11/tcp          users
systat          11/udp          users
daytime         13/tcp
daytime         13/udp
qotd            17/tcp          quote
qotd            17/udp          quote
msp             18/tcp                          # message send protocol
msp             18/udp                          # message send protocol
chargen         19/tcp          ttytst source
chargen         19/udp          ttytst source
ftp-data        20/tcp
ftp-data        20/udp
ftp             21/tcp
ftp             21/udp          fsp fspd
--Plus--(0%)

La commande s permet de procéder à une substitution :

[root@centos7 ~]# echo "user1,user2,user3" > /tmp/sedtest1
[root@centos7 ~]# cat /tmp/sedtest1 | sed 's/,/ /g'
user1 user2 user3

Important : Notez que dans cet exemple, la commande s est suivi par un argument qui prend la forme /ce qui est à remplacer (caractère, chaîne ou ERb)/chaîne de remplacement/g. Le caractère g force le remplacement de toutes les occurrences. Sans elle, uniquement la première occurrence serait remplacée. Dans le cas de l'exemple, on remplace donc les virgules par des espaces.


<html>

Copyright © 2004-2017 Hugh Norris.<br><br> <a rel=“license” href=“http://creativecommons.org/licenses/by-nc-nd/3.0/fr/”><img alt=“Licence Creative Commons” style=“border-width:0” src=“http://i.creativecommons.org/l/by-nc-nd/3.0/fr/88x31.png” /></a><br />Ce(tte) oeuvre est mise à disposition selon les termes de la <a rel=“license” href=“http://creativecommons.org/licenses/by-nc-nd/3.0/fr/”>Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 3.0 France</a>.

</html>