Python正则表达式学习笔记

Luckly 收录于 Python

2017-08-21 约 1646 字预计阅读 4 分钟次阅读

更多分享：http://www.catbro.cn

一、前言：

正则表达式的作用很多，如：爬虫中抽取数据、网站验证、日志分析、数据匹配等等，当先，现在的人工智能等也离不开正则表达式的使用。
换成一句话，正则就是对文本的处理。

二、Python正则表达式

Python正则表达式的能力来源于 re 模块，模块提供 Perl 风格的正则表达式模式。
re 模块使 Python 语言拥有全部的正则表达式功能。

三、正则的学习

re.macth函数

re.match 函数将尝试从字符串的起始位置开始匹配，如果不是起始位置匹配成功的话，match()就返回none。
使用语法为：re.match(pattern, string, flags=0)
参数说明：

1、pattern : 匹配的正则表达式 2、string : 要匹配的字符串 3、flags : 标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。

OK，我们通过代码来学习

  print(re.match('www','www.catbro.cn'))

  print(re.match('www','wWW.catbro.cn'))

  print(re.match('www','wWW.catbro.cn',re.RegexFlag.IGNORECASE))

  print(re.match('www1','www.catbro.cn'))

  print(re.match('cn','www.catbro.cn'))

运行结果：

  <_sre.SRE_Match object; span=(0, 3), match='www'>
  None
  None

从结果可以看到：

1、如果从其实位置开始能匹配到的，其返回的是一个对象； 2、由于我们第二个中w存在大小，默认匹配模式是不忽略大小写的，所以匹配不到。 3、由于我们重置匹配模式为忽略大小写，所以又可以找到来哦，所以小伙伴们可以根据实际需求进行修改哦。 4、最后两个匹配不到返回None；其中虽然 cn 确实是www.catbro.cn上的，但是按从字符串开始位置进行匹配，也是匹配不到的哦。

Ok，我们从上面的例子学习来match函数的使用，也知道其匹配到后返回的是一个对象，匹配不到返回None
假如一些文章的格式已经固定了，我想获取里面的某部分内容，可不可以呢？
当然可以，这样的情景更多在网络爬虫、数据分析提取中出现。
此时我们需要用到一个函数

match.group(num=0)或者match.groups() 函数获取匹配表达式。

group(num=0) : 其匹配整个表达式的字符串，group() 可以一次输入多个组号，在这种情况下它将返回一个包含那些组所对应值的元组。
groups() : 返回一个包含所有小组字符串的元组，从 1 到所含的小组号。
OK,在贴代码前，首先说一下，我们在正则表达式中通过使用（）来确定目标数据

代码修改如下：

  line = "Hello, I am 安杰小生,我的博客是www.catbro.cn"

  m =  re.match(r'.* am (.*),我的博客是(.*)',line,re.IGNORECASE);
  if m is not None :
  	print(m.group())
  	print(m.groups())
  	#取出第一个()的数据
  	print(m.group(1))
  	#取出第二个()的数据
  	print(m.group(2))

  else:
  	print('我什么都找不到～～')

结果输出如下：

  Hello, I am 安杰小生,我的博客是www.catbro.cn
  ('安杰小生', 'www.catbro.cn')
  安杰小生
  www.catbro.cn

我们可以看到，group返回的是匹配到的字符串，groups则以元组的形式存储我们的匹配结果。
还有一点要注意，groups的结果只会包含用（）括起来的数据，group则还包括了整个负责正则表达式规则的数据
通过group形式，我们可以传入（）的需要拿到我们要的目标数据。
还有一点要注意，我们编写正则表达式是，字符串前用了 r，为什么呢，这样是表示正则表达式字符串是原始类型的字符串，原始字符串时python解析器不会对内部的特殊字符进行转译，减少不必要的麻烦

前面我们说match只会从字符串最左边开始进行匹配，一旦匹配不到就会返回None，但是，我只关心中间的或者最右边的数据，那该怎么办呢？

search函数：其扫描整个字符串，并返回第一个成功匹配的字符串

使用语法为：re.search(pattern, string, flags=0)，参数与match一样。

OK，我们修改一下示例代码：

  print(re.search('www','www.catbro.cn',re.IGNORECASE))

  print(re.search('catbro','wWW.catbro.cn',re.IGNORECASE))

  print(re.search('cn','www.catbro.cn',re.IGNORECASE))

运行结果如下：

  <_sre.SRE_Match object; span=(0, 3), match='www'>
  <_sre.SRE_Match object; span=(4, 14), match='catbro'>
  <_sre.SRE_Match object; span=(15, 17), match='cn'>

Ok，可以看到，使用search可以满足我们的需求了。

re.match与re.search的区别

re.match只会匹配字符串的开始，如果字符串开始就不符合正则表达式，则说明匹配失败，函数返回None；
re.search匹配的是整个字符串

五、总结

到这里我们就学习了python中正则表达式的简单使用，正则是很强大的一个工具，我们将在后面篇幅继续学习正则表达式在python中的使用知识

更新于 2017-08-21

阅读原始文档

Python

返回 | 主页

目录

Python正则表达式学习笔记

一、前言：

二、Python正则表达式

三、正则的学习

re.macth函数

match.group(num=0)或者match.groups() 函数获取匹配表达式。

search函数：其扫描整个字符串，并返回第一个成功匹配的字符串

re.match与re.search的区别

五、总结