您好,欢迎来到二三四教育网。
搜索
您的当前位置:首页爬虫前的准备

爬虫前的准备

来源:二三四教育网

渣渣一个,需要准备一些不知道,不熟悉的东西。摘抄与互联网各处。

"^[0-9]*[1-9][0-9]*$"  //正整数
"^-?\d+$"    //整数
"^[\w-]+(\.[\w-]+)*@[\w-]+(\.[\w-]+)+$"    //email地址

"^[a-zA-z]+://(\w+(-\w+)*)(\.(\w+(-\w+)*))*(\?\S*)?$"  //url

/^(d{2}|d{4})-((0([1-9]{1}))|(1[1|2]))-(([0-2]([1-9]{1}))|(3[0|1]))$/   //  年-月-日

/^((0([1-9]{1}))|(1[1|2]))/(([0-2]([1-9]{1}))|(3[0|1]))/(d{2}|d{4})$/   // 月/日/年

"^([w-.]+)@(([[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}.)|(([w-]+.)+))([a-zA-Z]{2,4}|[0-9]{1,3})(]?)$"   //Emil

"(d+-)?(d{4}-?d{7}|d{3}-?d{8}|^d{7,8})(-d+)?"     //电话号码

"^(d{1,2}|1dd|2[0-4]d|25[0-5]).(d{1,2}|1dd|2[0-4]d|25[0-5]).(d{1,2}|1dd|2[0-4]d|25[0-5]).(d{1,2}|1dd|2[0-4]d|25[0-5])$"   //IP地址


re.search

    re.search 模式:在字符串中查找匹配的对象,找到第一个后返回,如果没有返回None
    re.search的函数为:re.search(pattern,string,flags)
    相比re.match只匹配开始而言,search会匹配所有,直到找到一个

re.findall

    re.findall 模式:获取字符串中所有匹配的对象
    相比re.search而言会搜寻所有的可匹配对象
3.总结速查表
元字符     含义
.   匹配一个字符(除了换行符\n)
[]  匹配里面一个可选字符
^   匹配词首
$   匹配词尾
{n}     前面的字符重复n次
{n,m}   前面的字符重复从n次到m次
{n,}    前面的字符重复n次到无限次
*   {0,}
+   {1,}
?   {0,1}
[^]     不包含里面内容
\d  [0-9]
\w  [A-Za-z0-9]
(?:pattern)     正向预查的正向匹配,等效于
(?=pattern)     正向预查的正向匹配,匹配后面跟着pattern的字符串
(?!pattern  正向预查的正向不匹配,匹配后面不跟着pattern的字符串
(?<=pattern)    反向预查的反向匹配,匹配前面是pattern的字符串
(?<!pattern)    反向预查的反向不匹配,匹配前面不是pattern的字符串
量词?     非贪婪模式

Copyright © 2019- how234.cn 版权所有 赣ICP备2023008801号-2

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务