Trong bài này chúng ta sẽ tìm hiểu biểu thức chính quy (regular expression) trong Python. Đây là một module được tích hợp sẵn trong Python nên bạn chỉ việc gọi ra và sử dụng.
Các biểu thức chính quy dùng để định nghĩa cấu trúc của một pattern và tìm kiếm trong một chuỗi dựa vào pattern đó.
I. Module re trong Python
Các mô-đun re
cung cấp và hỗ trợ để sử dụng regex trong chương trình python. Mô đun re
đưa ra một exception nếu có một số lỗi trong khi sử dụng regular expression.
Lưu ý: Để tiện cho việc thao luận thì chúng ta gọi Regular Expression là Regex.
Để sử dụng được Regex thì ta sẽ import module re
vào như sau:
1
|
import re |
Regex functions
Trong module re hỗ trợ 5 functions chính, đó là: match, search, findall, split và cuối cùng là sub.
SN | Function | Description |
---|---|---|
1 | match | Phương thức này khớp với regex pattern trong chuỗi với cờ tùy chọn. Nó trả về true nếu tìm thấy kết quả khớp trong chuỗi nếu không nó trả về false.. |
2 | search | Phương thức này trả về đối tượng khớp nếu có một kết quả khớp được tìm thấy trong chuỗi. |
3 | findall | Nó trả về một danh sách chứa tất cả các kết quả khớp của một pattern trong chuỗi. |
4 | split | Trả về một danh sách kết quả khớp trong đó chuỗi đã được phân chia. |
5 | sub | Thay thế một hoặc nhiều kết quả khớp trong chuỗi |
II. Quy tắc Regular Expression
Trong Python, các biểu thức regex được hình thành bằng cách sử dụng kết hợp những ký hiệu, ta gọi là Meta-Characters.
Meta-Characters
Metacharacter là những ký hiệu được chỉ định đai diện cho một quy tắc riêng nào đó. Xem ở bảng dưới đây để hiểu rõ hơn.
Metacharacter | Description | Example |
---|---|---|
[] | Đại diện cho một bộ kí tự trong khoảng. | “[a-z]” |
\ | Đại diện cho một chuỗi đặc biệt. | “\r” |
. | Đại diện một ký tự bất kì | “Ja.v.” |
^ | Khai báo bắt đầu chuỗi | “^Java” |
$ | Khai báo kết thúc chuỗi | “point$” |
* | Đại diện cho không hoặc nhiều lần xuất hiện của một mẫu trong chuỗi. | “hello*” |
+ | Đại diện cho một hoặc nhiều lần xuất hiện của một mẫu trong chuỗi. | “hello+” |
{} | Số lần xuất hiện đã chỉ định của một mẫu chuỗi. | “java{2}” |
| | Đại diện cho cái này này hoặc cái kia | “free|tuts” |
() | Capture and group |
Special Sequences
Special Sequences là các chuỗi có chứa dấu \ theo sau là một trong các ký tự dưới đây.
Character | Description |
---|---|
\A | Khớp nếu các ký tự được chỉ định có mặt ở đầu chuỗi. |
\b | Khớp nếu các ký tự được chỉ định có mặt ở đầu hoặc cuối chuỗi. |
\B | Khớp nếu các ký tự được chỉ định có mặt ở đầu chuỗi nhưng không ở cuối chuỗi. |
\d | Khớp nếu chuỗi chứa các chữ số [0-9]. |
\D | Khớp nếu chuỗi không chứa các chữ số [0-9]. |
\s | Khớp nếu chuỗi chứa bất kỳ ký tự khoảng trắng nào. |
\S | Khớp nếu chuỗi không chứa bất kỳ ký tự khoảng trắng nào. |
\w | Khớp nếu chuỗi chứa bất kỳ ký tự từ nào. |
\W | Khớp nếu chuỗi không chứa bất kỳ từ nào. |
\Z | Khớp nếu các ký tự được chỉ định ở cuối chuỗi. |
Sets
Set là một nhóm các ký tự được đưa ra bên trong một cặp dấu ngoặc vuông []. Nó đại diện cho ý nghĩa đặc biệt.
SN | Set | Description |
---|---|---|
1 | [arn] | Khớp nếu chuỗi chứa bất kỳ ký tự nào được chỉ định trong tập hợp. |
2 | [a-n] | Khớp nếu chuỗi chứa bất kỳ ký tự nào từ a đến n. |
3 | [^arn] | Khớp nếu chuỗi chứa các ký tự ngoại trừ a, r và n. |
4 | [0123] | Khớp nếu chuỗi chứa bất kỳ chữ số nào được chỉ định. |
5 | [0-9] | Khớp nếu chuỗi chứa bất kỳ chữ số nào trong khoảng từ 0 đến 9. |
6 | [0-5][0-9] | Khớp nếu chuỗi chứa bất kỳ chữ số nào trong khoảng từ 00 đến 59. |
10 | [a-zA-Z] | Khớp nếu chuỗi chứa bất kỳ bảng chữ cái nào (chữ thường hoặc chữ hoa). |
Trên là danh sách những ký hiệu biểu thức chính quy (regular expression) trong Python. Dựa vào những biểu thức này bạn sẽ kết hợp sử dụng những hàm trong module mà Python đã cung cấp.
Theo:freetuts.net