Văn bản – một cái tên không còn xa lạ gì trong lập trình viên. Text mang nghĩa là bản văn, một tập hợp của nhiều câu, mỗi câu lại bao gồm nhiều từ, mỗi từ bao gồm nhiều ký tự. Tùy theo từng ngôn ngữ mà các ký tự có thể hiển thị khác nhau. Việc xử lý các dữ liệu dạng văn bản này luôn có trong hầu hết các ngôn ngữ lập trình, và nổi lên nhất là trong các ngôn ngữ thông dịch như Perl, Python, Ruby…
Tuy nhiên, trong một hệ thống Linux, để đơn giản hóa quá trình xử lý văn bản dữ liệu, các nhà phát triển đã tạo ra các công cụ cơ bản để xử lý văn bản dữ liệu trên tiêu chí một chương trình chỉ làm một công việc. . Và trên hết là các chương trình này đều không yêu cầu kỹ năng thiết lập chương trình nhưng vẫn có thể dễ dàng sử dụng được. Sau đây mình xin phép được trình bày về một số chương trình[lệnh] giúp cho việc xử lý dữ liệu văn bản được thuận tiện hơn trong hệ thống Linux
Lệnh “con mèo”Là một trong những lệnh cơ bản nhất của hệ thống Linux. Lệnh này có thể được sử dụng để tạo, chèn, hiển thị và ghép nội dung của tệp
- To create file used as after
1
$ mèo > đơn giản. txt thay thế cho mèo > để dữ liệu tự động được thêm vào tệp cuối
1
$ con mèo >> đơn giản. txt simple2. txt
Lệnh “wc”wc
có nghĩa là đếm từ, lệnh này đơn giản chỉ sử dụng để thống kê lượng dữ liệu có trong tệp- Cú pháp đơn giản nhất là
wc filename
VD
1
wc đơn giản. txt
1
3 15 70 đơn giản. txt
Giá trị thứ nhất là số dòng [line], giá trị thứ 2 là số từ [word], giá trị thứ 3 là số ký tự [character] và cuối cùng là tên tệp
Lệnh “grep”- Use to show the lines has an content section any VD đó
1
$ grep "dòng" đơn giản. txt
1
2
3
Đây là dòng đầu tiên line
Đây là đường thứ hai line
Đây là đường thứ ba line
- Hoặc có thể sử dụng tùy chọn -c để đếm số lần xuất hiện thay vì trong VD hết
1
$ grep -c "dòng" simple.txt
1
3
- Một số tùy chọn khác
-i
không phân biệt hoa thường-l
chỉ hiển thị tên tệp chứa nội dung cần tìm-n
kèm theo số thứ tự của dòng xuất hiện
- Hai lệnh
head
vàtail
có cách sử dụng tương tự nhau, đều là lấy ra một phần văn bản của tệp. Chỉ khác là lệnhhead
lấy phần văn bản ở đầu tệp, còntail
lấy phần cuối của văn bản. VD.wc
0 sẽ lấy ra 4 dòng đầu tiên của tên tệpwc
1 sẽ lấy ra 8 dòng cuối của tên tệp - Ngoài ra, có thể sử dụng -c instead for -n để lấy dữ liệu tính theo ký tự thay vì tính theo dòng
- Use to sort of lines data text in file VD
1
$ sắp xếp đơn giản. txt
1
2
3
Đây là dòng đầu tiên line
Đây là đường thứ hai line
Đây là đường thứ ba line
- Ngoài ra, có thể sử dụng thêm các tùy chọn sau khi
wc
2 bỏ qua các giá trị lặp lạiwc
3 sắp xếp theo thứ tự giảm dần [mặc định sẽ tăng dần]wc
4 không phân biệt hoa thường
Trên đây chỉ là một số lệnh cơ bản nhất được sử dụng để thao tác với văn bản dữ liệu trên Linux. Vẫn còn rất nhiều lệnh hữu ích khác như wc
5, wc
6, wc
7… nhưng khả năng của mình có hạn nên mình sẽ tìm hiểu và bổ sung các lệnh này trong các bài viết tiếp theo. Xin cảm ơn mọi người đã theo dõi bài viết