Các phương pháp lọc và phòng chống spam

(Post 07/08/2007) SPAM là một trong những thách thức lớn nhất hiện nay mà khách hàng và các nhà cung cấp dịch vụ phải đối phó. Spam đã trở thành một hình thức quảng cáo chuyên nghiệp, phát tán virus, ăn cắp thông tin... với nhiều thủ đoạn và mánh khóe cực kỳ tinh vi. Người dùng sẽ phải mất khá nhiều thời gian để xóa những email “không mời mà đến”, nếu vô ý còn có thể bị nhiễm virus, trojan, spyware ... và nặng nề hơn là mất thông tin như thẻ tín dụng, tài khoản ngân hàng qua các email dạng phishing. Phần một của bài viết này sẽ trình bày về đặc điểm của spam, cách phát tán và tác hại của spam. Phần hai của bài viết sẽ trình bày về các phương pháp lọc spam và cách phòng chống.

ĐẶC ĐIỂM CỦA SPAM

Spam (hay spam email) là thư điện tử quảng cáo hay là thư được gửi mà không có sự yêu cầu từ người nhận. Spam thường là những email vô hại và được gửi tới một số lượng lớn người nhận khác nhau. Spam được gửi với số lượng lớn có thể làm đầy hòm thư của người nhận, nên họ không nhận được các thư mới. Ngoài ra spam còn chiếm dụng băng thông, có thể gây tắc nghẽn đường truyền. Một số loại spam còn chứa nội dung lừa đảo, nhằm mục đích lừa người dùng cung cấp các thông tin cá nhân như mã số thẻ tín dụng, mật khẩu...

Để tiến hành gửi spam, người gửi (spammer) cần phải có một số lượng lớn các địa chỉ email người nhận, danh sách có thể lên đến hàng triệu. Các địa chỉ email có thể được thu thập bằng nhiều cách như: sử dụng các chương trình tự động tìm các địa chỉ email trên Internet, tấn công vào các diễn đàn để lấy trộm cơ sở dữ liệu về các thành viên, dùng phương pháp tấn công kiểu từ điển, dùng các tên thông dụng (ví dụ John, Smith, Steve,...) ghép với hàng ngàn tên miền khác nhau thành các địa chỉ đúng và có xác suất thành công rất cao.

Spam có đặc điểm là không tốn nhiều chi phí khi gửi đến một số lượng người nhận lớn, vì thế các spammer không cần sàng lọc các đối tượng nhận thư được gửi trùng lặp nhiều lần tới cùng một địa chỉ người nhận.

CÁC PHƯƠNG PHÁP CHỌN LỌC SPAM

Spam gây ra rất nhiều tác hại, do vậy việc phòng chống và ngăn chặn các spam là cần thiết. Hiện có nhiều công ty phần mềm cung cấp giải pháp chống spam, mỗi dòng sản phẩm có những tính năng và các ưu nhược điểm riêng, nhưng hầu hết các sản phẩm đó đều hoạt động dựa vào một số nguyên lý sau:

Sử dụng DNS blacklist

Phương pháp sử dụng DNS black list sẽ chặn các email đến từ các địa chỉ nằm trong danh sách DNS blacklist. Có hai loại danh sách DNS Blacklist thường được sử dụng, đó là:

Danh sách các miền gửi spam đã biết, danh sách các miền này được liệt kê và cập nhật tại địa chỉ http://spamhaus.org/sbl.
Danh sách các máy chủ email cho phép hoặc bị lợi dụng thực hiện việc chuyển tiếp spam được gửi đi từ spammer. Danh sách này được liệt kê và cập nhật thường xuyên tại địa chỉ http://www.ordb.org. Cơ sở dữ liệu Open Relay Database này được duy trì bởi ORDB.org là một tổ chức phi lợi nhuận.

Khi một email được gửi đi, nó sẽ đi qua một số SMTP server trước khi chuyển tới địa chỉ người nhận. Địa chỉ IP của các SMTP server mà email đó đã chuyển qua được ghi trong phần header của email. Các chương trình chống spam sẽ kiểm tra tất cả các địa chỉ IP đã được tìm thấy trong phần header của email đó sau đó so sánh với cơ sở dữ liệu DNS Blacklist đã biết. Nếu địa chỉ IP tìm thấy trong phần này có trong cơ sở dữ liệu về các DNS Blacklist, nó sẽ bị coi là spam, còn nếu không, email đó sẽ được coi là một email hợp lệ.

Phương pháp này có ưu điểm là các email có thể được kiểm tra trước khi tải xuống, do đó tiết kiệm được băng thông đường truyền. Nhược điểm của phương pháp này là không phát hiện ra được những email giả mạo địa chỉ người gửi.

Sử dụng SURBL list

Phương pháp sử dụng SURBL phát hiện spam dựa vào nội dung của email. Chương trình chống spam sẽ phân tích nội dung của email xem bên trong nó có chứa các liên kết đã được liệt kê trong Spam URI Realtime Blocklists (SURBL) hay không. SURBL chứa danh sách các miền và địa chỉ của các spammer đã biết. Cơ sở dữ liệu này được cung cấp và cập nhật thường xuyên tại địa chỉ www.surbl.org.

Có nhiều danh sách SURBL khác nhau như sc.surbl.org, ws.surbl.org, ob.surbl.org, ab.surbl.org..., các danh sách này được cập nhật từ nhiều nguồn. Thông thường, người quản trị thường kết hợp các SURBL list bằng cách tham chiếu tới địa chỉ multi.surbl.org. Nếu một email sau khi kiểm tra nội dung có chứa các liên kết được chỉ ra trong SURBL list thì nó sẽ được đánh dấu là spam email, còn không nó sẽ được cho là một email thông thường.

Phương pháp này có ưu điểm phát hiện được các email giả mạo địa chỉ người gửi để đánh lừa các bộ lọc. Nhược điểm của nó là email phải được tải xuống trước khi tiến hành kiểm tra, do đó sẽ chiếm băng thông đường truyền và tài nguyên của máy tính để phân tích các nội dung email.

Kiểm tra người nhận

Tấn công spam kiểu “từ điển” sử dụng các địa chỉ email và tên miền đã biết để tạo ra các địa chỉ email hợp lệ khác. Bằng kỹ thuật này spammer có thể gửi spam tới các địa chỉ email được sinh ra một cách ngẫu nhiên. Một số địa chỉ email trong số đó có thực, tuy nhiên một lượng lớn trong đó là địa chỉ không tồn tại và chúng gây ra hiện tượng “lụt” ở các máy chủ mail.

Phương pháp kiểm tra người nhận sẽ ngăn chặn kiểu tấn công này bằng cách chặn lại các email gửi tới các địa chỉ không tồn tại trên Active Directory hoặc trên máy chủ mail server trong công ty. Tính năng này sẽ sử dụng Active Directory hoặc LDAP server để xác minh các địa chỉ người nhận có tồn tại hay không. Nếu số địa chỉ người nhận không tồn tại vượt quá một ngưỡng nào đó (do người quản trị thiết lập) thì email gửi tới đó sẽ bị coi là spam và chặn lại.

Kiểm tra địa chỉ

Bằng cách kiểm tra địa chỉ người gửi và người nhận, phần lớn spam sẽ được phát hiện và chặn lại. Thực hiện kiểm tra địa chỉ người gửi trước khi email được tải xuống sẽ tiết kiệm được băng thông đường truyền cho toàn hệ thống.

Kỹ thuật Sender Policy Framework (SPF, www.openspf.org) được sử dụng để kiểm tra địa chỉ người gửi email. Kỹ thuật SPF cho phép chủ sở hữu của một tên miền Internet sử dụng các bản ghi DNS đặc biệt (gọi là bản ghi SPF) chỉ rõ các máy được dùng để gửi email từ miền của họ. Khi một email được gửi tới, bộ lọc SPF sẽ phân tích các thông tin trong trường “From” hoặc “Sender” để kiểm tra địa chỉ người gửi. Sau đó SPF sẽ đối chiếu địa chỉ đó với các thông tin đã được công bố trong bản ghi SPF của miền đó xem máy gửi email có được phép gửi email hay không. Nếu email đến từ một server không có trong bản ghi SPF mà miền đó đã công bố thì email đó bị coi là giả mạo.

Chặn IP

Phương pháp này sẽ chặn các email được gửi đến từ các địa chỉ IP biết trước. Khi một email đến, bộ lọc sẽ phân tích địa chỉ máy gửi và so sánh với danh sách địa chỉ bị chặn. Nếu email đó đến từ một máy có địa chỉ trong danh sách này thì nó sẽ bị coi là spam, ngược lại nó sẽ được coi là email hợp lệ.

Sử dụng bộ lọc Bayesian

Bộ lọc Bayesian hoạt động dựa trên định lý Bayes để tính toán xác suất xảy ra một sự kiện dựa vào những sự kiện xảy ra trước đó. Kỹ thuật tương tự như vậy được sử dụng để phân loại spam. Nếu một số phần văn bản xuất hiện thường xuyên trong các spam nhưng thường không xuất hiện trong các email thông thường, thì có thể kết luận rằng email đó là spam.

Trước khi có thể lọc email bằng bộ lọc Bayesian, người dùng cần tạo ra cơ sở dữ liệu từ khóa và dấu hiệu (như là ký hiệu $, địa chỉ IP và các miền...) sưu tầm từ các spam và các email không hợp lệ khác.

Mỗi từ hoặc mỗi dấu hiệu sẽ được cho một giá trị xác suất xuất hiện, giá trị này dựa trên việc tính toán có bao nhiêu từ thường hay sử dụng trong spam, mà trong các email hợp lệ thường không sử dụng. Việc tính toán này được thực hiện bằng cách phân tích những email gửi đi của người dùng và phân tích các kiểu spam đã biết.

Để bộ lọc Bayesian hoạt động chính xác và có hiệu quả cao, cần phải tạo ra cơ sở dữ liệu về các email thông thường và spam phù hợp với đặc thù kinh doanh của từng công ty. Cơ sở dữ liệu này được hình thành khi bộ lọc trải qua giai đoạn “huấn luyện”. Người quản trị phải cung cấp khoảng 1000 email thông thường và 1000 spam để bộ lọc phân tích tạo ra cơ sở dữ liệu cho riêng nó.

Sử dụng danh sách Black/white list

Việc sử dụng các danh sách black list, white list giúp cho việc lọc spam hiệu quả hơn.

Black list là cơ sở dữ liệu các địa chỉ email và các miền mà bạn không bao giờ muốn nhận các email từ đó. Các email gửi tới từ các địa chỉ này sẽ bị đánh dấu là spam.

White list là cơ sở dữ liệu các địa chỉ email và các miền mà bạn mong muốn nhận email từ đó. Nếu các email được gửi đến từ những địa chỉ nằm trong danh sách này thì chúng luôn được cho qua.

Thông thường các bộ lọc có tính năng tự học, khi một email bị đánh dấu là spam thì địa chỉ người gửi sẽ được tự động đưa vào danh sách black list. Ngược lại, khi một email được gửi đi từ trong công ty thì địa chỉ người nhận sẽ được tự động đưa vào danh sách white list.

Kiểm tra Header

Phương pháp này sẽ phân tích các trường trong phần header của email để đánh giá email đó là email thông thường hay là spam. Spam thường có một số đặc điểm như:

Để trống trường From: hoặc trường To: .
Trường From: chứa địa chỉ email không tuân theo các chuẩn RFC.
Các URL trong phần header và phần thân của message có chứa địa chỉ IP được mã hóa dưới dạng hệ hex/oct hoặc có sự kết hợp theo dạng username/password (ví dụ các địa chỉ: http://00722353893457472/hello.com, www.citibank.com@scammer.com)
Phần tiêu đề của email có thể chứa địa chỉ email người nhận để cá nhân hóa email đó. Lưu ý khi sử dụng tính năng này với các địa chỉ email dùng chung có dạng như sales@company.com. Ví dụ khi một khách hàng phản hồi bằng cách sử dụng tính năng auto-reply với tiêu đề “your email to sales” có thể bị đánh dấu là spam
Gửi tới một số lượng rất lớn người nhận khác nhau.
Chỉ chứa những file ảnh mà không chứa các từ để đánh lừa các bộ lọc.
Sử dụng ngôn ngữ khác với ngôn ngữ mà người nhận đang sử dụng.

Dựa vào những đặc điểm này của spam, các bộ lọc có thể lọc chặn.

Sử dụng tính năng Challenge/Response

Tính năng này sẽ yêu cầu người lần đầu gửi email xác nhận lại email đầu tiên mà họ đã gửi, sau khi xác nhận, địa chỉ email của người gửi được bổ sung vào danh sách White list và từ đó trở về sau các email được gửi từ địa chỉ đó được tự động cho qua các bộ lọc.

Do spammer sử dụng các chương trình gửi email tự động và họ không thể xác nhận lại tất cả các email đã gửi đi, vì thế những email không được xác nhận sẽ bị coi là spam.

Phương pháp này có hạn chế là nó yêu cầu những người gửi mới phải xác nhận lại email đầu tiên mà họ gửi. Để khắc phục nhược điểm này, người quản trị chỉ nên sử dụng phương pháp này đối với những email mà họ nghi ngờ là spam.

ĐỂ PHÒNG TRÁNH THƯ RÁC

Ngoài việc sử dụng các bộ lọc chống spam, người sử dụng cũng đóng vai trò quan trọng trong việc chống lại “đại dịch” thư rác. Bởi vậy người dùng cần tuân theo một số nguyên tắc sau:

Luôn cập nhật các bản vá mới nhất của các phần mềm đang cài đặt trên máy.
Đảm bảo tất cả các máy luôn được cập nhật các phần mềm chống virus và chống spam.
Sử dụng các firewall để bảo vệ hệ thống.
Không trả lời các email lạ không rõ nguồn gốc. Đối với các spammer, khi nhận được một trả lời từ hàng ngàn email họ gửi đi thì cũng chứng minh là phương pháp đó có hiệu quả. Ngoài ra, việc trả lời lại còn xác nhận là địa chỉ email của bạn là có thực và hiện đang được sử dụng. Do vậy địa chỉ email của bạn sẽ “đáng giá” hơn, và các spammer sẽ gửi nhiều thư rác hơn.
Không gửi các thông tin cá nhân của bạn (số thẻ tín dụng, mật khẩu, tài khoản ngân hàng, v.v... ) trong thư điện tử. Các spammer và những kẻ lừa đảo qua mạng có thể tạo ra những trang web giả mạo các tổ chức, ngân hàng... đề nghị bạn gửi mật khẩu và một số thông tin về thẻ tín dụng của bạn qua email.
Không hồi đáp email bằng cách nhấn lên từ như “loại bỏ” (remove) hoặc “ngừng đăng ký” (unsubscribe) trong dòng tiêu đề hoặc trong nội dung của thư trừ khi đây là nguồn đáng tin cậy (các email tiếp thị trực tiếp). Đây là tiểu xảo của các spammer để người sử dụng hồi đáp lại các spam của họ. Khi nhận được hồi đáp, các spammer không những không loại bỏ địa chỉ email của bạn ra khỏi danh sách mà còn gửi tới nhiều spam hơn bởi vì họ biết rằng địa chỉ email của bạn hiện đang hoạt động.
Không bao giờ bấm vào các liên kết URL hoặc địa chỉ trang web được ghi trong spam ngay cả khi nó hướng dẫn người nhận ngừng đăng ký. Điều này cũng cho người gửi biết rằng địa chỉ email của bạn đang được sử dụng và bạn có thể sẽ nhận được nhiều spam hơn.
Hãy sử dụng hai địa chỉ email khác nhau, một địa chỉ sử dụng cho các việc riêng như bạn bè, công việc. Một địa chỉ sử dụng để đăng ký trở thành thành viên của các diễn đàn, các tổ chức... những nơi mà địa chỉ email của bạn có thể bị lạm dụng hoặc bán.
Không nên đăng địa chỉ email của bạn ở những nơi công cộng (ví dụ như các diễn đàn, bảng tin, chat room...) nơi các spammer thường sử dụng các tiện ích để thu thập và tìm kiếm địa chỉ email.
Sử dụng các dịch vụ email cung cấp công cụ chống spam, ví dụ như Yahoo! Mail, Gmail.
Không bao giờ được chuyển tiếp spam cho người khác.
Chuyển spam nhận được đến người quản trị hệ thống email. Quản trị viên sẽ thay đổi chương trình lọc để lần sau hệ thống sẽ chặn lại những email tương tự như thế.

Số liệu thống kê về spam

Theo thống kê của hãng bảo mật Sophos, tính theo khu vực trong quý ba năm 2006, châu Á đứng đầu bảng về gửi spam, tiếp sau đó là châu Âu và xếp thứ 3 là khu vực Bắc Mỹ. Tỷ lệ spam gửi từ châu Á và Bắc Mỹ đều giảm so với trước đó, ngược lại, tỷ lệ spam phát tán từ châu Âu và Nam Mỹ đều tăng.

Tuy nhiên, trong số những nước phát tán nhiều spam nhất thế giới thì Mỹ vẫn là nước đứng đầu với 21,6 %, và Trung Quốc đứng thứ hai với 13,4% lượng spam gửi đi trên toàn thế giới (trong quý 3 năm 2006). Tỷ lệ spam gửi đi từ Trung Quốc trong quý ba năm 2006 giảm mạnh so với các quý trước đó vì Trung Quốc đang nỗ lực giảm lưu lượng thư rác được gửi đi.

Trần Đình Thi
Phòng R&D - EVNIT
-----------------------------------------------
Tài liệu tham khảo:
http://www.aarp.org/learntech/computers/howto/a2004-06-02-howto-spamfilters.html
http://www.uwo.ca/its/network/stopspam/aboutspam.html
http://en.wikipedia.org/wiki/E-mail_spam
http://www.michael-amorose.com/history_of_anti_spam/
http://www.spamhaus.org/faq/answers.lasso?section=ISP%20Spam%20Issues

(theo PC World VN)

Công nghệ khác:

Windows Vista: từ A đến Z	Cách chuyển mã văn bản với Unikey
Khắc phục những trục trặc thường gặp	Bảo mật 2006: Khủng hoảng niềm tin
Truy cập từ xa qua Internet	Chọn laptop hay desktop?
	Xem tiếp

Lịch khai giảng của hệ thống

Ngày	Giờ	T.Tâm
TP Hồ Chí Minh
Hà Nội