Crawl dữ liệu là gì? Cách tối ưu quá trình Crawl data chi tiết

Crawling là gì là bài viết bạn nên đọc đầu tiên trong chuỗi tài liệu về Technical SEO. Nguyên nhân là vì TIEN ZIVEN luôn hướng đến việc bạn có nền tảng kiến thức vững chắc trước khi đi sâu vào các kỹ thuật hay thủ thuật cao siêu. Nội dung bài viết này nói về nguyên tắc THU THẬP DỮ LIỆU – hoạt động đầu tiên của công cụ tìm kiếm (Google).

crawling la gi
Crawl data là gì? Nguyên lý hoạt động và cách tối ưu quá trình thu thập dữ liệu.

1. Crawl data là gì

Crawl data là quá trình thu thập dữ liệu của công cụ tìm kiếm nhằm tìm nội dung mới hoặc cập nhật những thay đổi trên trang cũ. Những định dạng được thu thập dữ liệu gồm: html, hình ảnh, video…

Đầu tiên, Crawl dữ liệu (quá trình crawling) diễn ra khi công cụ tìm kiếm ghé qua website của bạn. Sau đó, Search Engine mới thực hiện quá trình Indexing (Lập chỉ mục).

Nếu bạn chưa đọc về toàn bộ các quá trình mà công cụ tìm kiếm thực hiện đối với website, mời bạn đọc qua cách hoạt động của Search Engine.

2. Web Crawler là gì

Gắn liền với quá trình thu thập dữ liệu thì bạn cũng nên biết đến “công nhân” thực hiện hoạt động này: Web Crawler.

web crawler la gi
Các công nhân làm việc cho công cụ tìm kiếm là gì?

Web Crawler (trình thu thập web) là một bot internet thực hiện thu thập dữ liệu qua World Wide Web. Crawler được công cụ tìm kiếm lập trình sẵn nhằm mục đích lập chỉ mục cho các nội dung thu thập được.

Trình thu thập thông tin còn có các tên gọi khác là spider, spiderbot… Nhưng cách mọi người thường gọi nhất vẫn là [Tên công cụ tìm kiếm + bot]. Chẳng hạn như: Googlebot, Bingbot, Yandexbot…

Có thể bạn quan tâm về bài viết Tổng quan SEO!

3. Quá trình crawl data của trình thu thập

Khi bạn nắm các khái niệm cơ bản thì không quá khó để hiểu quá trình thu thập dữ liệu. Quá trình này được diễn ra như sau:

  1. Crawling được bắt đầu khi công cụ tìm kiếm (Search Engine – SE) phát hiện một liên kết.
  2. Dựa vào liên kết, SE sẽ khởi động trình thu thập web để thu thập thông tin của trang đích.
  3. Trong trang đích này, chúng sẽ phát hiện những liên kết mới. Crawler sẽ nhân đôi để quá trình thu thập trang hiện tại vấn được diễn ra với 1 lượt crawl data. Trình thu thập web còn lại sẽ sang trang đích của các liên kết khác.
  4. Quá trình này được lặp đi lặp lại liên tục.
crawl data
Với điều kiện lý tưởng thì hoạt động thu thập dữ liệu được diễn ra vô hạn.

Tuy nhiên, điều này sẽ tiêu tốn rất nhiều tài nguyên của SE (quá tải về lưu lượng và dung lượng). Do đó, Search Engine cập nhật những nguyên tắc hoạt động cho web crawler (thuật toán).

Nguyên tắc mà bạn cần quan tâm nhất trong bài viết này là:

Nếu trang có hơn 1 liên kết đến cùng 1 trang đích, trình thu thập web chỉ thu thập một lần từ link đầu tiên nó phát hiện.

Ở đây bạn có thể hiểu: Bạn có thể đặt bao nhiêu internal link (liên kết nội bộ) tuỳ thích. Nhưng duy nhất chỉ 1 link đầu tiên có giá trị.

Quá trình này được giới hạn và mỗi website có một ngân sách thu thập dữ liệu (crawl budget) khác nhau. Trong bài viết này TIEN ZIVEN sẽ hướng dẫn cách nâng cao hiệu suất của mỗi lần crawl data. Còn về cách tối ưu ngân sách Cào sẽ được nói chi tiết trong bài viết Crawl Budget là gì?

4. Tại sao cần tối ưu và Cách tối ưu quá trình crawl dữ liệu

Tối ưu crawl data là quá trình giúp trình thu thập web lấy được nhiều thông tin nhất trong một lần cào.

Quá trình này vô cùng quan trọng vì:

  • Giúp nâng cao hiệu suất trong một lần thu thập dữ liệu của Web crawler.
  • Tạo điều kiện để công cụ tìm kiếm hiểu nội dung tốt hơn.
  • Công cụ tìm kiếm sẽ đánh giá chất lượng nội dung và thực hiện quá trình lập chỉ mục.

Bạn có thể theo dõi tiến trình crawl dữ liệu hoặc kiểm tra crawl budget qua Crawl Stat của Google Search Console. Và cũng trong bài viết Crawl Budget, mình có hướng dẫn chi tiết!

Còn bây giờ, mời bạn đi sâu vào từng cách tối ưu crawling nhé!

4.1. Nâng cao chất lượng Internal Link – Đảm bảo phần lớn liên kết có mã phản hồi 2xx

Mã phản hồi (responsive code) 2xx là mã cho biết liên kết có khả năng được lập chỉ mục.

Điều đầu tiên là bạn không lãng phí bất kỳ liên kết nào trên website. Vì vậy, bạn cần điều chỉnh tất cả những liên kết trên website thành những liên kết chính xác (có mã phản hồi 2xx). Nhờ đó mà web crawler sẽ liên tục nhân đôi để thu thập dữ liệu trên website (crawl website).

web crawler
Tránh lãng phí quá trình thu thập dữ liệu của công cụ tìm kiếm

4.2. Xử lý các lỗi điều hướng mã code 3xx

Responsive code 3xx là mã cho biết trình thu thập sẽ bị điều hướng sang một trang khác. Các mã phản hồi 3xx thường thấy là 301, 302, 304 và 307.

Các liên kết 3xx bạn cần quan tâm bao gồm cả internal link lẫn backlink. Do đó:

  • Nếu là liên kết nội bộ bạn cần chỉnh sửa toàn bộ về mã code 2xx.
  • Còn backlink, bạn chỉnh thành điều hướng 301.

4.3. Xử lý các sự cố truy cập: 4xx và 5xx

crawl data la gi
Sự cố 4xx và 5xx cũng bắt nguồn từ cả nguyên nhân chủ quan (internal link) và khách quan (backlink).
  • 4xx là mã phản hồi thông báo rằng trình thu thập không thể truy cập do máy khách (người dùng). Lỗi thường thất là Error 404 not found
  • 5xx là mã phản hồi thông báo crawler không truy cập được do máy chủ (server).

Tương tự như cách thứ 2, đối với các liên kết nội bộ, bạn cần cập nhật những liên kết 2xx. Đối với backlink, nếu có thể điều chỉnh, hãy đổi thành link 2xx. Hoặc không, hãy tạo những điều hướng 301 từ liên kết gây lỗi sang liên kết chính xác. Từ đó tiến trình crawling vẫn được thực hiện.

Bạn có thể kiểm tra tình trạng của tất cả liên kết trên website với công cụ Screaming Frog. Và mình cũng có 1 video hướng dẫn chi tiết cho bạn:

4.4. Chặn các tài nguyên không nên crawl dữ liệu

Cả 3 quá trình trên đều giúp bạn tránh lảng phí lượt thu thập dữ liệu. Cách cuối cùng giúp kiểm soát được dữ liệu mà web crawler được và không được phép crawl data.

Bạn có thể thực hiện với robots.txt, sitemap, meta robots, thuộc tính rel=”nofollow”.

Bạn có thể tìm hiểu chi tiết hơn tại những bài viết:

  • File Robots.txt là gì?
  • Thẻ meta robots là gì?
  • Nofollow link là gì?

Kết luận

Hy vọng rằng với nội dung đầu tiên của tài liệu về SEO technical không làm bạn ngợp. Mong rằng qua bài viết này, TIEN ZIVEN giúp bạn hiểu được crawling là gì? Web Crawler là gì? Quá trình thu thập dữ liệu và cách tối ưu crawl data. Cảm ơn bạn đã ủng hộ chúng tôi. Nếu thấy những kiến thức này hữu ích, giúp TIEN ZIVEN lan toả tới cộng đồng SEOer nhé!

Tài liệu tham khảo:

  • Advanced Guide to How Google Search Works | Google Search Central – https://developers.google.com/search/docs/advanced/guidelines/how-search-works
  • Web crawler – Wikipedia – https://en.wikipedia.org/wiki/Web_crawler

Xem ngay khoá học đào tạo SEO nâng cao TIEN ZIVEN!