Hiện nay nhu cầu tìm kiếm đối với mọi người từ nhân viên văn phòng, lập trình, đến người lướt web bình thường đều sử dụng google search để tìm kiếm thông tin mà họ cần một cách nhanh chóng, chính xác. Hầu hết những gì họ muốn, đều đầu tiên là nghĩ ra 1 từ khóa và lên google tiến hành tìm kiếm để tim đến website cung cấp thông tin mà họ cần một cách chính xác. Do đó, nếu chúng ta, những nhà tạo ra trang web phải nắm bắt cách google làm việc như thế nào để mà đưa thông tin website chúng ta vào bộ máy tìm kiếm google để khách hàng đến với chúng ta một cách nhanh chóng.
- Khi bạn tìm kiếm không phải tìm trực tiếp trên Internet mà đang tìm dữ liệu trong Sever của Google.
- Google sử dụng phần mềm tìm kiếm thông tin trên Internet gọi là Spider.
- Spider di chuyển giữa các trang web thông qua Link.
- Google sử dụng thuật toán để sắp xếp và đưa những kết quả tốt nhất có thể và cho hiển thị lên trên top 10.
Google bot tìm kiếm thông tin mới + website mới theo các nguồn:
Tưởng tượng Internet như 1 hệ thống xe buýt trong thành phố, mỗi điểm dừng là 1 tài liệu (bài viết, hình ảnh, file pdf,…). Nhiệm vụ của SE bot là phải đi qua hết các điểm này để thu thập thông tin. Giống như tuyến đường xe buýt, sẽ dẫn ta từ điểm A -> điểm B. Các Link liên kết giúp SE Bot đi từ webpage này sang webpage khác.
Làm sao website của bạn được Google crawl nếu như nó không có backlink nào cả? Để giải quyết vấn đề này Google phát hiện url mới thông qua việc submit sitemaps trên Google webmaster tool, hoặc HTTP request >> www.google.com/addurl.html.
Quá trình tìm nội dung mới được Google thực hiện thường xuyên. Tuy nhiên spider không chạy theo các liên kết 1 cách ngẫu nhiên mà đi theo 1 thứ tự ưu tiên. SE bot sẽ quét dữ liệu trong các Danh bạ website lớn (dmoz, yahoo,…) – nơi có nhiều website, thường được update website mới -> Nhóm 1.
SE Bot tiếp tục tìm các link trong Nhóm 1 để tìm liên kết ngoài và đưa các link này -> nhóm 2. Toàn bộ các url này sẽ được quăng sang quá trình tiếp theo là Spam Filter để lọc các liên kết trùng lặp, hỏng. Trong quá trình này, nếu như những link đến bị lỗi (không truy cập được) nó sẽ được đưa lại quá trình Discovery Crawl.
Các URL sạch có được sau quá trình Spam Filter sẽ được Google tung web cralwer vào để thu thập nội dung và xây dựng chỉ mục.
Đầu tiên Google phải thu thập nội dung trong website bằng cách sử dụng web crawler. Web Crawler tạo ra các HTTP request để truy cập vào website rồi bắt đầu thực hiện quá trình thu (retrieve) dữ liệu trên các trang đó. (Trong lúc này URL mới được nó phát hiện ra sẽ tiếp tục được đưa trở lại bước Discovery Crawl).
Sau khi có được dữ liệu phải làm bước tiếp theo là phân tích cú pháp để xác định nội dung của webpage.
Parsing – phân tích cú pháp: Parsing cho phép Google loại bỏ các từ phổ biến (và, thì,mà, là,…), loại bỏ các khoảng trống, con số để kết hợp các từ thành cụm từ lại thành có ý nghĩa.
Sau khi 1 webpage qua bước Parsing nó sẽ được đánh dấu và cho vào 1 box riêng được mã hóa theo ID. Nó được phân loại theo nhiều cách khác nhau (khu vực, loại ngôn ngữ, chủ đề,…) để nhanh chóng nhất hiển thị ra khi có truy vấn tìm kiếm liên quan đến nó (từ khóa) – thông thường dưới 1s.
Bạn có biết ?
Cản trở lớn nhất cho Google trong Quá trình này đó là các lỗi html. Khi gặp lỗi Google không thể tự xử lý ngày mà phải dùng thuật toán để xác định lại. Điều này sẽ làm web của bạn sẽ bị chậm trễ khi index và đôi khi sẽ đưa ra kết quả sai.
Nên hãy xử lý triệt để các lỗi html nếu có trong website.
Đây là bước các SEOer quan tâm nhiều nhất.
Sau khi website của bạn đã được index trong data center của Google. Nó sẽ được đánh giá và xếp hạng để hiển thị ra ngoài trang kết quả tìm kiếm (SERP) thông qua thuật toán của Google.
Bảng dưới đây là các nhân tố cơ bản và có ảnh hưởng cao nhất tới thuật toán xếp hạng của máy tìm kiếm, được đánh giá theo thang điểm 5.
- Title Tags - 4.9/5
- Mật độ & tần suất của từ khóa – 3.7 /5
- Từ khóa trong Heading (h1, h2,h3): h1 – 3.1/5; h2 – 2.8/5.
- Từ khóa trong URL 2.8/5
- Từ khóa trong Meta Description – 2/5.
- Back link từ trang có PR cao 4/5
- Mức độ phổ biến của link liên kết trong trang (Internal Link)=4/5
- Mức độ quan trọng của Page 3.5/5
- Page assessed as an authority = 3.5/5
- Tốc độ xây dựng liên kết* = 3.5/5