cơ chế làm việc của máy tìm kiếm gg
Cách thức hoạt động của Tìm kiếm (kiến thức cơ bản)
-Bạn có thể dễ dàng thêm trang web của mình vào các kết quả tìm kiếm của Google. Thậm chí bạn không cần gửi trang web đó cho Google.
-Google là công cụ tìm kiếm hoàn toàn tự động sử dụng phần mềm được gọi là "trình thu thập dữ liệu web" có chức năng khám phá các trang web một cách thường xuyên để tìm trang nhằm thêm vào chỉ mục của chúng tôi. Trên thực tế, rất ít trang web xuất hiện trong kết quả tìm kiếm của chúng tôi là do được gửi theo cách thủ công. Phần lớn trang web được tự động tìm thấy và thêm vào kết quả khi trình thu thập dữ liệu web của chúng tôi thu thập dữ liệu trên web.
Google Tìm kiếm hoạt động theo ba giai đoạn cơ bản:
- -Thu thập dữ liệu: Giai đoạn đầu tiên là tìm hiểu những trang tồn tại trên Internet. Do không tồn tại một danh mục trung tâm về mọi trang web, Google phải liên tục tìm những trang mới và mới cập nhập, rồi thêm những trang đó vào danh sách các trang đã biết. Quá trình này gọi là "Phát hiện URL". Google biết đến một số trang vì chúng tôi từng truy cập những trang đó. Google phát hiện các trang khác khi đi theo đường liên kết từ một trang đã biết đến một trang mới, ví dụ: một trang trung tâm (chẳng hạn như trang danh mục) liên kết đến một bài đăng mới trên blog. Ngoài ra, chúng tôi cũng phát hiện một số trang khác khi bạn gửi danh sách các trang (sơ đồ trang web) để Google thu thập dữ liệu.
Khi phát hiện ra URL của một trang, Google có thể truy cập (hoặc "thu thập dữ liệu") trang đó để tìm hiểu nội dung trên trang. Chúng tôi sử dụng một số lượng lớn máy tính để thu thập dữ liệu của hàng tỷ trang trên Internet. Chương trình thực hiện việc tìm nạp của chúng tôi được gọi là Googlebot (còn gọi là robot, bot, spider hay trình thu thập dữ liệu). Googlebot sử dụng một quy trình dựa trên thuật toán để xác định những trang web cần thu thập dữ liệu, tần suất thu thập và số trang cần tìm nạp trên từng trang web. Trình thu thập dữ liệu của Google cũng được lập trình để cố gắng không thu thập dữ liệu quá nhanh trên trang web để tránh làm quá tải trang web. Cơ chế này dựa trên phản hồi của trang web (ví dụ: lỗi HTTP 500 tức là "chậm lại") và chế độ cài đặt trong Search Console.
Tuy nhiên, Googlebot không thu thập dữ liệu tất cả các trang mà Googlebot phát hiện được. Một số trang có thể không được chủ sở hữu trang web cho phép thu thập dữ liệu, một số trang khác có thể không truy cập được nếu không đăng nhập vào trang web.
Trong quá trình thu thập dữ liệu, Google kết xuất trang và chạy mọi JavaScript tìm được bằng cách sử dụng một phiên bản Chrome mới, tương tự như cách trình duyệt của bạn kết xuất các trang mà bạn truy cập. Quá trình kết xuất đóng vai trò quan trọng vì các trang web thường dựa vào JavaScript để đưa nội dung vào trang. Nếu không thực hiện quy trình kết xuất thì có thể Google sẽ không thấy nội dung đó.
Khả năng thu thập dữ liệu phụ thuộc vào việc trình thu thập dữ liệu của Google có truy cập được trang web hay không. Một số vấn đề thường gặp khi Googlebot truy cập các trang web bao gồm:
- Sự cố với máy chủ xử lý trang web
- Sự cố mạng
- Các quy tắc trong tệp robots.txt ngăn Googlebot truy cập trang
<title>
và thuộc tính alt, hình ảnh, video, v.v.Trong quá trình lập chỉ mục, Google xác định xem một trang có phải là trang trùng lặp của một trang khác trên Internet hay trang chính tắc không. Trang chính tắc là trang có thể xuất hiện trong kết quả tìm kiếm. Để chọn trang chính tắc, trước tiên, chúng tôi sẽ nhóm các trang có nội dung tương tự với nhau (còn gọi là hoạt động phân cụm) mà chúng tôi tìm thấy trên Internet. Sau đó, chúng tôi sẽ chọn trang tiêu biểu nhất trong nhóm đó. Các trang khác trong nhóm là các phiên bản thay thế có thể được phân phát trong các trường hợp khác nhau, như khi người dùng đang tìm kiếm trên thiết bị di động hoặc đang tìm một trang rất cụ thể trong nhóm đó.
Google cũng thu thập các tín hiệu về trang chính tắc và nội dung của trang đó (có thể dùng trong giai đoạn tiếp theo) để phân phát trang trong kết quả tìm kiếm. Có một số tín hiệu bao gồm cả ngôn ngữ của trang, quốc gia bản địa của nội dung, khả năng hữu dụng của trang, v.v.
Thông tin được thu thập về trang chính tắc và cụm của trang đó có thể được lưu trữ trong chỉ mục của Google, một cơ sở dữ liệu lớn được lưu trữ trên hàng nghìn máy tính. Google không đảm bảo hoạt động lập chỉ mục; không phải mọi trang mà Google xử lý đều sẽ được lập chỉ mục.
Hoạt động lập chỉ mục cũng phụ thuộc vào nội dung và siêu dữ liệu của trang. Một số vấn đề thường gặp khi lập chỉ mục có thể bao gồm:
- -Cung cấp kết quả tìm kiếm: Khi người dùng nhập một cụm từ tìm kiếm, công cụ tìm kiếm của chúng tôi sẽ tìm kiếm các trang thích hợp trong chỉ mục và trả về kết quả mà chúng tôi cho là có chất lượng cao nhất và liên quan nhất với cụm từ tìm kiếm của họ. Mức độ liên quan được xác định dựa trên hàng trăm yếu tố, có thể bao gồm cả thông tin về vị trí, ngôn ngữ và thiết bị của người dùng (máy tính hoặc điện thoại). Ví dụ: khi tìm kiếm cùng một cụm từ là "cửa hàng sửa xe đạp", người dùng ở Paris và người dùng ở Hong Kong sẽ nhận được những kết quả khác nhau.
Dựa trên cụm từ tìm kiếm của người dùng, các tính năng của kết quả tìm kiếm xuất hiện trên trang kết quả tìm kiếm cũng thay đổi. Ví dụ: khi tìm kiếm "cửa hàng sửa xe đạp", có thể người dùng sẽ thấy kết quả địa phương và không có kết quả hình ảnh nào; trong khi đó, khi tìm kiếm "xe đạp hiện đại", nhiều khả năng người dùng sẽ thấy kết quả hình ảnh thay vì kết quả tại địa phương. Bạn có thể khám phá các thành phần phổ biến nhất trên giao diện người dùng Google Web Search trong Thư viện Phần tử trực quan của chúng tôi.
Có thể Search Console cho bạn biết rằng một trang đã được lập chỉ mục nhưng bạn lại không thấy trang đó trên kết quả tìm kiếm. Điều này có thể là do:
Nhận xét
Đăng nhận xét