Skip to main content
Crawl URL cho phép chatbot EVOKA tự động đọc nội dung từ link website và chuyển thành tri thức huấn luyện. Phương thức này phù hợp khi bạn đã có nội dung trực tuyến và muốn bot nắm toàn bộ thông tin mà không cần upload file.

3 tính năng nổi bật

Hệ thống hiển thị 3 cards tính năng ngay đầu giao diện crawl:
Tính năngMô tả
🎯 Tự động crawlNội dung web được thu thập tự động — không cần copy paste thủ công
Xử lý nhanhHoàn thành trong 2–10 phút tùy số lượng trang
AI tối ưuNội dung được phân tích thông minh, lọc bỏ rác và vector hóa

Quy trình crawl URL (2 bước)

1

Nhập URL và phân tích

Vào trang quản lý bot → tab Kiến thức → bấm + Thêm kiến thức → chọn URL.Dán link trang web vào ô Website URL. Hệ thống tự kiểm tra:
  • URL hợp lệ hiển thị ✅ kèm badge domain
  • URL không hợp lệ hoặc sai protocol (chỉ hỗ trợ http://https://) hiển thị cảnh báo đỏ
Bấm Phân tích URL để hệ thống quét toàn bộ trang con (sub-pages) từ URL bạn nhập.
Giao diện crawl URL chatbot EVOKA với 3 tính năng: Tự động crawl, Xử lý nhanh, AI tối ưu và ô nhập URL website
2

Chọn trang con và bắt đầu crawl

Sau khi phân tích, hệ thống hiển thị danh sách tất cả URL tìm được dạng checkbox list:
  • Mặc định tất cả URL đều được chọn
  • Bạn có thể bỏ chọn các trang không muốn nạp
  • Dùng checkbox Chọn tất cả để bật/tắt nhanh toàn bộ
  • Hiển thị số lượng: URLs tìm thấy (đã chọn/tổng)
Bấm Bắt đầu crawl để nạp nội dung các trang đã chọn vào tri thức bot.Kiểm tra trạng thái tại bảng quản lý tri thức trong tab Kiến thức:
  1. Chờ xử lý — đang chờ trong hàng đợi
  2. Đang xử lý — hệ thống đang đọc, trích xuất và vector hóa nội dung
  3. Hoàn thành — tri thức sẵn sàng, bot có thể sử dụng
  4. Thất bại — xảy ra lỗi trong quá trình xử lý
Bảng quản lý tri thức chatbot EVOKA với cột Loại, Nguồn, Trạng thái đồng bộ Hoàn thành
Thông tin quan trọng về quá trình crawl:
  • Quá trình crawl diễn ra trong nền và mất 2–10 phút
  • Bot có thể hoạt động bình thường trong lúc chờ
  • Kiến thức sẽ tự động được thêm vào bot sau khi hoàn thành

Yêu cầu kỹ thuật

Yêu cầuMô tả
ProtocolChỉ hỗ trợ http://https://
URL hợp lệPhải là URL hoàn chỉnh (bao gồm protocol)
Nội dungHệ thống đọc text hiển thị trên trang web
Phân tíchBắt buộc phân tích trước khi crawl — không thể bỏ qua bước này
Thời gian xử lý phụ thuộc vào số lượng trang và dung lượng nội dung. Bạn có thể tiếp tục thao tác khác trong lúc hệ thống xử lý.

Câu hỏi thường gặp

Từ 2–10 phút tùy số lượng trang con và dung lượng nội dung. Bot vẫn hoạt động bình thường trong lúc chờ.
Hệ thống đọc text hiển thị trên trang web (nội dung chính, tiêu đề, mô tả). Không crawl được nội dung ẩn sau login, AJAX load, hoặc nội dung render bằng JavaScript phía client.
Hiện tại cần xóa bản crawl cũ trong bảng quản lý tri thức, sau đó crawl lại URL. Hệ thống không tự đồng bộ khi nội dung trang web thay đổi.

Tiếp theo

Huấn luyện bằng tài liệu

6 phương thức nạp tri thức: Q&A, file, crawl, audio, video.

Cài đặt chatbot

Chỉnh sửa tính cách, giọng điệu và hành vi bot.