07. tháng 5 2025
Mặc dù tôi đã viết các chương trình bò web bằng Python trong nhiều năm, nhưng gần đây tôi càng muốn thử nghiệm việc viết một bò web bằng PHP.
Tất nhiên Scrapy cũng có những chức năng không thể thay thế
Goutte trông khá hứa hẹn, nhưng mức độ hoạt động lại quá thấp, cả năm cũng chỉ có vài lần commit. Tuy nhiên, các tính năng chính của nó dựa trên hai thư viện BrowserKit và DomCrawler. Hai thư viện này vẫn còn tương đối hoạt động mạnh mẽ.
Uống rượu casino quá chén đánh bài online dẫn đến bệnh gút... Quá tuyệt vời! Tên Goutte thật sự được đặt rất thú vị...
composer require fabpot/goutte
Sau khi cài đặt Goutte, hãy viết mã logic:
<?php
require __DIR__ . '/vendor/autoload.php';
use Goutte\Client;
$client = new Client();
$crawler = $client->request('GET', '
$crawler->filter('h1')->each(function ($node) {
print $node->text()."\n";
});
Kết quả chạy
% php go.php
Trang Ghi chú Voi
"GET / HTTP/1.1" 200 34881 "-" "Symfony BrowserKit"
Ví dụ, khi cần thu thập cảm nhận thực tế, PHP thực sự làm việc này khá khó khăn. Hãy xem xét ví dụ sau:
Sau khi thử nghiệm, tôi quyết định tiếp tục sử dụng python requests + beautifulsoup.