Firecrawl ile Web Verisi Kazıma Nasıl Yapılır (Yeni Başlayanlar İçin Eğitim)

Firecrawl ile web verilerini açığa çıkarın. Web sitelerini yapay zeka uygulamaları için yapılandırılmış verilere dönüştürün.

Efe Demir

Efe Demir

18 March 2025

Firecrawl ile Web Verisi Kazıma Nasıl Yapılır (Yeni Başlayanlar İçin Eğitim)

Herhangi bir web sitesinden veri çıkarma ve ölçekte içgörüler toplama yeteneğine sahip olduğunuzu hayal edin; hepsi sadece birkaç satır kodla. Sihir gibi geliyor, değil mi? Peki, Firecrawl bunu mümkün kılar.

Bu başlangıç ​​kılavuzunda, kurulumdan gelişmiş veri çıkarma tekniklerine kadar Firecrawl hakkında bilmeniz gereken her şeyi size anlatacağım. İster bir geliştirici, ister bir veri analisti olun, ister sadece web kazıma konusunda meraklı olun, bu eğitim Firecrawl'a başlamanıza ve iş akışlarınıza entegre etmenize yardımcı olacaktır.

💡
İçeri girmeden önce, işte hızlı bir ipucu: Bugün Apidog'u ücretsiz indirin! Özellikle LLM'leri (Büyük Dil Modelleri) kullananlar olmak üzere, yapay zeka modellerini test etmeyi basitleştirmek isteyen geliştiriciler için harika bir araçtır. Apidog, API test sürecini kolaylaştırmaya yardımcı olarak, son teknoloji yapay zeka teknolojileriyle çalışmayı kolaylaştırır. Bir deneyin!
Apidog all in one image
button

Firecrawl Nedir?

Firecrawl, web sitesi içeriğini markdown, HTML ve yapılandırılmış veriler gibi formatlara dönüştüren yenilikçi bir web kazıma ve tarama motorudur. Bu, onu Büyük Dil Modelleri (LLM'ler) ve Yapay Zeka uygulamaları için ideal hale getirir. Firecrawl ile web sitelerinden hem yapılandırılmış hem de yapılandırılmamış verileri verimli bir şekilde toplayabilir, veri analizi iş akışınızı basitleştirebilirsiniz.

Firecrawl Ui image

Firecrawl'ın Temel Özellikleri

Crawl: Kapsamlı Web Tarama

Firecrawl'ın /crawl uç noktası, bir web sitesini özyinelemeli olarak gezmenize, tüm alt sayfalardan içerik çıkarmanıza olanak tanır. Bu özellik, büyük miktarda web verisini keşfetmek ve düzenlemek, bunları LLM'ye hazır formatlara dönüştürmek için mükemmeldir.

Scrape: Hedeflenmiş Veri Çıkarma

Belirli bir URL'den belirli verileri çıkarmak için Scrape özelliğini kullanın. Firecrawl, markdown, yapılandırılmış veriler, ekran görüntüleri ve HTML dahil olmak üzere çeşitli formatlarda içerik sağlayabilir. Bu, bilinen URL'lerden belirli bilgileri çıkarmak için özellikle kullanışlıdır.

Map: Hızlı Site Eşleme

Map özelliği, belirli bir web sitesiyle ilişkili tüm URL'leri hızla alır ve yapısının kapsamlı bir genel görünümünü sağlar. Bu, içerik keşfi ve organizasyonu için paha biçilmezdir.

Extract: Yapılandırılmamış Verileri Yapılandırılmış Formata Dönüştürme

/extract uç noktası, web sitelerinden yapılandırılmış veri toplama sürecini basitleştiren Firecrawl'ın yapay zeka destekli özelliğidir. Verileri yapılandırılmış bir formata tarama, ayrıştırma ve düzenleme gibi ağır işleri halleder.

Firecrawl'a Başlarken

Adım 1: Kaydolun ve API Anahtarınızı Alın

Firecrawl'ın resmi web sitesini ziyaret edin ve bir hesap için kaydolun. Oturum açtıktan sonra, API anahtarınızı bulmak için kontrol panelinize gidin.

Firecrawl api key image

Dilerseniz veya yapmanız gerekirse yeni bir API anahtarı da oluşturabilir ve öncekini silebilirsiniz.

create new api key image

Adım 2: Ortamınızı Kurun

Projenizin dizininde, API anahtarınızı bir ortam değişkeni olarak güvenli bir şekilde saklamak için bir .env dosyası oluşturun. Bunu terminalinizde aşağıdaki komutları çalıştırarak yapabilirsiniz:

touch .env
echo "FIRECRAWL_API_KEY='fc-YOUR-KEY-HERE'" >> .env

Bu yaklaşım, hassas bilgileri ana kod tabanınızın dışında tutarak güvenliği artırır ve yapılandırma yönetimini basitleştirir.

Adım 3: Firecrawl SDK'sını Yükleyin

Python kullanıcıları için, pip kullanarak Firecrawl SDK'sını yükleyin:

pip install firecrawl  

Adım 4: Firecrawl'ın "Scrape" İşlevini Kullanın

İşte Python SDK'sını kullanarak bir web sitesini kazımanın basit bir örneği:

from firecrawl import FirecrawlApp
from dotenv import load_dotenv
import os

# .env dosyasından ortam değişkenlerini yükleyin
load_dotenv()

# .env dosyasından API anahtarıyla FirecrawlApp'i başlatın
app = FirecrawlApp(api_key=os.getenv("FIRECRAWL_API_KEY"))

# Kazınacak URL'yi tanımlayın
url = "https://www.python-unlimited.com/webscraping/hotels.php?page=1"

# Web sitesini kazıyın
response = app.scrape_url(url)

# Yanıtı yazdırın
print(response)

Örnek Çıktı:

scrape results image

Adım 5: Firecrawl'ın "Crawl" İşlevini Kullanın

Burada, Python SDK'sını kullanarak bir web sitesini taramanın basit bir örneğini göreceğiz:

from firecrawl import FirecrawlApp
from dotenv import load_dotenv
import os

# .env dosyasından ortam değişkenlerini yükleyin
load_dotenv()

# .env dosyasından API anahtarıyla FirecrawlApp'i başlatın
app = FirecrawlApp(api_key=os.getenv("FIRECRAWL_API_KEY"))

# Bir web sitesini tarayın ve yanıtı yakalayın:
crawl_status = app.crawl_url(
  'https://www.python-unlimited.com/webscraping/hotels.php?page=1',
  params={
    'limit': 100,
    'scrapeOptions': {'formats': ['markdown', 'html']}
  },
  poll_interval=30
)

print(crawl_status)

Örnek Çıktı:

crawl results image

Adım 6: Firecrawl'ın "Map" İşlevini Kullanın

İşte Python SDK'sını kullanarak web sitesi verilerini Eşlemenin basit bir örneği:

from firecrawl import FirecrawlApp
from dotenv import load_dotenv
import os

# .env dosyasından ortam değişkenlerini yükleyin
load_dotenv()

# .env dosyasından API anahtarıyla FirecrawlApp'i başlatın
app = FirecrawlApp(api_key=os.getenv("FIRECRAWL_API_KEY"))

# Bir web sitesini eşleyin:
map_result = app.map_url('https://www.python-unlimited.com/webscraping/hotels.php?page=1')
print(map_result)

Örnek Çıktı:

map results image

Adım 7: Firecrawl'ın "Extract" İşlevini Kullanın (Açık Beta)

Aşağıda, Python SDK'sını kullanarak web sitesi verilerini çıkarmanın basit bir örneği verilmiştir:

from firecrawl import FirecrawlApp
from pydantic import BaseModel, Field
from dotenv import load_dotenv
import os

# .env dosyasından ortam değişkenlerini yükleyin
load_dotenv()

# .env dosyasından API anahtarıyla FirecrawlApp'i başlatın
app = FirecrawlApp(api_key=os.getenv("FIRECRAWL_API_KEY"))


# İçeriği çıkarmak için şemayı tanımlayın
class ExtractSchema(BaseModel):
    company_mission: str
    supports_sso: bool
    is_open_source: bool
    is_in_yc: bool


# Extract işlevini çağırın ve yanıtı yakalayın
response = app.extract([
    'https://docs.firecrawl.dev/*',
    'https://firecrawl.dev/',
    'https://www.ycombinator.com/companies/'
], {
    'prompt': "Şemada sağlanan verileri çıkarın.",
    'schema': ExtractSchema.model_json_schema()
})

# Yanıtı yazdırın
print(response)

Örnek Çıktı:

extract results image

Firecrawl ile Gelişmiş Teknikler

Dinamik İçeriği İşleme

Firecrawl, kazımadan önce sayfaları oluşturmak için başsız tarayıcılar kullanarak dinamik JavaScript tabanlı içeriği işleyebilir. Bu, dinamik olarak yüklense bile tüm içeriği yakalamanızı sağlar.

Web Kazıma Engelleyicileri Atlatma

CAPTCHA'lar veya hız sınırları gibi yaygın web kazıma engelleyicilerini atlamak için Firecrawl'ın yerleşik özelliklerini kullanın. Bu, doğal trafiği taklit etmek için kullanıcı aracılarının ve IP adreslerinin döndürülmesini içerir.

LLM'lerle Entegrasyon

Güçlü yapay zeka iş akışları oluşturmak için Firecrawl'ı LangChain gibi LLM'lerle birleştirin. Örneğin, veri toplamak ve ardından analiz veya oluşturma görevleri için bir LLM'ye beslemek için Firecrawl'ı kullanabilirsiniz.

Yaygın Sorunları Giderme

Sorun: "API Anahtarı Tanınmıyor"

Çözüm: API anahtarınızın bir ortam değişkeni olarak veya bir .env dosyasında doğru şekilde saklandığından emin olun.

Sorun: "Tarama Çok Yavaş"

Çözüm: İşlemi hızlandırmak için eşzamansız tarama kullanın. Firecrawl, verimliliği artırmak için eşzamanlı istekleri destekler.

Sorun: "İçerik Doğru Şekilde Çıkarılmadı"

Çözüm: Web sitesinin dinamik içerik kullanıp kullanmadığını kontrol edin. Eğer öyleyse, Firecrawl'ın JavaScript oluşturmayı işleyecek şekilde yapılandırıldığından emin olun.

Sonuç

Firecrawl hakkındaki bu kapsamlı başlangıç ​​kılavuzunu tamamladığınız için tebrikler! Başlamak için ihtiyacınız olan her şeyi ele aldık; Firecrawl'ın ne olduğundan, ayrıntılı kurulum talimatlarına, kullanım örneklerine ve gelişmiş özelleştirme seçeneklerine kadar. Artık şunları nasıl yapacağınız konusunda net bir anlayışa sahip olmalısınız:

Firecrawl, veri çıkarma iş akışlarınızı önemli ölçüde kolaylaştırabilen inanılmaz derecede güçlü bir araçtır. Esnekliği, verimliliği ve entegrasyon kolaylığı, onu modern web tarama zorlukları için ideal bir seçim haline getirir.

Şimdi yeni becerilerinizi uygulamaya koyma zamanı. Farklı web siteleriyle denemeler yapmaya başlayın, ayrıştırıcılarınızı ayarlayın ve benzersiz gereksinimlerinizi karşılayan gerçekten özelleştirilmiş bir çözüm oluşturmak için ek araçlarla entegre edin.

Web kazıma iş akışınızı 10 kat artırmaya hazır mısınız? Bugün Apidog'u ücretsiz indirin ve Firecrawl entegrasyonunuzu nasıl geliştirebileceğini keşfedin!

button

API Tasarım-Öncelikli Yaklaşımı Apidog'da Uygulayın

API'leri oluşturmanın ve kullanmanın daha kolay yolunu keşfedin