房地产数据是最受欢迎的网络抓取目标之一。网络上充斥着此类信息,在本文中,我们将了解如何使用 Python 免费从网络上抓取房地产数据!
我们将从快速概述、用例以及我们可以在这个利基市场中抓取什么样的数据开始。然后,我们将看看最流行的房地产数据网络抓取目标是什么以及如何抓取它们。让我们开始吧!
为什么要抓取房地产数据?
网络上充斥着个人或机构列出的公共住房财产数据。这是最大最完整的市场数据集,对业务分析和市场分析至关重要。
想知道纽约房地产市场的最新趋势吗?通过一点点数据分析来搜刮纽约的所有房产,您就可以到达那里!
使用这些庞大的公共数据集,我们可以非常密切地关注房地产市场趋势。什么样的房子受欢迎?哪些地区越来越受欢迎?我们甚至可以跟踪竞争机构的表现,因为他们的表现在这些数据中是可见的。
这些信息甚至可以用于更多的利基场景,例如建筑趋势观察或法规执行,因为所有房产清单都包含详细的数据点,例如平面图、带注释的图像和确切的规格。
通过使用 Python 自己抓取财产数据,我们不需要为昂贵的房地产数据 API 付费,与实时网页相比,这些 API 价格昂贵且提供不完整和陈旧的数据。
那里有什么样的财产数据?
可用的公共数据因来源(如 Zillow、Redfin、Realtor.com 等)而异,但我们可以概述常见和独特的数据点:
- 价格数据(当前和历史)
- 建筑细节和特点
- 相片
- 建筑平面图
- 上市表现
- 上市评级和分数
- 税务记录
- 地理数据 – 位置、地址、纬度、经度
- 卖家信息——电话号码、姓名、元信息
利用这些数据点并不需要太多的想象力!通过持续跟踪,我们还可以概览列表如何随时间变化。
什么是一些流行的网络抓取目标?
有许多公共房地产数据源。让我们快速浏览一下最流行的以及如何抓取它们。
1.Zillow.com
Zillow 是迄今为止美国最大的房地产列表来源,而且非常容易抓取。Zillow 还提供独特的功能,如“Zestimate”,它可以估算当前和历史市场的房地产价格以及他们自己的房地产和社区评级。
Zillow 还提供定价历史记录和参与统计数据,例如列表被查看或保存的次数。所有这些数据都是公开可用的,可以使用 Python 轻松抓取。
2. Realtor.com
Realtor.com 是美国第二大房地产上市资源。它提供了与 Zillow 非常相似的数据集,提供类似的优质数据点,例如价格历史记录以及房地产和社区评级。
在网络抓取方面,Realtor.com 与 Zillow.com 非常相似(两个网站都使用相同的网络技术),这使它成为另一个简单的 Python 抓取源。
3. Redfin
Redfin.com 是美国另一大房地产上市资源。就像 Zillow 和 Realtor 一样,Redfin 包含一个非常相似的数据集,不仅包括属性数据,还包括区域元信息、代理联系方式以及流行元数据(例如查看和保存计数)。
4. Idealista
Idealista 是南欧最大的房地产上市资源,主要在西班牙最受欢迎,但在意大利和葡萄牙也有。
与 Zillow 和 Realtor 相比,欧洲市场的可用数据点要小一些,但 Idealista 仍然包含独特的细节,如详细的平面图。
Python 中的 Web 抓取 Idealista 并不比其他来源更难。
5. RightMove
RightMove 是英国最大的房地产上市资源。它提供了与 Zillow 和 Realtor.com 非常相似的数据集,并且很容易使用隐藏的网络数据方法进行抓取。
各国房地产平台
虽然美国市场由 Zillow 和 Realtor 等少数大公司所有,但世界其他地区的市场更加多样化。以下是按国家/地区划分的流行房地产数据抓取目标列表:
国 家 | 来 源 |
---|---|
Europe | |
🇧🇾 Belarus | realt.by |
🇧🇪 Belgium | immoweb.be |
🇨🇿 Czech Republic | sreality.cz |
🇩🇰 Denmark | boligsiden.dk |
🇪🇪 Estonia | kv.ee |
🇫🇮 Finland | etuovi.com |
🇫🇷 France | seloger.com |
🇩🇪 Germany | ImmobilienScout24.de |
🇮🇸 Iceland | visir.is |
🇮🇪 Ireland | daft.ie |
🇮🇹 Italy | idealista.com, immobiliare.it |
🇳🇱 Netherlands | funda.nl |
🇳🇴 Norway | finn.no |
🇵🇹 Portugal | idealista.com |
🇪🇸 Spain | idealista.com |
🇸🇪 Sweden | hemnet.se |
🇨🇭 Switzerland | homegate.ch |
🇬🇧 United Kingdom | rightmove.co.uk |
🇦🇹 Austria | Immobilienscout24.at, immowelt.at |
🇧🇬 Bulgaria | imot.bg |
🇭🇷 Croatia | oglasnik.hr |
🇬🇷 Greece | spitogatos.gr |
🇭🇺 Hungary | ingatlan.com |
🇱🇻 Latvia | city24.lv |
🇱🇹 Lithuania | aruodas.lt |
🇵🇱 Poland | otodom.pl |
🇷🇴 Romania | storia.ro, imobiliare.ro |
🇷🇺 Russia | cian.ru, domclick.ru |
🇷🇸 Serbia | 4zida.rs |
🇸🇰 Slovakia | nehnutelnosti.sk |
🇸🇮 Slovenia | nepremicnine.net |
🇺🇦 Ukraine | dom.ria.com |
Others | |
🇦🇲 Armenia | estate.am |
🇦🇺 Australia | realestate.com.au |
🇦🇿 Azerbaijan | bina.az |
🇧🇭 Bahrain | propertyfinder.com.bh |
🇰🇭 Cambodia | realestate.com.kh |
🇨🇳 China | anjuke.com, fang.com, lianjia.com |
🇬🇪 Georgia | myhome.get |
🇮🇩 Indonesia | 99.co/id, rumah.com |
🇮🇷 Iran | kilid.com, 2nabsh.com |
🇮🇶 Iraq | iq.opensooq.com |
🇮🇱 Israel | madlan.co.il |
🇯🇵 Japan | suumo.jp |
🇯🇴 Jordan | bayut.jo |
🇰🇼 Kuwait | kw.opensooq.com |
🇱🇦 Laos | banlao.la |
🇱🇧 Lebanon | propertyfinder.com.lb |
🇲🇾 Malaysia | iproperty.com.my, propertyguru.com.my |
🇳🇿 New Zealand | realestate.co.nz |
🇴🇲 Oman | mawa.om |
🇵🇭 Philippines | lamudi.com.ph, dotproperty.com.ph |
🇶🇦 Qatar | propertyfinder.com.qa |
🇸🇦 Saudi Arabia | sa.aqar.fm |
🇸🇬 Singapore | propertyguru.com.sg, 99.co |
🇰🇷 South Korea | land.naver.com |
🇹🇼 Taiwan | 591.com.tw |
🇹🇭 Thailand | ddproperty.com |
🇹🇷 Turkey | emlakjet.com, hepsiemlak.com |
🇦🇪 UAE | bayut.com, propertyfinder.com.ae |
🇻🇳 Vietnam | batdongsan.com.vn, alonhadat.com.vn |
🇾🇪 Yemen | ye.opensooq.com |
爬取这张表格
要像这样抓取表格,我们可以使用 Python 和 XPath 选择器:
# For this example we'll be using 2 community packages: # pip install httpx parsel import httpx from parsel import Selector response = httpx.get("https://www.jingzhengli.com/how-to-scrape-real-estate-property-data-using-python/") selector = Selector(text=response.text) results = {} table = selector.xpath('//h3[contains(@id,"by-country")]/following-sibling::table[1]') for row in table.xpath('tbody/tr'): country = row.xpath('td[1]/text()').get() urls = row.xpath('td[2]//text()').get("").split(",") if urls: # skip separator rows results[country] = urls print(results)
所有这些房地产网站都可以使用 Python 和一些流行的社区库进行抓取。
房地产爬取技巧
抓取房地产网站的第一个技巧是寻找隐藏的网络数据。许多房地产平台都由 Javascript 前端提供支持,例如 Nextjs,它通常将整个数据集隐藏在 HTML 中。更多请看:
另一个提示 – 要查找决定性数据集的所有属性,请尝试检查站点地图的/robots.txt
位置。由于房地产网页希望被爬虫索引,因此它们通常包含详细的站点地图和所有属性链接,甚至按位置或功能分成几类。
房地产爬取挑战
到目前为止,在抓取房地产数据时最大的挑战是抓取器阻塞。一些房产列表网站只允许来自特定国家的连接,一些网站使用反网络抓取技术来阻止抓取工具。
常问问题
为了总结这篇文章,让我们来看看有关房地产抓取的一些常见问题:
抓取房地产清单是否违法?
不,抓取公共数据是完全合法的。以尊重的价格抓取房地产数据是合法且合乎道德的。话虽如此,在欧盟抓取卖家姓名和电话号码等个人详细信息时应格外注意(请参阅 GDPR)。有关更多信息,请参阅我们的网页抓取合法吗?文章。
我的抓取工具找不到页面上可见的数据 – 为什么?
许多房地产网站在其页面中使用动态 javascript 内容,网络抓取工具无法理解这些内容。要抓取这个隐藏的网络数据,可以使用抓取或者使用网络浏览器抓取可以呈现网络浏览器看到的所有动态内容。
房地产爬取摘要
在这个简短的介绍中,我们了解了房地产网络抓取。我们注意到隐藏网络数据解析在这个抓取领域的重要性,并涵盖了 Zillow、Realtor.com、Idealista 等最流行的房地产网站。