如何搭建免费的本地版 Llama 3.2 AI 网络爬虫

无需联网、不依赖API,用本地运行的Llama 3.2 + ScrapeGraphAI搭建自然语言驱动的AI爬虫:输入网址和中文提示,即可自动提取网页结构化数据。全程免费,支持离线使用,适合开发者快速实现定制化信息采集。

发布于2024年10月12日 06:51
编辑零重力瓦力
评论0
阅读25

通过 Streamlit 我们可以使用 Meta 最新的开源大模型 Llama 3.2 轻松搭建自己的 AI 网络爬虫,通过自然语言就能抓取各种网络信息。

搭建环境

在开始搭建之前,请确保具备以下条件:

  • 在本地电脑上安装 Python(建议使用 3.7 版本或更高版本)
  • 下载并安装 Ollama,并确保 Llama 3.2 能够正常运行
  • 对 Python 编程有基本的了解,选择一个代码编辑器(建议使用 VS Code 或 PyCharm)

安装 AI 网络爬虫

1. 克隆 GitHub 仓库

git clone https://github.com/Shubhamsaboo/awesome-llm-apps.git

2. 进入 web_scrapping_ai_agent 文件夹

cd web_scrapping_ai_agent

3. 安装所需的依赖

pip install -r requirements.txt

4. 检查是否能在本地的 11434 端口运行 Ollama
检查是否能在本地的 11434 端口运行 Ollama

创建Streamlit应用程序

创建一个新的文件 local_ai_scrapper.py,并添加以下代码

导入所需库

在文件的顶部添加

  • Streamlit 用于构建网页应用
  • Scrapegraph AI 用于创建与 LLM 的抓取管道
import streamlit as st
from scrapegraphai.graphs import SmartScraperGraph

设置 Streamlit 应用

Streamlit 允许我们创建用户界面。对于这个应用,我们将使用 st.title() 和 st.caption() 添加标题和副标题

st.title("AI 网络爬虫")
st.caption("此应用允许您使用 Llama 3.2 抓取网站")

配置 SmartScraperGraph

  • 将 LLM 设置为 ollama/llama3,并在本地服务,输出格式为 JSON。
  • 将嵌入模型设置为 ollama/nomic-embed-text
graph_config = {
    "llm": {
        "model": "ollama/llama3.2",
        "temperature": 0,
        "format": "json",  # Ollama 需要明确指定格式
        "base_url": "http://localhost:11434",  # 设置 Ollama URL
    },
    "embeddings": {
        "model": "ollama/nomic-embed-text",
        "base_url": "http://localhost:11434",  # 设置 Ollama URL
    },
    "verbose": True,
}

获取网站 URL 和用户提示

  • 使用 st.text_input() 获取要抓取的网站 URL。
  • 使用 st.text_input() 获取用户提示,指定要从网站抓取的内容。
url = st.text_input("请输入您想要抓取网站的 URL")
user_prompt = st.text_input("您希望 AI 爬虫从网站抓取什么?")

初始化 SmartScraperGraph

使用用户提示、网站 URL 和图形配置创建 SmartScraperGraph 实例。

smart_scraper_graph = SmartScraperGraph(
    prompt=user_prompt,
    source=url,
    config=graph_config
)

抓取网站并显示结果

  • 使用 st.button() 添加一个“抓取”按钮。
  • 当按钮被点击时,运行 SmartScraperGraph,并使用 st.write() 显示结果。
if st.button("抓取"):
    result = smart_scraper_graph.run()
    st.write(result)

运行网络爬虫应用

进入项目文件夹,运行以下命令

streamlit run local_ai_scrapper.py

Streamlit 会提供一个本地 URL(通常是 http://localhost:8501)。通过浏览器打开链接就可以用它抓取我们想要的网络信息了。

ScrapeGraphAI 项目地址

相关文章

AI 研究实验室 NeoCognition 获 4000 万美元种子轮融资,构建类人学习智能体
AI 新闻资讯
2026年5月4日
0 条评论
小创

AI 研究实验室 NeoCognition 获 4000 万美元种子轮融资,构建类人学习智能体

NeoCognition 由俄亥俄州立大学教授 Yu Su 创立,获 4000 万美元种子轮融资。团队约 15 人,多为博士,目标不是解决智能体做事不稳定的致命短板!当前智能体任务成功率仅约 50%。公司试图打造能自我学习、快速专业化的智能体系统,让 AI 进入任何领域后都能自主构建“世界模型”,成为真正的“专家”。投资方包括 Vista Equity Partners 等重量级机构, NeoCognition 计划将产品卖给企业客户,特别是 SaaS 公司。融资背后反映 AI 市场正从追逐“大模型”转向追求“更可靠的执行”。

#智能体
阅读全文
微软开源 Agent Governance Toolkit:AI Agent 的安全终于有人管了
AI 产品工具
2026年5月4日
0 条评论
零重力瓦力

微软开源 Agent Governance Toolkit:AI Agent 的安全终于有人管了

微软开源 Agent 治理工具包 AGT,覆盖 OWASP 全部 10 类安全风险。该工具借鉴操作系统模型,通过工具扫描、调用前策略检查及响应审查三层机制,将安全从提示词建议升级为代码硬约束。其策略评估延迟不足 1 毫秒,支持多语言及主流框架集成。在监管趋严背景下,AGT 为开发者提供了管控 Agent 外部动作的有效基础设施,虽不干预内部推理,但填补了当前执行层的安全空白。

#AI 安全#智能体
阅读全文
没装摄像头的 AI 眼镜,如何成为第二大脑
AI 产品工具
2026年5月4日
0 条评论
小创

没装摄像头的 AI 眼镜,如何成为第二大脑

Mira 是一款主打 “记忆 + 执行” 的 AI 智能眼镜,通过持续录音将对话转化为可搜索的个人上下文档案。它不仅能实现 900 毫秒内的多语言实时字幕翻译,还能基于记忆自动处理邮件、日程及支付等任务。配合支持手势操作的戒指,用户无需掏手机即可交互。设备仅重 39 克且无摄像头,承诺不利用对话数据训练模型,适合追求隐私与高效语音助手的用户。

#极客产品#智能体
阅读全文
互动讨论

评论区

围绕《如何搭建免费的本地版 Llama 3.2 AI 网络爬虫》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。