印尼旅游资源解析入库技能

触发识别（使用前必读）

用户提示词关键词解析

收到入库任务时，从用户提示词中自动识别以下关键信息：

提示词关键词	识别结果	操作
`https://drive.google.com/...` 等 Drive URL	数据源为云盘	调用 `google-drive` 技能下载 PDF/Word 到本地临时目录
本地路径如 `C:\Users\a\Desktop\资源`	数据源为本地文件	直接使用该路径下的文件
`模型文件路径` / `已存在的 csv`	目标生产库位置	在该 CSV 基础上追加新数据，而非覆盖
`目标路径` / `target`	解析结果输出目录	原始 PDF + 解析结果均写入该目录
未提及目标路径	—	告知用户必须指定目标路径

⚠️ 路径仅为示例，不可硬编码。 所有路径必须从用户提示词中动态提取，用作字段值传递给脚本。

示例提示词：

"检索 https://drive.google.com/drive/my-drive 所有合同并解析，模型文件路径在 C:\Users\a\Desktop\资源，目标路径为 C:\Users\a\Desktop\资源\target"

动态提取结果（作为变量使用）：

数据源 URL：https://drive.google.com/drive/my-drive → 传给 google-drive 技能
模型文件路径：C:\Users\a\Desktop\资源 → 拼接生产库 CSV 文件名，得到完整生产库路径
目标路径：C:\Users\a\Desktop\资源\target → 解析结果输出目录

技能依赖检测

使用前检查所需技能是否已安装：

依赖技能	用途	未安装时操作
`google-drive`	访问 Google Drive 下载合同	提示用户执行 `openclaw skills install google-drive`，或告知用户提供本地文件
`bali-resource-import`	本技能（自身）	提示用户提供正确路径
`pdfplumber` / `PyMuPDF`	PDF 文本提取	pip 安装 `pdfplumber`

缺失技能时的话术模板：

[技能缺失] 解析入库需要先安装 google-drive 技能。
请在终端执行：openclaw skills install google-drive
安装完成后请重新发送任务。

使用流程

Step 0：安装依赖

# 安装 Google Drive 技能（如需要）
openclaw skills install google-drive

# 安装 PDF 解析库
pip install pdfplumber

Step 1：下载合同文件

Google Drive 来源：调用 google-drive 技能，从提示词中提取 Drive URL，列出文件并下载到目标路径
本地来源：从提示词中提取本地路径，定位 PDF/Word 文件

⚠️ 所有路径均为动态变量，不写死。

Step 2：读取生产库表头

⚠️ 必须先读取目标 CSV 的实际表头和 encoding，再生成数据行。

import csv

def read_production_csv(path):
    for enc in ['utf-8-sig', 'gbk', 'utf-8', 'latin1']:
        try:
            with open(path, 'r', encoding=enc) as f:
                headers = next(csv.reader(f))
            return headers, enc
        except UnicodeDecodeError:
            continue
    raise ValueError(f"无法读取 {path}")

# 示例
headers, enc = read_production_csv(r"C:\Users\a\Desktop\资源\活动标准化完整版_含人群标签与特色标签_V4.csv")
# headers = ['contract_id (合同编号)', 'activitynameen (活动英文名)', ...]
# ⚠️ 表头格式为 "fieldname (中文说明)"，提取时用 split(' (')[0] 取英文字段名

Step 3：解析合同内容

按合同内容识别资源类型：

资源类型	判断关键词	核心价格字段
酒店	房型、床型、早餐、入住、淡旺季	淡季价格_IDR / 旺季价格_IDR
车辆	车型、半天、全天、司机、油费	半天价格 / 全天价格
景点	门票、开放时间、GPS、难度	门票-成人IDR
活动	时长、含保险、含交通、教练语言	成人IDR价格
SPA	疗法、套餐、开放时间	成人IDR价格
俱乐部	最低消费、入场费、时段政策	入场/门票费用
餐厅	菜系、套餐、预约	成人IDR价格
下午茶	套餐类型、成人儿童价	成人IDR价格

Step 4：数据提取规则

提取原则（按优先级）：

优先级	来源	处理方式
1	合同原文	直接使用，如实写入字段
2	公开网络信息（如 GPS 坐标）	可填写，标注来源
—	合同无数据	填写"合同未提供"，不得留空
—	编造数据	严禁

字段格式规范：

字段类型	格式示例
日期期间	`2024-07-01 至 2024-08-31`（不用英文月份）
星级	`5星`（带"星"字，非纯数字）
价格	纯数字，不含货币符号（如 `3581500` 而非 `IDR 3,581,500`）
汇率参考	1 CNY ≈ 2,100 IDR；1 USD ≈ 15,000 IDR

Step 5：三层标签体系

每条资源必须标注三层标签：

人群标签（第一层）： #家庭 #亲子 #情侣 #商务 #蜜月 #年轻人 #老年人 #单身

风格标签（第二层）： #豪华 #经济型 #浪漫 #休闲 #刺激 #度假村风格 #自然 #文化

特色标签（第三层）： 按资源类型选用，详见下方各资源标签表。

Step 6：写入 CSV

⚠️ 关键规则：

新增数据的字段名必须与生产库表头完全一致
encoding 必须与生产库一致（通常 activity 用 gbk，hotel 用 utf-8-sig）
写入模式为追加（append），不覆盖原有数据

import csv, os

def append_to_production(prod_path, data_rows, enc):
    """追加数据到生产库 CSV"""
    with open(prod_path, 'r', encoding=enc, newline='') as f:
        prod_rows = list(csv.reader(f))

    prod_headers = prod_rows[0]  # ['fieldname (中文说明)', ...]
    prod_fieldnames = [h.split(' (')[0] for h in prod_headers]  # ['fieldname', ...]

    with open(prod_path, 'w', encoding=enc, newline='') as f:
        writer = csv.writer(f)
        writer.writerow(prod_headers)          # 保留原有表头
        writer.writerows(prod_rows[1:])        # 保留原有数据
        for row in data_rows:                 # 追加新数据
            out_row = [row.get(fn, '') for fn in prod_fieldnames]
            writer.writerow(out_row)

直接追加示例（不依赖 append_to_csv.py）：

# BOUNTY Cruises → 活动库
append_to_production(
    r"C:\Users\a\Desktop\资源\活动标准化完整版_含人群标签与特色标签_V4.csv",
    bounty_rows,  # list of dict
    'gbk'
)

# Maya Ubud → 酒店库
append_to_production(
    r"C:\Users\a\Desktop\资源\巴厘岛酒店资源库_2026标准版_V4_FINAL.csv",
    maya_rows,
    'utf-8-sig'
)

Step 7：输出报告

入库完成后，向用户报告（路径为实际从提示词中提取的值）：

✅ 入库完成
━━━━━━━━━━━━━━━
合同文件：BOUNTY Cruises - March 2026.pdf
资源类型：活动（Activity）
目标库：{从提示词提取的模型文件路径}\活动标准化完整版_含人群标签与特色标签_V4.csv
新增记录：4 条
输出目录：{从提示词提取的目标路径}\

Step 8：清理临时文件

目标文件夹只保留结果文件，入库完成后删除以下内容：

文件类型	示例	删除原因
原始合同 PDF/Word	`BOUNTY Cruises - March 2026.pdf`	原始文件不留在输出目录
解析中间文件	`parsed_results.json`	仅作中间处理使用，不交付用户

保留文件：

{目标路径}\
├── bounty_activity_out.csv   ← 新增的活动数据（追加到生产库）
└── maya_hotel_out.csv       ← 新增的酒店数据（追加到生产库）

import os

# 入库完成后清理
temp_files = [
    os.path.join(target_dir, "parsed_results.json"),
    os.path.join(target_dir, "BOUNTY Cruises - March 2026.pdf"),
    os.path.join(target_dir, "Maya Ubud Contract Valid 31 Mar 2025.pdf"),
]
for f in temp_files:
    if os.path.exists(f):
        os.remove(f)
        print(f"[清理] 已删除: {f}")

8类资源 CSV 文件

资源类型	CSV 文件名	encoding
酒店	`巴厘岛酒店资源库_2026标准版_V4_FINAL.csv`	utf-8-sig
车辆	`巴厘岛车费成本表-成本_2.10.csv`	gbk
景点	`景点标准化完整版_含人群标签与特色标签_V4.csv`	gbk
活动	`活动标准化完整版_含人群标签与特色标签_V4.csv`	gbk
SPA	`SPA标准化完整版_含人群标签与特色标签_V4.csv`	gbk
俱乐部	`俱乐部标准化完整版_含人群标签与特色标签_V4.csv`	gbk
餐厅	`餐厅标准化完整版_含人群标签与特色标签_V4.csv`	gbk
下午茶	`下午茶标准化完整版_含人群标签与特色标签_V4.csv`	gbk

三层标签参考

人群标签（所有资源）

#家庭 #亲子 #情侣 #商务 #蜜月 #年轻人 #老年人 #单身

风格标签（所有资源）

#豪华 #经济型 #浪漫 #休闲 #刺激 #度假村风格 #自然 #文化

特色标签（按资源类型）

酒店： #海景房 #私人泳池 #儿童俱乐部 #水疗中心 #私人海滩 #日落景观 #Infinity泳池 #热带雨林景观 #乌布丛林

车辆： #中文司机 #婴儿座椅 #行李空间大 #全景天窗 #全天候服务 #机场接送 #VIP包车

景点： #日落观赏点 #浮潜点 #摄影圣地 #稻田风光 #印度教寺庙 #亲子友好 #小众秘境

活动： #潜水 #冲浪 #火山徒步 #漂流 #丛林探险 #文化体验 #极限运动 #浮潜 #深潜 #ATV #滑索

SPA： #巴厘岛传统按摩 #四手按摩 #情侣SPA #热石按摩 #排毒疗程 #蜜月套餐 #草本疗法 #花香浴

俱乐部： #DJ演出 #主题派对 #沙滩酒吧 #VIP包厢 #泳池派对 #现场乐队 #日落美景 #网红打卡

餐厅： #海鲜烧烤 #海滩景观 #网红餐厅 #蜜月餐厅 #私人包间 #现场音乐 #米其林 #亚洲50佳 #稻田景观

下午茶： #海景下午茶 #日落下午茶 #泳池下午茶 #花园下午茶 #闺蜜下午茶 #梯田景观 #绝美拍照点

异常处理规范

异常类型	判断标准	处理方式
资源过期	合同有效期 < 今天	备注"已过期"，可信度降B级
价格缺失	核心价格字段为空	暂停入库，告警人工补充
价格冲突	同资源价差 > 10%	标红，暂停入库，等人工决策
CSV encoding 读取失败	所有 encoding 均报错	提示用户文件损坏或格式异常
生产库文件被占用	PermissionError	提示用户关闭 Excel / Google Drive Desktop 等程序后再重试
表头字段不匹配	新数据字段与生产库不一致	报错退出，不写入，列出缺失/多余字段
GPS缺失	坐标字段为空	备注"待补充"，不阻止入库
标签缺失	三层标签不完整	按资源类型默认补充基础标签
数据完整度低	字段完整度 < 60%	可信度标C级，优先处理高完整度资源

参考文档

文档	路径
旅游资源标准化文档体系	`references/旅游资源标准化文档体系.md`

bali-resource-import

Safety Notice

Copy this and send it to your AI assistant to learn