CHRONOS是一种新颖的基于检索的时间线摘要 (TLS) 方法,通过迭代提出有关主题和检索到的文档的问题来生成按时间顺序排列的摘要。为开放域 TLS 构建了一个最新的数据集,它在大小和时间线持续时间方面都超过了现有的公共数据集。
⚗️ OPEN-TLS 数据集
我们发布了用于开放域时间线摘要的 Open-TLS 数据集。
目标新闻查询以以下格式显示,地面实况时间线按以下格式显示:news_keywords.pydata/open/{NEWS_KEYWORD}/timelines.jsonl
[["YYY-MM-DDT00:00:00", ["", "", ""]]]
Open-TLS 的统计数据包括:
🛠 运行 CHRONOS
步骤 1. 依赖
pip install -r requirements.txt
步骤 2 示例问题生成
第二步是为 中的数据集构建一个主题问题示例池。data/
python question_exampler.py
或者,您可以使用我们提供的 ,其中包含 Crisis、T17 和 Open-TLS 数据集的示例。data/question_examples.json
步骤 3. 运行 CHRONOS
我们已经发布了 CHRONOS 的代码,以完成开放域的 Timeline Summarization 任务。您还可以参考我们的 modelscope 存储库来构建应用程序。streamlit
替换键
在运行之前,请将占位符替换为您自己的 API 密钥,以调用 Qwen 或 GPT 模型。src/model.py
DASHSCOPE_API_KEY = "YOUR_API_KEY"
OPENAI_API_KEY = "YOUR_API_KEY"
请将其替换为您自己的 BING Web 搜索 API 密钥,以从 Internet 搜索新闻。src/searcher.py
BING_SEARCH_KEY = "YOUR_API_KEY"
如果您希望 CHRONOS 使用整个页面,而不仅仅是代码段,请替换您自己的 JINA 键。src/reader.py
JINA_API_KEY = "YOUR_API_KEY"
运行脚本
要试验 Open-TLS 数据集,请运行:
python main.py \
--model_name "$model" \
--max_round "$round" \
--dataset open \
--output "$output_dir" \
--question_exs
其中 是最大自我提问回合,并设置输出目录,其中包含:(1) 检索到的新闻,(2) 生成的时间线和 (3) 评估分数。"$round""$output_dir"