Doc2MD:让 AI Agent 也能读文档
你有没有试过让 Claude 读一个 PDF?
它会告诉你:抱歉,我看不了附件。
Doc2MD 解决的就是这个问题。
它做什么
把各种文档格式转换成 Markdown:
| 输入 | 输出 |
|---|---|
| Markdown | |
| Word (.docx) | Markdown |
| HTML | Markdown |
| 网页 URL | Markdown |
v0.2.0 新功能
URL 前缀模式
像 markdown.new 一样使用:
https://d.indiekit.ai/https/example.com
https://d.indiekit.ai/https/github.com
在任何 URL 前加上 d.indiekit.ai/ 即可获取 Markdown。
三层转换管道
1. Cloudflare Markdown for Agents(最快)
↓
2. 本地 HTML 转换
↓
3. markdown.new Fallback(最稳)
自动 fallback,确保高可用性。
使用方式
最简单:URL 前缀
curl https://d.indiekit.ai/https/example.com
GET API
# 普通转换
curl "https://d.indiekit.ai/convert/url?url=https://example.com"
# 强制用 markdown.new
curl "https://d.indiekit.ai/convert/url?url=https://example.com&prefer_new=true"
转换 PDF
curl -X POST https://d.indiekit.ai/convert/pdf \
-F "[email protected]"
为什么是 Markdown
因为 AI Agent 爱 Markdown:
- 结构清晰:标题、列表、代码块
- Token 效率高:比 HTML 省 80% token
- 通用格式:所有 AI 都能理解
MCP 集成
安装后可以直接在 Claude Desktop 里用:
pip install indiekit-doc2md
配置 claude_desktop_config.json:
{
"mcpServers": {
"doc2md": {
"command": "doc2md-mcp"
}
}
}
MCP 工具
| 工具 | 描述 |
|---|---|
convert_url_to_markdown |
转换 URL(支持 prefer_markdown_new) |
fetch_via_markdown_new |
直接用 markdown.new |
convert_pdf_to_markdown |
转换 PDF |
convert_docx_to_markdown |
转换 Word |
对 Claude 说:「帮我把这个 PDF 转成 Markdown」
作为 Python 库
from doc2md import convert_url, convert_pdf
# 转换网页(自动 fallback)
md = await convert_url("https://example.com")
# 强制用 markdown.new
md = await convert_url("https://example.com", prefer_markdown_new=True)
# 转换 PDF
with open("doc.pdf", "rb") as f:
md = convert_pdf(f.read())
谁需要这个
- AI 开发者:让 Agent 能读取各种文档
- 内容创作者:快速把文档转成博客格式
- 研究人员:批量处理论文 PDF
致谢
感谢 markdown.new 提供的灵感和 fallback 服务。
在线体验:d.indiekit.ai
PyPI:pip install indiekit-doc2md
GitHub:indiekitai/doc2md