中国DOS联盟论坛

中国DOS联盟

-- 联合DOS 推动DOS 发展DOS --

联盟域名:www.cn-dos.net  论坛域名:www.cn-dos.net/forum
DOS,代表着自由开放与发展,我们努力起来,学习FreeDOS和Linux的自由开放与GNU精神,共同创造和发展美好的自由与GNU GPL世界吧!

游客:  注册 | 登录 | 命令行 | 搜索 | 上传 | 帮助 »
中国DOS联盟论坛 » DOS批处理 & 脚本技术(批处理室) » [求助]如果将文件中相同的部分替换掉?
作者:
标题: [求助]如果将文件中相同的部分替换掉? 上一主题 | 下一主题
honghunter
中级用户





积分 321
发帖 135
注册 2007-2-4
状态 离线
『第 16 楼』:   使用 LLM 解释/回答一下

Originally posted by zh159 at 2007-12-6 12:19 AM:
估计是要处理成这样:


是的,希望处理成类似那样的格式。




探讨批量下载与智能化的下载
2007-12-6 09:09
查看资料  发短消息  网志   编辑帖子  回复  引用回复
honghunter
中级用户





积分 321
发帖 135
注册 2007-2-4
状态 离线
『第 17 楼』:   使用 LLM 解释/回答一下

Originally posted by junchen2 at 2007-12-6 01:08 AM:
awk "NF>0{sub(/省 市/,\",\");sub(/房  型:/,\",\");sub(/万元\/套/,\",\");sub(/备  注:/,\",\");sub(/房  龄:/,\",\") ...



谢谢,

只是你这个也是先识别出来之后,在写语句来实现替换得到最终格式的。

我现在的问题是如何自动的识别出来。比如识别出“省 市”是一个每行都重复的词。




探讨批量下载与智能化的下载
2007-12-6 09:15
查看资料  发短消息  网志   编辑帖子  回复  引用回复
honghunter
中级用户





积分 321
发帖 135
注册 2007-2-4
状态 离线
『第 18 楼』:   使用 LLM 解释/回答一下

Originally posted by lxmxn at 2007-12-6 01:02 AM:
重复的部分是不是固定格式的?

如果不是固定的,你的意思是不是要让程序来找到这些重复的部分,然后替换成(,)?



是的,就是想要让程序来找出这些重复的部分,比如找出“省 市”、“物业名称”……




探讨批量下载与智能化的下载
2007-12-6 09:25
查看资料  发短消息  网志   编辑帖子  回复  引用回复
honghunter
中级用户





积分 321
发帖 135
注册 2007-2-4
状态 离线
『第 19 楼』:   使用 LLM 解释/回答一下

Originally posted by everest79 at 2007-12-6 02:43 AM:

静态的html,你在导入任一页的WEB数据时只需要先将那个查询保存下来,本来就是文本格式,查询内容除了web地址有变化外其它是一样的,这样你可以 ...



查询结果是由部分信息,我需要的是全部信息,所以:
1,先抓取查询结果网页,
2,然后提取出其中的详细情况的URL列表,
3,依次下载每一个详细情况的网页,(每一个都类似http://www.fangduo.com/listsell.asp?id=33664
4,目前的问题点:怎么有效的提取每个详细情况网页中的这些信息?




探讨批量下载与智能化的下载
2007-12-6 10:18
查看资料  发短消息  网志   编辑帖子  回复  引用回复
lxmxn
版主




积分 11386
发帖 4938
注册 2006-7-23
状态 离线
『第 20 楼』:   使用 LLM 解释/回答一下

Originally posted by honghunter at 2007-12-6 09:25:
是的,就是想要让程序来找出这些重复的部分,比如找出“省 市”、“物业名称”……

你这样的要求有点像是人工智能哈。

看看下面被标记的部分,是不是也要剔除呢?如果也要剔除,那也好办了。
上海华泾新村二手房出售(地址:徐汇区华泾路880弄1楼)详情####房产编号: F52532828##省 市: 上海 物业名称: 华泾新村##所在区县: 徐汇 物业地址: 徐汇区华泾路880弄1楼##房  型: 2室1厅1卫 房  龄: 年##产权说明: 个人产权 业主报价: 55 万元/套##建筑面积: 57.2平方米 使用面积: 平方米##面积说明: ##房屋朝向: 南 所在楼层: 1层(共6层)##物业类型: 普通住宅 物业费用: 元/平方米·月##装修情况: 简装修##周边设施: ##交通说明: 770,718,714,804等##中介服务: ##看房时间: 提前联系##登记日期: 2007-12-3 有效期: 不限##备  注: 赠送维修基金,煤气等设备####>>>联系方式 ( 好年华上中西路店 )##联 系 人: 请恰值班人员##联系电话: 54816012 54816013##手机: ##QQ: ##email: ##


2007-12-6 19:21
查看资料  发送邮件  发短消息  网志   编辑帖子  回复  引用回复
honghunter
中级用户





积分 321
发帖 135
注册 2007-2-4
状态 离线
『第 21 楼』:   使用 LLM 解释/回答一下

不是提出同一行中重复的部分,是要找出不同行中重复的部分。




探讨批量下载与智能化的下载
2007-12-6 20:24
查看资料  发短消息  网志   编辑帖子  回复  引用回复

请注意:您目前尚未注册或登录,请您注册登录以使用论坛的各项功能,例如发表和回复帖子等。


可打印版本 | 推荐给朋友 | 订阅主题 | 收藏主题



论坛跳转: