本章主要介绍Java与XML。
1、XML非常适合表示复杂的、结构化数据。
2、XML与HTML有所差异,XML更严格,如:区分大小写、必须结束标签、属性必须有值。
3、XML以文档头开始,如:
<?xml version="1.0" encoding="utf-8"?>
4、然后包含若干元素和子元素。
<configuration>
<title></title>
...[......]
本章主要介绍Java与XML。
1、XML非常适合表示复杂的、结构化数据。
2、XML与HTML有所差异,XML更严格,如:区分大小写、必须结束标签、属性必须有值。
3、XML以文档头开始,如:
<?xml version="1.0" encoding="utf-8"?>
4、然后包含若干元素和子元素。
<configuration>
<title></title>
...[......]
之前配置Hadoop的很多步骤不太详细,配置文件的许多优化点也没太搞清楚,重新写一下。
2012.06.22更新:Hadoop版本兼容到1.0.3。
0、ssh免密码登录
ssh-keygen -t rsa -P ""
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
echo "StrictHostKeyChecking no" >> ~/.ssh/c[......]
SimpleBM25F是BM25F的基础拓展版本,主要用于多个域的拓展,感兴趣的可以看《Simple BM25 Extension to Multiple Weighted Fields》。
主要观点:按照权重将不同域重复相应次数,拼成无结构的混合文本桶,然后只计算一次BM25得分。
而之前很多人采用的各个域先计算不同的BM25,再线性组合的做法,则破坏了词项独立性而效果很差。
传统:bm25.cpp
#include <xapian.h>
#include &[......]