<![CDATA[文字]]> zh_CN 2008-11-21 11:24:10 2008-11-21 11:24:10 Hashit RSS Generator <![CDATA[金意陶·切尔西2008中国广州挑战赛]]> Fri, 06 Jun 2008 09:11:14 GMT <![CDATA[Amazing website]]> Mr.Boob tells you the extreme capablity of flash. ]]> Thu, 06 Dec 2007 12:20:46 GMT <![CDATA[The Web is Agreement]]> The Web is Agreement

A slightly mad poster put together on behalf of Osmosoft for tomorrow’s internal Open Source Awareness Day which Phil has printed out in scary A0. Like all my images, I’ve put this under a CC, so feel free to reproduce it, mash it up, do a better job, whatever!

Update: There’s now a high quality scan on Archive.org ]]>
Thu, 15 Nov 2007 07:12:01 GMT
<![CDATA[RSS爬虫时间规则]]>
RSS的网络爬虫的时间规则的设置:

设定RSS爬虫重新访问的5个级别:

Level[1]=20 Minutes
Level[2]=200 Minutes
Level[3]=1000 Minutes
Level[4]=2000 Minutes
Level[5]=10000 Minutes

设定RSS 源的权重为从0到5

RssRank=0 ~ 5

要点:
1.每一个RSS 源对应一个时间T[i],这个时间取整就得到 Level 。例如,这个时间是250分钟,那么就取Level[2],就是每隔200分钟抓取一次。
2.每一次这个对应时间都是改变的,根据这个RSS源有没有变化。
3.当更新了,这个时间就除以1.2 ,当未更新,这个时间就乘以1.2。
4.RssRank起到调整更新时间级别的规则。例如当一个RSS在Level[5],但是它的RssRank是3,那么更新时间调整为Level[5-3] = Level[2] = 200分钟。

总体公式:

T[i+1] = T[i] [*(1.2)/(1.2)]
T = Level[ AntiLevel[T[i][(1.2)|/(1.2)]] - RssRank]

经过长时间的运行,T序列都变动非常稳定。 ]]>
Wed, 14 Nov 2007 03:49:47 GMT
<![CDATA[信息的表达]]>
Theta(I_A, I_B) = sqrt(arccos( Relation(I_A, I_B)))

信息在上述表达式里是矢量,信息之间的夹角表现为信息之间的点乘。而点乘的结果表现为信息之间的关系(见上一章里面信息的相关性)的开方,由此定义信息之间的夹角应是从0度到90度之间的数值:

0度,表明信息平行,或者乘平行的信息,说明信息之间完全相关。
90度,表明信息正交,正交的信息,说明信息之间没有相关性。

由此推算unix 和 Linux 之间的夹角为:73度。

2] 信息的表达:

信息失的概念:
对于任何信息失,对其取模可以得到信息失的长度,M_A=||I_A|| ,那么单位信息失表达为:
i_A = I_A/M_A = I_A/||I_A||

适当的选取信息失,从而可以选择单位信息失,那么任何的信息矢量可以通过单位信息失的组合得到。

我们首先来假设建立如下的一组信息失:

i_1, i_2, i_3,... i_n. 即整个信息空间有n 维,并由信息失(i_1,..,i_n)来构造,那么任何这个信息空间的信息失A可以写成如下的格式:

A = a_1 * i_1 + a_2 * i_2 +..+ i_n*a_n

其中 a_j = A点乘i_j , j从1到n。 ]]>
Mon, 12 Nov 2007 08:13:51 GMT
<![CDATA[web2.0最全的国外API应用集合]]> 原文地址:http://www.buguat.com/post/98.html

2.0时代,越来越多的API被大家广泛应用,如果你还不了解API是何物,请看这里的介绍。下面是由techmagazine总结出的国外API应用,涵盖了30大类,相当全面了~不难发现,虽然都是英文的居多,但有很多已经推出了中文版本,而且我们也在应用中。

广告

Google AdSense Advertising management
Google AdWords Search advertising
Microsoft adCenter Online advertising services
UrlTrends Link tracking and search optimization
Wordtracker Search engine optimization services
Yahoo Ads Online ad management
Yahoo Search Marketing Search advertising platform
Answerbag Questions and answers service
Blogwise Blog and feed search service
SplogSpot Database of spam blogs

博客搜索

Blogwise Blog and feed search service
SplogSpot Database of spam blogs
Tailrank Blog search and news aggregation service
Technorati Blog search services

博客

Akismet Blog spam prevention service
Blogger Blogging services
FeedBlitz Blogs by email service
FeedBurner Blog promotion tracking service
LiveJournal Blogging software
Performancing Blog management
TypePad Blog management
Weblogs Blog ping service
Windows Live Spaces Blog services

书签

Blogmarks Social bookmarking
del.icio.us Social bookmarking
linkaGoGo Social bookmarking service
Ma.gnolia Social bookmarking service
OnlyWire Social bookmarklet service
Shadows Social bookmarking and community
Simpy Social bookmarking

日历

30 Boxes Calendar service
Google Calendar Calendar service
Spongecell Online calendar service

聊天

AOL Instant Messenger Instant messaging chat service
AOL Presence Online presence service
Google Talk Chat application
IMified Instant messenger buddy
Lingr Online chatroom services
MSN Messenger Chat and messaging
WebAIM Web based instant messaging
Yahoo Messenger Instant messaging

社区

Blue Dot Content sharing community
coRank Distributed user reviews service
Facebook Social networking service
PartySpark Social events service
RockYou Super Wall Content sharing platform within Facebook
Twitter Community site

电子邮件

Email Address Validator Email address validation service
ExactTarget Email delivery services
IntelliContact Email marketing service
JangoMail Bulk email service
Mailbuild Email forms and templates service
Publicaster Email marketing management
StrikeIron Email Verification Email verification service
Vertical Response Email management services
Webmail.us Email hosting service
WhatCounts Email management services
Yahoo Mail Web based email system

企业

Employease On-demand human resource management
Google Provisioning User provisioning for Google Applications
Lokad Time series forecaster
NetDocuments Enterprise document management service
NetSuite Business application suite
Salesforce.com CRM services
WebEx Conferencing and collaboration services

日程

Eventfinder Events calendar
Eventful Events discovery and demand
Spraci Events and clubs database
Upcoming.org Collaborative event calendar
Zvents Local events search and community

金融财政

Blinksale Online invoicing services
Currency Rates Currency rates
Dun and Bradstreet Credit Check Credit check
FreshBooks Online invoicing and time tracking
KashFlow Online accounting software
Moneytrackin Expense tracking
NetAccounts Online accounting service
Prosper Peer-to-peer network
StrikeIron Historical Stock Quotes Stock price quotes for US equities
StrikeIron Mutual Funds Historical mutual funds
StrikeIron Stock Quotes Basic Real-time stock quotes
Wesabe Personal finance management and community

政府

Cicero Lookup service for US elected officials by address
Civic Footprint Political geography lookup for Illinois
Democracy In Action Advocacy services for nonprofits
FedSpending.org Database of US government spending
Follow The Money Database of US campaign contributions
GovTracker Rhode Island state data services
LOUIS US federal documents database
Open Patent Services European Patent Office web services
Sunlight Labs US Congress database service
TheyWorkForYou Track the UK Parliament
Who is my Representative Database of US congressional representatives

互联

Alexa Site Thumbnail Thumbnail images of web site home pages
Alexa Top Sites Web site traffic rankings
Amazon EC2 Elastic Compute Cloud virtual hosting
Clicky Web site analytics
Compete Internet web site metrics and analytics
Cordurl Geo coordinate translation
Dapper Service for API creation
Domain Tools Internet domain name lookup
Durl.us URL shortening
Ecommstats Web analytics
Hostip.info IP lookup
HTML2PDF HTML to PDF conversion
Internet Archive Non-profit Internet library
IP Address Lookup Determine IP address from domain name
Mint Web site metrics and reporting
Mon.itor.us Web site monitoring services
MyNotify Feed publication
Nenest Web forms and application framework
Outune Web map engine
Pingdom Web site monitoring and reporting
Qurl URL redirection
SoftLayer Systems management and monitoring
UnAPI Proposal for web clipboard
W3Counter Web site metrics tools
Webride Attaches discussions to any site
WebThumb Thumbnail image generation
Windows Live Custom Domains Web site administration
Yahoo Site Explorer Web site analysis service

求职

Indeed Job search services
SmashFly Job board posting service

地图

ArcWeb Mapping and GIS services
BigTribe Location based advertising
deCarta Location-based services
EarthTools Web services for geographical information
FeedMap Blog geo-coding
Garmin MotionBased GPS services and mapping
geocoder Geocoding services for US
geocoder.ca Geocoding services for Canada
GeoIQ Geospatial analysis and heat mapping service
GeoNames Geographic name and postal code lookup
GetMapping Aerial photography and mapping service
GlobeXplorer Mapping services
Google Maps Mapping services
HopStop Mass transit and walking directions
iShareMaps On Demand UK Postcode Geocoder
Map24 AJAX API Mapping services
Mappr Photo mapping
MapQuest Online mapping service
Mapstraction Mapping API abstraction layer
MetaCarta Location and geotagging services
Microsoft MapPoint Mapping services
Microsoft Virtual Earth Mapping services
Multimap Global online mapping service
NASA Satellite mapping images
Naver Maps Korean mapping service
Nearby.org.uk Geocoding service for UK
Ontok Geocode any US address
OpenLayers Mapping API abstraction layer
OpenStreetMap The Free Wiki World Map
Platial Collaborative geographic service
Plazes Location discovery service
Poly9 FreeEarth 3D mapping service
Pushpin Mapping service
Urban Mapping Urban geo-spatial data services
USGS Elevation Query Service Determine elevation based on latitude and longitude
ViaMichelin Mapping, directions, and travel booking
Wayfaring Map creation and sharing service
WHERE GPS Mobile GPS widget platform
Where Is Tim Web Service Location tracking
Where2GetIt Geospatial Non-mapping geospatial services
Where2GetIt SlippyMap Online mapping service
Whereis Australian and New Zealand mapping service
Wigle Wireless network mapping
Yahoo Geocoding Geocoding services
Yahoo Map Image Map image creation service
Yahoo Maps Mapping services
ZeeMaps Embedded maps and international geocoding
ZoomIn Australian mapping service

媒体管理

BBC Multimedia archive database
Grouper Video Video sharing service
Orb Digital media remote access and management
Phanfare Photo and video sharing service
Streamload Online media storage

医疗

cPath Medical database lookup
Kegg Bioinformatics data services
NCBI Entrez Life sciences search services
SeqHound Bioinformatics research database

短信

411Sync SMS, WAP, and email messaging
Aql SMS solutions portal
Clickatell SMS Messaging services
Jaiku Social messaging service
Mobivity SMS marketing messaging service
Movil SMS messaging
PartySync Messaging services
Sabifoo IM to RSS conversion service
SmsBug SMS messaging services
StrikeIron Global SMS Pro SMS messaging services
StrikeIron Mobile Email Mobile email messaging service
Textamerica Moblogs
Trekmail Messaging services
Twittervision Location based data for the Twitter service
Userplane Communication software for online communities
Vazu SMS messaging service

音乐

AOL Music Now Music playlist management
Digital Podcast Podcast search
Faces.com Photo and media sharing service
Feedcache Feed caching service
Freedb / CDDB Online CD catalog service
Last.fm Music playlist management
MP3Tunes Music services
MusicBrainz Music metadata community service
MusicDNS.org Music fingerprinting service
MusicMobs Social music service
OpenStrands Music recommendation and discovery
Rhapsody Online music services
SeeqPod Music recommendation service
SNOCAP Digital music marketplace
Soundtoys Visual artists works repository
Tunelog Music metadata management
WebJay Music playlist management
Winamp Customizable music player
Yahoo Music Engine Desktop music player

新闻

AmphetaRate News aggregator
ClearForest Semantic Web Services1 Natural language processing tools
Daylife Online News Service
Digg  
Findory Personalized news aggregation
Macromedia News Aggregator Data access service
Moreover News delivery
NewsCloud Social news service
NewsIsFree Online news aggregation

办公

Backpack Online information manager
Big Contacts Web based contact management
EditGrid Online spreadsheet
Google Documents List Document management services
Google Spreadsheets Online spreadsheets
Numbler Online spreadsheet service
SlideShare Presentation sharing community
Zoho Online office suite

照片

AOL Pictures Online photo management
Buzznet Photo sharing
Flickr Photo sharing service
Fotolia Royalty free stock photos
Google Picasa Photo management and sharing service
imageLoop Animated slideshow service
Panoramio Photo upload site with organizer
Pixagogo Online photo services
Riya Photo search
ShutterPoint Stock photography service
Smugmug Photo sharing service
Snipshot Online photo editing service
WebShots Photo sharing service
Yahoo Photos Online photo service
Zoto Photo sharing service

介绍

Criteo Distributed recommendation service
EasyUtil Recommendation service
RapLeaf Portable ratings system
Yelp Local user reviews and city guides

知识库

Aonaware Dictionary Dictionary lookup service/td>
City and State by Zip Code Address lookup service
Dun and Bradstreet Research company background data
Bussines Verification Business research services
FUTEF Wikipedia API Third party Wikipedia web service
ISBNdb Books database
Library of Congress SRW Information database search
Microsoft MSDN Technical reference library
OpenDOAR Academic research repository
PhoneVal Phone number validation service
RealEDA Reverse Phone Lookup Lookup address and name via phone
SRC Demographics Demographic reference data
StrikeIron Address Verfication Global address verification service
StrikeIron Do Not Call Telephone number verification
StrikeIron Insider Trading Insider trading transaction information
StrikeIron Phone Number Enhancement Adds address and statistical data based on phone number
StrikeIron Residential Lookup Residential directory lookup and validation service
StrikeIron Reverse Phone Lookup Reverse phone lookup services
StrikeIron Sales Tax Basic Sales and use tax data service
StrikeIron Super Data Pack APIs for variety of reference data sources
StrikeIron US Census Census data information service
StrikeIron Zacks Company Profile Corporate profiles web service
Talis Library 2.0 reference services
UrbanDictionary Slang dictionary lookup
US Yellow Pages Telephone directory
Yahoo Answers Community driven reference service

搜索

Alexa Web Information Service Web site information and traffic data
Alexa Web Search Web Search Engine
Amazon A9 OpenSearch  
Gigablast  
Google Ajax Search Web search components
Google Code Search Code search service
Google Desktop Desktop search and gadgets
Google Search Search services
Kratia Democratic search engine
Naver Korean search engine
Vast Structured web search
Windows Live Search Internet search
Wink Social search service
Yahoo Image Search Image search services
Yahoo Local Search Local search service
Yahoo My Web Search Personalized search services
Yahoo Related Suggestions Search suggestion service
Yahoo Search Search services
Yahoo Term Extraction Contextual search service
AOL Open Auth Authentication services

购物

Amazon eCommerce Online retailer
Amazon Historical Pricing Historical product sales data
Authorize.Net Internet based payment gateway services
AvantLink Affiliate marketing network
CNET Shopping services
Commission Junction Online affiliate programs
DataUnison eBay Research eBay pricing and sales trend data
Direct Textbook Book price comparison service
eBay Online auction marketplace
GoodStorm Online retail ecommerce
Google Base Platform for structure and semi-structured data
Google Checkout Shopping cart services
PriceRunner Shopping comparison engine
Shopping.com Online retail shopping
SwapThing Community driven swapping site
UPC Database UPC lookup service
Windows Live Expo Online classifieds service
Yahoo Shopping Shopping services
Zazzle On-demand product creation service

在线存储

Amazon S3 Online storage services
Box.net Online file storage
MoveDigital File delivery and management services
Omnidrive Online storage services
Open Xdrive<]]> Wed, 07 Nov 2007 06:56:29 GMT <![CDATA[”ha!shit“组织成员首次公开宣称对奥运官方网站被袭击事件负责]]> ha!shit"组织头目bububa在酒足饭饱之后宣称,对之前两日发生的北京奥运官方网站大面积瘫痪事件负责。
  据知情人透露,bububa是在奥运官网启动售票的前晚,看了CCTV5对奥运票务中心主任容军的专访后产生了这次行动的动机,并在接下来的两小时之内做好了计划和部署,并在后半夜调动了2万多台全球各地的"肉机"对奥运网站进行了每小时八百万次的访问,导致了网站瞬间访问数量过大,技术系统应对不畅。在那次的采访之中,奥运票务中心主任荣军对主持人关于技术故障的提问,回答时表现的非常自满,表示奥运官网可以轻易满足每小时一百万次以上的数据提交,绝对不会出现任何问题,正是这段话引发了bububa之后的行动。
  bububa于昨日同时表示,策划并执行这个袭击,是为了向奥运组委会提个醒,奥运会没有开始之前,不能有一丝一毫的松懈,容不得丝毫马虎。bububa甚至抛出了非常经典的一句话:“奥运会没有第二次机会”。虽然有不择手段之嫌,但他强烈的爱国主义情怀仍值得我们尊敬,也希望奥组委不计前嫌,吸取教训,多做实事,不要给中国人民丢脸。 ]]> Thu, 01 Nov 2007 16:16:12 GMT <![CDATA[蘑菇帮复出欲以谣言称霸互联网]]> Facebook欲以1亿5000万美元收购Hashit并意外造到Hashit的拒绝。经多方证实此消息源自zakkzhang. 通过百谷歌度搜索证明Zakkzhang系著名互联网流氓团体蘑菇帮帮主,早些时间因散播国内著名RSS聚合网站抓虾网接受国际财团数亿美元黑幕而被迫下线。近日Zakkzhang又发现新兴网站Hashit发展事态良好,决定重操旧业造谣之,以造成对Hashit的负面影响阻挠Hashit的上市计划,并借自己机收购Hashit。更让人无法容忍的是Zakkzhang的钱连收购个厕所都不够!幸好此举被我公安部门及时查获,并于此公之于众,请广大网友引以为戒。 ]]> Mon, 29 Oct 2007 05:36:59 GMT <![CDATA[Facebook欲1亿5000万美元收购Hashit]]> 哈希网”抛出 橄榄枝,提出用1亿5000万美元高价进行收购,但被另有他图的hashit网婉拒。这一举措成为国际资本看好中国网络业投资价值的最新迹象。

社交网络投资热被视为目前兴起的“互联网第二波淘金潮”。Facebook由美国哈佛大学学生MarkZuckerberg于2004年创办。 相对于其他社交网站,Facebook除了拥有大量活跃用户之外,还有一个很强的优势:真实、精准的注册用户信息,这正是其最受广告商青睐的一点。微软本 周三就和Facebook达成协议,出资2.4亿美元收购Facebook1.6%股权,同时为Facebook销售网络广告,以进一步加强双方去年开始 的市场营销合作关系。上述交易的达成,使Facebook价值已高达150亿美元。

消息人士透露,Facebook最主要的竞争对手、默多克旗 下的MYSPACE正保持高速扩张势头,并开始率先进入全球第2大互联网市场中国。对此,Facebook高度关注,计划跟进对手开发中文版本网站,首先 将争取进入中国创意数字艺术品交易市场,目前Facebook已开始试探性推出了类似产品。但受限于 邮件地址注册障碍、本地化推广障碍、收费政策和速度障碍,Facebook要真正打进中国市场还路途漫长。这样,Facebook很自然地盯上 了中国的巨头。

在中国,创意艺术交易市场发展迅猛,尤其是hashit网,目前在不进行推广也没有风险投资注资的情况下,依靠独立发展,活跃用户目前已达到7000多万,尤其是灵界的朋友纷纷在哈希网注册,目前hashit网仍未开放给非生命体留言的权限,预计在下次投胎大潮中,hashit网的流量和知名度会有一次井喷式增长。知情人士透露,“哈希网”的创始人为火星海归,与 Facebook高层彼此认识,在最近的接触中,Facebook提出了1亿5000万美元的收购开价,但“哈希网”未予接受,其理由是将坚持独立上市计划,这点和同样陷入这个苦恼的占座网殊途同归,能够看到国内新一代互联网企业表现出如此的骨气和决心,让我们对中国互联网的发展又增添了一份信心。

]]>
Sun, 28 Oct 2007 13:29:16 GMT
<![CDATA[Facebook数据结构]]> ]]> Fri, 26 Oct 2007 04:07:12 GMT <![CDATA[图像聚类与检索]]>     1  直方图特征:

       对颜色特征的表达方式有许多种,我们采用直方图进行特征描述。常见的直方图有两种:统计直方图,累积直方图。我们将分别实验两种直方图在图像聚类和检索中的性能。

l         统计直方图

       为利用图像的特征描述图像,可借助特征的统计直方图。图像特征的统计直方图实际是一个1-D的离散函数,即:

       上式中k代表图像的特征取值,L是特征可取值个数,是图像中具有特征值为k的像素的个数,N是图像像素的总数,一个示例如下图:其中有8个直方条,对应图像中的8种灰度像素在总像素中的比例。

 

l         累积直方图 

图像特征统计的累积直方图也是一个1-D的离散函数,即:

       

上式的各个参数含义同前,与上图对应的累积直方图见下:

     2  直方图相似性度量

       得到图像特征的统计直方图后,不同图像之间的特征匹配可借助计算直方图间的相似度量来进行,以下介绍几种常见的直方图的相似度量方法:

l         直方图相交法

              分别为两幅图像某一特征的统计直方图,则两图像之间的匹配值P(Q, D)可借助直方图相交来实现,即:




l         直方图匹配法

直方图间的距离可使用一般的欧式距离函数来衡量:

       
    我们可以实验多种相似性度量准则,研究它们之间的差异,找出对于某类图像,那种相似性度量能更加准确的描述两幅图像之间的相似程度。
    3  纹理特征:

       纹理是另一个描述图像时常用的概念,如前所述,纹理通常定义为图像的某种局部性质, 或是对局部区域中像素之间关系的一种度量。纹理特征可用来对图像中的空间信息进行一定程度的定量描述。本文主要讨论基于共生矩阵对纹理进行描述的模型。

3.1 共生矩阵定义

       共生矩阵是用来描述纹理中灰度基元之间空间联系的基础,基于共生矩阵的模型充分利用了纹理中灰度分布的性质。基于共生矩阵,可定义许多基于统计法的纹理特性。

       若将图像的灰度级定为N , 那么共生矩阵为N×N 矩阵, 可表示为 , 其中位于(h, k ) 的元素的值表示一个灰度为h 而另一个灰度为k 的两个相距为 的像素对出现的次数。设S为目标区域R中具有特定空间联系的像素对的集合,则共生矩阵P可定义为:

    
      
上式等号的分子是具有某种空间关系、灰度值分别为的象素对的个数,分母为象素对的总个数。

       不同的图像由于纹理的尺度的不同其灰度共生矩阵可以有很大的差别。下图分别给出一个具有粗纹理的图像和它的共生矩阵图及一个具有细纹理的图像和它的共生矩阵图的例子。由此可见用对灰度共生矩阵的各种统计量可作为纹理特性的度量。

 


不同纹理图像和其对应的共生矩阵图

3.2 纹理描述符

       利用上述灰度共生矩阵可以定义诸如反差、能量、熵和相关等纹理描述符,现介绍如下:

l         反差(或称为主对角线的惯性矩) :

      
       
对于粗纹理, 由于的数值较集中于主对角线附近, 此时(h-k)的值较小, 所以相应的CON值也较小。相反, 对于细纹理则相应的CON 值较大。

l         能量(或称为角二阶矩) :

      
       
这是一种对图像灰度分布均匀性的度量。当的数值分布较集中于主对角线附近时, 其相应的A SM值较大;反之,A SM 值则较小。

l         :

       
    当灰度共生矩阵中各数值相差不大且较分散时, ENT 值较大; 反之, 的数值较集中时, EN T 值较小。

l         相关:

       其中分别为,的均值和标准差, 是矩阵M 中每列元素之和; 是矩阵M 中每行元素之和。相关量是用来描述矩阵中行或列元素之间相似程度的,它是灰度线性关系的度量。

3.3 纹理特征矢量

       在纹理特征的提取中, 我们先把图像的亮度分量图分成64 个灰度级, 并构造四个方向的共生矩阵,即,然后分别计算四个共生矩阵的上述4 个纹理参数, 最后以各参数的均值和标准差即作为纹理特征向量中的各个分量。

4 纹理特征的相似度

       由于以上8 个分量物理意义和取值范围不同, 需对它们进行内部归一化。这样在计算相似距离时, 可使各分量具有相同权重。高斯归一化方法是一种较好的归一化方法, 其特点是少量超大或超小的元素值对整个归一化后的元素值分布影响不大, 具体方法如下:

  一个N 维的特征向量可记为: F = []。如用代表图像库中的图像, 则对其中任一幅图像 其相应的特征向量为。假设特征分量值序列符合高斯分布, 计算出其均值和标准差 , 然后利用下式可将归一化至[ - 1, 1 ]区间:

    
     
根据上式归一化后, 各个均转变成具有N (0, 1) 分布的。如果利用3进行归一化, 的值落在[ - 1, 1 ]区间的概率可达99% 。实际应用中, 我们将[ - 1, 1 ]区间外的值设为-11, 以保证所有的值均落在[ - 1, 1 ]区间。

5 聚类算法

       聚类分析的方法可以分为三类:简单聚类法、系统聚类法和动态聚类法。

       动态聚类的思想是首先选择若干个样本点作为聚类中心,然后按照某种聚类准则使各样本点向各个中心聚集,从而得到初始分类;然后判断初始分类是否合理,如果不合理,则修改聚类中心,反复进行修改,直到分类合理为止。动态聚类有多种算法,其中比较著名的是K -均值算法和ISODATA 算法。本文采用K-均值算法,下面对其进行简要介绍:

       设有N个待分类样本,聚类为K 类,N K

       第一步:任选K个初始聚类中心,例如选前K个样本(称为旧聚类中心);
      
第二步:将每一个待分类样本按照最近邻准则分类到以旧聚类中心为标准样本的各类中去;
      
第三步:计算分类后各类的重心,称为新聚类中心:,其中类中的样本数;
      
第四步:检验是否分别等于,如果相等,则算法收敛,结束,否则用代替,返回第二步。

6  检索算法

       检索只需要计算待检索图像与其它图像之间的相似度,按照相似度从小到大的原则排序,根据阈值选取前n个即可。

7  聚类性能分析

       聚类的性能分析可以用聚类的准确度来评价。

8 检索的性能分分析

       检索的性能需要用准确率和招回率来评价。

]]>
Mon, 22 Oct 2007 17:24:15 GMT
<![CDATA[还是一个关于相关性的问题]]>
查找关于“原子能的应用”的网页。我们第一步是在索引中找到包含这三个词的网页(详见关于布尔运算的系列)。现在任何一个搜索引擎都包含几十万甚至是上百万个多少有点关系的网页。那么哪个应该排在前面呢?显然我们应该根据网页和查询“原子能的应用”的相关性对这些网页进行排序。因此,这里的关键问题是如何度量网页和查询的相关性。

我 们知道,短语“原子能的应用”可以分成三个关键词:原子能、的、应用。根据我们的直觉,我们知道,包含这三个词多的网页应该比包含它们少的网页相关。当 然,这个办法有一个明显的漏洞,就是长的网页比短的网页占便宜,因为长的网页总的来讲包含的关键词要多些。因此我们需要根据网页的长度,对关键词的次数进 行归一化,也就是用关键词的次数除以网页的总字数。我们把这个商称为“关键词的频率”,或者“单文本词汇频率”(Term Frequency),比如,在某个一共有一千词的网页中“原子能”、“的”和“应用”分别出现了 2 次、35 次 和 5 次,那么它们的词频就分别是 0.002、0.035 和 0.005。 我们将这三个数相加,其和 0.042 就是相应网页和查询“原子能的应用”
相关性的一个简单的度量。概括地讲,如果一个查询包含关键词 w1,w2,...,wN, 它们在一篇特定网页中的词频分别是: TF1, TF2, ..., TFN。 (TF: term frequency)。 那么,这个查询和该网页的相关性就是:
TF1 + TF2 + ... + TFN。

读 者可能已经发现了又一个漏洞。在上面的例子中,词“的”站了总词频的 80% 以上,而它对确定网页的主题几乎没有用。我们称这种词叫“应删除词”(Stopwords),也就是说在度量相关性是不应考虑它们的频率。在汉语中,应删 除词还有“是”、“和”、“中”、“地”、“得”等等几十个。忽略这些应删除词后,上述网页的相似度就变成了0.007,其中“原子能”贡献了 0.002,“应用”贡献了 0.005。

细心的读者可能还会发现另一个小的漏洞。在汉语中,“应用”是个很通用的词,而“原子能”是个很专业的词,后者在相关性排名中比前者重要。因此我们需要给汉语中的每一个词给一个权重,这个权重的设定必须满足下面两个条件:

1. 一个词预测主题能力越强,权重就越大,反之,权重就越小。我们在网页中看到“原子能”这个词,或多或少地能了解网页的主题。我们看到“应用”一次,对主题基本上还是一无所知。因此,“原子能“的权重就应该比应用大。

2. 应删除词的权重应该是零。

我 们很容易发现,如果一个关键词只在很少的网页中出现,我们通过它就容易锁定搜索目标,它的权重也就应该大。反之如果一个词在大量网页中出现,我们看到它仍 然不很清楚要找什么内容,因此它应该小。概括地讲,假定一个关键词 w 在 Dw 个网页中出现过,那么 Dw 越大,w 的权重越小,反之亦然。在信息检索中,使用最多的权重是“逆文本频率指数” (Inverse document frequency 缩写为IDF),它的公式为log(D/Dw)其中D是全部网页数。比如,我们假定中文网页数是D=10亿,应删除词“的”在所有的网页中都出现,即Dw =10亿,那么它的IDF=log(10亿/10亿)= log (1) = 0。假如专用词“原子能”在两百万个网页中出现,即Dw=200万,则它的权重IDF=log(500) =6.2。又假定通用词“应用”,出现在五亿个网页中,它的权重IDF = log(2)
则只有 0.7。也就只说,在网页中找到一个“原子能”的比配相当于找到九个“应用”的匹配。利用 IDF,上述相关性计算个公式就由词频的简单求和变成了加权求和,即 TF1*IDF1 + TF2*IDF2 +... + TFN*IDFN。在上面的例子中,该网页和“原子能的应用”的相关性为 0.0161,其中“原子能”贡献了 0.0126,而“应用”只贡献了0.0035。这个比例和我们的直觉比较一致了。

TF/IDF(term frequency/inverse document frequency) 的概念被公认为信息检索中最重要的发明。在搜索、文献分类和其他相关领域有广泛的应用。讲起 TF/IDF 的历史蛮有意思。IDF 的概念最早是剑桥大学的斯巴克-琼斯[注:她有两个姓] (Karen Sparck Jones)提出来的。斯巴克-琼斯 1972 年在一篇题为关键词特殊性的统计解释和她在文献检索中的应用的论文中提出IDF。遗憾的是,她既没有从理论上解释为什么权重IDF 应该是对数函数 log(D/Dw)(而不是其它的函数,比如平方根),也没有在这个题目上作进一步深入研究,以至于在以后的很多文献中人们提到 TF/IDF 时没有引用她的论文,绝大多数人甚至不知道斯巴克-琼斯的贡献。同年罗宾逊写了个两页纸的解释,解释得很不好。倒是后来康乃尔大学的萨尔顿 (Salton)多次写文章、写书讨论 TF/IDF 在信息检索中的用途,加上萨尔顿本人的大名(信息检索的世界大奖就是以萨尔顿的名字命名的)。很多人都引用萨尔顿的书,甚至以为这个信息检索中最重要的概 念是他提出的。当然,世界并没有忘记斯巴克-琼斯的贡献,2004年,在纪念文献学学报创刊 60 周年之际,该学报重印了斯巴克-琼斯的大作。罗宾逊在同期期刊上写了篇文章,用香农的信息论解释 IDF,这回的解释是对的,但文章写的并不好、非常冗长(足足十八页),把一个简单问题搞复杂了。其实,信息论的学者们已经发现并指出,其实 IDF 的概念就是一个特定条件下、关键词的概率分布的交叉熵(Kullback-Leibler Divergence)(详见上一系列)。这样,信息检索相关性的度量,又回到了信息论。

现 在的搜索引擎对 TF/IDF 进行了不少细微的优化,使得相关性的度量更加准确了。 如果我们结合上网页排名(Page Rank),那么给定一个查询,有关网页综合排名大致由相关性和网页排名乘积决定。 ]]>
Mon, 22 Oct 2007 16:34:31 GMT
<![CDATA[日本av女优姓名对照表]]>
饭岛爱 - Ai Iijima
三浦爱佳 - Aika Miura
大浦安娜 - Anna Ohura
川岛和津实 - Azumi Kawashima
金泽文子 - Bunko Kanazawa
青沼知朝 - Chiasa Aonuma
桐岛惠理香 - Erika Kirishima
原史奈 - Fumina Hara
水野春树 - Haruki Mizuno
草��牛奶 - Ichigo Milk
稻田千花 - Chika Inada
鸠村薰 - Kaori Shimamura
薰 - Kaoru
津野田薰 - Kaoru Tsunoda
水谷佳 - Kei Mizutani
森下来美 - Kurumi Morishita
中村水穗 - Mizuho Lumiere
小泽圆 - Madoka ]]>
Fri, 19 Oct 2007 02:09:50 GMT
<![CDATA[Top Free Web Statistics]]> google analytics

crazy egg

feed burner

reinvigorate

measure map

w3 counter

aw stats

my blog log

web site story

clicky

sitemeter

core metrics

Not Free But Good

have a mint

]]>
Sun, 14 Oct 2007 08:38:43 GMT
<![CDATA[Image Mosaic Generator]]> image mosaic

If a picture is worth a thousand words an image mosaic is worth a billion words!

One of the coolest stuff I have been waiting for. Simply choose an image and the site will generate a High Resolution Image Mosaic…

]]>
Sun, 14 Oct 2007 07:46:54 GMT
<![CDATA[3D Design Inspiration]]> pure 3D work and these have been our inspiration too… Please wait till all the images load and enjoy the stuff. Please resize the browser to a fullscreen (F11 in many browsers) to have a better view…

plant

bruce campbell

F18

Fahai

Livingroom

Artist himself

pontiac